Re: Error parsing PDFs

Vincent Mon, 17 Oct 2016 05:13:55 -0700

Hi,

After some additional trying I found that this error does not occur forthis document in Tika 1.11. I forgot to mention in my last message thatI was using Tika 1.13. So is this perhaps a bug in the new Tika version?


Regards,

Vincent

On 17-10-16 13:37, Vincent wrote:

Hi all,
I have some trouble using Tika to parse some PDFs. I crawl them withNutch 1.11, using parse-tika. Some documents will get parsedcorrectly, but most won't, and the error isn't very clear to me:
org.apache.tika.metadata.PropertyTypeException: xmpMM:DocumentID : SIMPLE
        at org.apache.tika.metadata.Metadata.add(Metadata.java:338)
atorg.apache.tika.parser.image.xmp.JempboxExtractor.addMetadata(JempboxExtractor.java:199)atorg.apache.tika.parser.image.xmp.JempboxExtractor.extractXMPMM(JempboxExtractor.java:145)atorg.apache.tika.parser.pdf.PDFParser.extractMetadata(PDFParser.java:216)
        at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:136)
atorg.apache.nutch.parse.tika.TikaParser.getParse(TikaParser.java:167)atorg.apache.nutch.parse.ParseCallable.call(ParseCallable.java:35)atorg.apache.nutch.parse.ParseCallable.call(ParseCallable.java:24)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
        at java.lang.Thread.run(Thread.java:745)

I tested the document with PDFBox ExtractText, and it works fine.

An example of a failing document is:
https://gemeente.groningen.nl/system/files/1._jaarstukken_groninger_archieven_br_raad.pdf
Any suggestions?

Thanks in advance!
Vincent Slot

Re: Error parsing PDFs

Reply via email to