Problem con textExtractor

JOSE FELIX HERNANDEZ BARRIO Wed, 28 Apr 2010 01:50:41 -0700

Hi,


I'm inserting pdf in the repository and get the exception:


2010-04-28 10:25:28,174 INFO [SearchIndex.java] [doInit] Index initialized:
C:\Archivos de programa\Apache Tomcat
Foundation\apache-tomcat-6.0.13\jackrabbit/repository/index Version: 3

2010-04-28 10:25:33,250 INFO [Recovery.java] [run] Found uncommitted redo
log. Applying changes now...

2010-04-28 10:25:33,359 INFO [Recovery.java] [run] Redo changes applied.

2010-04-28 10:25:36,327 INFO [IndexMerger.java] [run] merged 224 documents
in 2921 ms into _29.

2010-04-28 10:25:36,358 INFO [IndexMerger.java] [run] merged 350 documents
in 2952 ms into _2b.

2010-04-28 10:25:38,483 INFO [IndexMerger.java] [run] merged 337 documents
in 5077 ms into _2c.

2010-04-28 10:25:38,483 INFO [IndexMerger.java] [run] merged 417 documents
in 5077 ms into _2a.

2010-04-28 10:25:39,763 WARN [PDFStreamEngine.java] [processOperator] *
java.io.IOException*: Mapping code should be 1 or two bytes and not 4

*java.io.IOException*: Mapping code should be 1 or two bytes and not 4

      at org.apache.fontbox.cmap.CMap.addMapping(*CMap.java:122*)

      at org.apache.fontbox.cmap.CMapParser.parse(*CMapParser.java:143*)

      at org.apache.pdfbox.pdmodel.font.PDFont.parseCmap(*PDFont.java:503*)

      at org.apache.pdfbox.pdmodel.font.PDFont.encode(*PDFont.java:380*)

      at org.apache.pdfbox.util.PDFStreamEngine.processEncodedText(*
PDFStreamEngine.java:372*)

      at org.apache.pdfbox.util.operator.ShowText.process(*ShowText.java:45*
)

      at org.apache.pdfbox.util.PDFStreamEngine.processOperator(*
PDFStreamEngine.java:552*)

      at org.apache.pdfbox.util.PDFStreamEngine.processSubStream(*
PDFStreamEngine.java:248*)

      at org.apache.pdfbox.util.PDFStreamEngine.processStream(*
PDFStreamEngine.java:207*)

      at org.apache.pdfbox.util.PDFTextStripper.processPage(*
PDFTextStripper.java:367*)

      at org.apache.pdfbox.util.PDFTextStripper.processPages(*
PDFTextStripper.java:291*)

      at org.apache.pdfbox.util.PDFTextStripper.writeText(*
PDFTextStripper.java:247*)

      at org.apache.pdfbox.util.PDFTextStripper.getText(*
PDFTextStripper.java:180*)

      at org.apache.tika.parser.pdf.PDF2XHTML.process(*PDF2XHTML.java:56*)

      at org.apache.tika.parser.pdf.PDFParser.parse(*PDFParser.java:69*)

      at org.apache.tika.parser.CompositeParser.parse(*
CompositeParser.java:120*)

      at org.apache.tika.parser.AutoDetectParser.parse(*
AutoDetectParser.java:101*)

      at org.apache.jackrabbit.core.query.lucene.JackrabbitParser.parse(*
JackrabbitParser.java:189*)

      at
org.apache.jackrabbit.core.query.lucene.LazyTextExtractorField$ParsingTask.run(
*LazyTextExtractorField.java:174*)

      at java.util.concurrent.Executors$RunnableAdapter.call(Unknown Source)

      at java.util.concurrent.FutureTask$Sync.innerRun(Unknown Source)

      at java.util.concurrent.FutureTask.run(Unknown Source)

      at
java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(Unknown
Source)

      at
java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(Unknown
Source)

      at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(Unknown
Source)

      at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)

      at java.lang.Thread.run(Unknown Source)




-- 
Jose Hernandez
675599600
Isthari
http://www.isthari.com

Problem con textExtractor

Reply via email to