[jira] [Commented] (TIKA-1994) Integrate OCR with PDFParser

Hudson (JIRA) Thu, 02 Jun 2016 09:53:59 -0700

    [ 
https://issues.apache.org/jira/browse/TIKA-1994?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15312652#comment-15312652
 ]


Hudson commented on TIKA-1994:
------------------------------

SUCCESS: Integrated in tika-trunk-jdk1.7 #1005 (See 
[https://builds.apache.org/job/tika-trunk-jdk1.7/1005/])
TIKA-1994 -- integrate OCR with PDFParser (tallison: rev 
7aeb95d6c7a6ac3611f2dd975baa73f566631061)
* tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParserConfig.java
* tika-parsers/src/main/java/org/apache/tika/parser/pdf/OCR2XHTML.java
* 
tika-parsers/src/main/resources/org/apache/tika/parser/pdf/PDFParser.properties
* tika-parsers/src/main/java/org/apache/tika/parser/pdf/AbstractPDF2XHTML.java
* tika-parsers/src/test/java/org/apache/tika/parser/pdf/PDFParserTest.java
* tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDFParser.java
* tika-parsers/src/main/java/org/apache/tika/parser/ocr/TesseractOCRParser.java
* tika-parsers/src/main/java/org/apache/tika/parser/pdf/PDF2XHTML.java


> Integrate OCR with PDFParser
> ----------------------------
>
>                 Key: TIKA-1994
>                 URL: https://issues.apache.org/jira/browse/TIKA-1994
>             Project: Tika
>          Issue Type: Improvement
>            Reporter: Tim Allison
>            Assignee: Tim Allison
>
> Users can now run OCR on individual images embedded inline in PDFs if they 
> get the configuration right.  
> There are some drawbacks: 1) the text appears as an attachment if using the 
> RecursiveParserWrapper, 2) text may be more cleanly extracted on the fully 
> rendered page instead of on the individual images (this is still tbd).
> It might be useful to run OCR against each rendered page (instead of the 
> component images). 
> Integrating OCR is on the roadmap for PDFBox 2.1 (PDFBOX-1912).  This will 
> allow us to experiment with strategies until the cleaner integration is 
> available with PDFBox 2.1.



--
This message was sent by Atlassian JIRA
(v6.3.4#6332)

[jira] [Commented] (TIKA-1994) Integrate OCR with PDFParser

Reply via email to