[jira] [Commented] (TIKA-1445) Figure out how to add Image metadata extraction to Tesseract parser

Hudson (JIRA) Wed, 07 Jan 2015 04:44:54 -0800

    [ 
https://issues.apache.org/jira/browse/TIKA-1445?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=14267586#comment-14267586
 ]


Hudson commented on TIKA-1445:
------------------------------

UNSTABLE: Integrated in tika-trunk-jdk1.7 #411 (See 
[https://builds.apache.org/job/tika-trunk-jdk1.7/411/])
TIKA-1445 Unit test to check a JPEG via Tesseract gets both OCR text and normal 
JPEG metadata (nick: 
http://svn.apache.org/viewvc/tika/trunk/?view=rev&rev=1650050)
* 
/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/ocr/TesseractOCRParser.java
* 
/tika/trunk/tika-parsers/src/test/java/org/apache/tika/parser/ocr/TesseractOCRParserTest.java
* /tika/trunk/tika-parsers/src/test/resources/test-documents/testOCR.jpg
TIKA-1445 Unit test to show that when an invalid tesseract config is given, and 
tesseract cannot be found, TesseractOCRParser will return no types and will not 
be selected by DefaultParser (nick: 
http://svn.apache.org/viewvc/tika/trunk/?view=rev&rev=1650046)
* 
/tika/trunk/tika-parsers/src/test/java/org/apache/tika/parser/ocr/TesseractOCRParserTest.java
Cleaner workaround parser call from Tim Allison from TIKA-1445 (nick: 
http://svn.apache.org/viewvc/tika/trunk/?view=rev&rev=1650045)
* 
/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/ocr/TesseractOCRParser.java
TIKA-1445 If Tesseract isn't available, don't offer any supported mime types, 
so the parser avoids being picked by DefaultParser or similar (nick: 
http://svn.apache.org/viewvc/tika/trunk/?view=rev&rev=1650044)
* 
/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/ocr/TesseractOCRParser.java


> Figure out how to add Image metadata extraction to Tesseract parser
> -------------------------------------------------------------------
>
>                 Key: TIKA-1445
>                 URL: https://issues.apache.org/jira/browse/TIKA-1445
>             Project: Tika
>          Issue Type: Bug
>          Components: parser
>            Reporter: Chris A. Mattmann
>            Assignee: Chris A. Mattmann
>             Fix For: 1.8
>
>         Attachments: 000003.doc, TIKA-1445.Mattmann.101214.patch.txt, 
> TIKA-1445.Palsulich.102614.patch, TIKA-1445_20150106_tallison.patch, 
> TIKA-1445_tallison_20141027.patch.txt, TIKA-1445_tallison_v2_20141027.patch, 
> TIKA-1445_tallison_v3_20141027.patch
>
>
> Now that Tesseract is the default image parser in Tika for many image types, 
> consider how to add back in the metadata extraction capabilities by the other 
> Image parsers.



--
This message was sent by Atlassian JIRA
(v6.3.4#6332)

[jira] [Commented] (TIKA-1445) Figure out how to add Image metadata extraction to Tesseract parser

Reply via email to