[jira] [Created] (TIKA-3364) PDF Content is extracted twice

David Pilato (Jira) Fri, 23 Apr 2021 03:27:07 -0700

David Pilato created TIKA-3364:
----------------------------------

             Summary: PDF Content is extracted twice
                 Key: TIKA-3364
                 URL: https://issues.apache.org/jira/browse/TIKA-3364
             Project: Tika
          Issue Type: Bug
          Components: parser
    Affects Versions: 1.26
            Reporter: David Pilato
         Attachments: issue-1097.pdf


Hi

Coming from [this issue in FSCrawler 
project|https://github.com/dadoonet/fscrawler/issues/1097], I can see that the 
text from the PDF document is extracted more than once although PDFBox seems to 
extract it only once.

I attached the PDF.

When I run:

{code:sh}
wget https://downloads.apache.org/pdfbox/2.0.23/pdfbox-app-2.0.23.jar
java -jar pdfbox-app-2.0.23.jar ExtractText -console issue-1097.pdf
{code}

I'm getting:

{code:sh}
Dummy PDF file
{code}

But with Tika:

{code:sh}
wget https://downloads.apache.org/tika/tika-app-1.26.jar
java -jar tika-app-1.26.jar
{code}

I'm getting:

{code:xml}
<?xml version="1.0" encoding="UTF-8"?><html 
xmlns="http://www.w3.org/1999/xhtml";>
<head>
<meta name="pdf:PDFVersion" content="1.4"/>
<meta name="xmp:CreatorTool" content="Writer"/>
<meta name="pdf:hasXFA" content="false"/>
<meta name="access_permission:modify_annotations" content="true"/>
<meta name="access_permission:can_print_degraded" content="true"/>
<meta name="dc:creator" content="Evangelos Vlachogiannis"/>
<meta name="dcterms:created" content="2007-02-23T15:56:37Z"/>
<meta name="dc:format" content="application/pdf; version=1.4"/>
<meta name="pdf:docinfo:creator_tool" content="Writer"/>
<meta name="access_permission:fill_in_form" content="true"/>
<meta name="pdf:encrypted" content="false"/>
<meta name="Content-Length" content="13264"/>
<meta name="X-TIKA:digest:MD5" content="2942bfabb3d05332b66eb128e0842cff"/>
<meta name="pdf:hasMarkedContent" content="false"/>
<meta name="Content-Type" content="application/pdf"/>
<meta name="pdf:docinfo:creator" content="Evangelos Vlachogiannis"/>
<meta name="X-Parsed-By" content="org.apache.tika.parser.DefaultParser"/>
<meta name="X-Parsed-By" content="org.apache.tika.parser.pdf.PDFParser"/>
<meta name="creator" content="Evangelos Vlachogiannis"/>
<meta name="meta:author" content="Evangelos Vlachogiannis"/>
<meta name="meta:creation-date" content="2007-02-23T15:56:37Z"/>
<meta name="created" content="2007-02-23T15:56:37Z"/>
<meta name="X-TIKA:digest:SHA256" 
content="3df79d34abbca99308e79cb94461c1893582604d68329a41fd4bec1885e6adb4"/>
<meta name="access_permission:extract_for_accessibility" content="true"/>
<meta name="access_permission:assemble_document" content="true"/>
<meta name="xmpTPg:NPages" content="1"/>
<meta name="Creation-Date" content="2007-02-23T15:56:37Z"/>
<meta name="resourceName" content="issue-1097.pdf"/>
<meta name="pdf:hasXMP" content="false"/>
<meta name="access_permission:extract_content" content="true"/>
<meta name="access_permission:can_print" content="true"/>
<meta name="Author" content="Evangelos Vlachogiannis"/>
<meta name="producer" content="OpenOffice.org 2.1"/>
<meta name="access_permission:can_modify" content="true"/>
<meta name="pdf:docinfo:producer" content="OpenOffice.org 2.1"/>
<meta name="pdf:docinfo:created" content="2007-02-23T15:56:37Z"/>
<title/>
</head>
<body><div class="page"><p/>
<p>Dummy PDF file</p>
<p/>
</div>
<ul>    <li>Dummy PDF file</li>
</ul>
</body></html>
{code}




--
This message was sent by Atlassian Jira
(v8.3.4#803005)

[jira] [Created] (TIKA-3364) PDF Content is extracted twice

Reply via email to