Daniel created PDFBOX-3706:
------------------------------
Summary: Article separation
Key: PDFBOX-3706
URL: https://issues.apache.org/jira/browse/PDFBOX-3706
Project: PDFBox
Issue Type: Improvement
Components: Text extraction
Affects Versions: 2.0.4
Environment: Java 1.7, Windows 10 x64,
Reporter: Daniel
Attachments: text-paragraphs-simple.pdf
I found no solution in PDFTextStripper which realy separates text articles with
the method setArticleStart or setArticleEnd. Currently it seems the article
start is always after the page start and the article end is always before the
page end.
When I extract the content of the atachment as xml with article tags iI get the
following:
<article>
<paragraph>
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
</paragraph>
<paragraph>
Einfacher Textinhalt - 1* eingerückt
Einfacher Textinhalt - 1* eingerückt
Einfacher Textinhalt - 1* eingerückt
</paragraph>
<paragraph>
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
</paragraph>
<paragraph>
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
</paragraph>
<paragraph>
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
</paragraph>
</article>
I would expect:
<article>
<paragraph>
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
</paragraph>
<paragraph>
Einfacher Textinhalt - 1* eingerückt
Einfacher Textinhalt - 1* eingerückt
Einfacher Textinhalt - 1* eingerückt
</paragraph>
<paragraph>
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
</paragraph>
</article>
<article>
<paragraph>
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
Einfacher Textinhalt - nicht eingerückt
</paragraph>
</article>
<article>
<paragraph>
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
Einfacher Textinhalt - 2* eingerückt
</paragraph>
</article>
--
This message was sent by Atlassian JIRA
(v6.3.15#6346)
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]