[
https://issues.apache.org/jira/browse/PDFBOX-3706?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
]
Maruan Sahyoun resolved PDFBOX-3706.
------------------------------------
Resolution: Not A Problem
I'm closing the issue for now as this seems to be related to the PDF not having
article beads defined. You can reopen if you think that this is a bug in PDFBox.
> Article separation with PDFTextStripper
> ---------------------------------------
>
> Key: PDFBOX-3706
> URL: https://issues.apache.org/jira/browse/PDFBOX-3706
> Project: PDFBox
> Issue Type: Improvement
> Components: Text extraction
> Affects Versions: 2.0.4
> Environment: Java 1.7, Windows 10 x64,
> Reporter: Daniel Ritter
> Assignee: Maruan Sahyoun
> Fix For: 2.0.5
>
> Attachments: text-paragraphs-simple-beads.pdf,
> text-paragraphs-simple.pdf
>
>
> I found no solution in PDFTextStripper which realy separates text articles
> with the method setArticleStart or setArticleEnd. Currently it seems the
> article start is always after the page start and the article end is always
> before the page end.
> When I extract the content of the atachment as xml with article tags i get
> the following:
> <article>
> <paragraph>
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> </paragraph>
> <paragraph>
> Einfacher Textinhalt - 1* eingerückt
> Einfacher Textinhalt - 1* eingerückt
> Einfacher Textinhalt - 1* eingerückt
> </paragraph>
> <paragraph>
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> </paragraph>
> <paragraph>
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> </paragraph>
> <paragraph>
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> </paragraph>
> </article>
> I would expect:
> <article>
> <paragraph>
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> </paragraph>
> <paragraph>
> Einfacher Textinhalt - 1* eingerückt
> Einfacher Textinhalt - 1* eingerückt
> Einfacher Textinhalt - 1* eingerückt
> </paragraph>
> <paragraph>
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> </paragraph>
> </article>
> <article>
> <paragraph>
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> Einfacher Textinhalt - nicht eingerückt
> </paragraph>
> </article>
> <article>
> <paragraph>
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> Einfacher Textinhalt - 2* eingerückt
> </paragraph>
> </article>
--
This message was sent by Atlassian JIRA
(v6.3.15#6346)
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]