[ 
https://issues.apache.org/jira/browse/PDFBOX-3706?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
 ]

Maruan Sahyoun resolved PDFBOX-3706.
------------------------------------
    Resolution: Not A Problem

I'm closing the issue for now as this seems to be related to the PDF not having 
article beads defined. You can reopen if you think that this is a bug in PDFBox.

> Article separation with PDFTextStripper
> ---------------------------------------
>
>                 Key: PDFBOX-3706
>                 URL: https://issues.apache.org/jira/browse/PDFBOX-3706
>             Project: PDFBox
>          Issue Type: Improvement
>          Components: Text extraction
>    Affects Versions: 2.0.4
>         Environment: Java 1.7, Windows 10 x64, 
>            Reporter: Daniel Ritter
>            Assignee: Maruan Sahyoun
>             Fix For: 2.0.5
>
>         Attachments: text-paragraphs-simple-beads.pdf, 
> text-paragraphs-simple.pdf
>
>
> I found no solution in PDFTextStripper which realy separates text articles 
> with the method setArticleStart or setArticleEnd. Currently it seems the 
> article start is always after the page start and the article end is always 
> before the page end. 
> When I extract the content of the atachment as xml with article tags i get 
> the following:
> <article>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
> </article>
> I would expect:
> <article>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
> </article>
> <article>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
> </article>
> <article>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
> </article>



--
This message was sent by Atlassian JIRA
(v6.3.15#6346)

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to