[jira] [Updated] (PDFBOX-3706) Article separation

Daniel (JIRA) Thu, 02 Mar 2017 01:20:08 -0800

     [ 
https://issues.apache.org/jira/browse/PDFBOX-3706?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
 ]


Daniel updated PDFBOX-3706:
---------------------------
    Description: 
I found no solution in PDFTextStripper which realy separates text articles with 
the method setArticleStart or setArticleEnd. Currently it seems the article 
start is always after the page start and the article end is always before the 
page end. 

When I extract the content of the atachment as xml with article tags i'lI get 
the following:

<article>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
</article>

I would expect:

<article>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
</article>
<article>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
</article>
<article>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
</article>



  was:
I found no solution in PDFTextStripper which realy separates text articles with 
the method setArticleStart or setArticleEnd. Currently it seems the article 
start is always after the page start and the article end is always before the 
page end. 

When I extract the content of the atachment as xml with article tags iI get the 
following:

<article>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
</article>

I would expect:

<article>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
                Einfacher Textinhalt - 1* eingerückt
        </paragraph>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
</article>
<article>
        <paragraph>
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
                Einfacher Textinhalt - nicht eingerückt
        </paragraph>
</article>
<article>
        <paragraph>
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
                Einfacher Textinhalt - 2* eingerückt
        </paragraph>
</article>




> Article separation
> ------------------
>
>                 Key: PDFBOX-3706
>                 URL: https://issues.apache.org/jira/browse/PDFBOX-3706
>             Project: PDFBox
>          Issue Type: Improvement
>          Components: Text extraction
>    Affects Versions: 2.0.4
>         Environment: Java 1.7, Windows 10 x64, 
>            Reporter: Daniel
>         Attachments: text-paragraphs-simple.pdf
>
>
> I found no solution in PDFTextStripper which realy separates text articles 
> with the method setArticleStart or setArticleEnd. Currently it seems the 
> article start is always after the page start and the article end is always 
> before the page end. 
> When I extract the content of the atachment as xml with article tags i'lI get 
> the following:
> <article>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
> </article>
> I would expect:
> <article>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>               Einfacher Textinhalt - 1* eingerückt
>       </paragraph>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
> </article>
> <article>
>       <paragraph>
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>               Einfacher Textinhalt - nicht eingerückt
>       </paragraph>
> </article>
> <article>
>       <paragraph>
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>               Einfacher Textinhalt - 2* eingerückt
>       </paragraph>
> </article>



--
This message was sent by Atlassian JIRA
(v6.3.15#6346)

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

[jira] [Updated] (PDFBOX-3706) Article separation

Reply via email to