[ 
https://issues.apache.org/jira/browse/TIKA-1857?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15887106#comment-15887106
 ] 

Tim Allison edited comment on TIKA-1857 at 2/28/17 3:10 PM:
------------------------------------------------------------

{noformat}
<etd:PelnaNazwa>IT IS EASY</etd:PelnaNazwa>
<etd:ImiePierwsze>JUST TRY</etd:ImiePierwsze>
<etd:Nazwisko>DUDE</etd:Nazwisko>
<etd:Wojewodztwo>DO YOUR OWN JOB</etd:Wojewodztwo>
<etd:Powiat>DON'T EXPECT ME TO DO IT!</etd:Powiat>
<etd:Gmina>IT'S XML!</etd:Gmina>
<etd:Miejscowosc>READ THE DOCUMENTATION</etd:Miejscowosc>
<etd:KodPocztowy>DUDE</etd:KodPocztowy>
<etd:Poczta>LEARN BEFORE YOU CODE</etd:Poczta>
{noformat}

Is now extracted as:
{noformat}
        <li fieldName="PelnaNazwa">Nazwa pełna: IT IS EASY</li>
<li fieldName="Nazwisko">Nazwisko: DUDE</li>
        <li fieldName="ImiePierwsze">ImiePierwsze: JUST TRY</li>
        <li fieldName="Wojewodztwo">Województwo: DO YOUR OWN JOB</li>
        <li fieldName="Powiat">Powiat: DON'T EXPECT ME TO DO IT!</li>
        <li fieldName="Gmina">Gmina: IT'S XML!</li>
        <li fieldName="Miejscowosc">Miejscowość: READ THE DOCUMENTATION</li>
        <li fieldName="KodPocztowy">Kod pocztowy: DUDE</li>
        <li fieldName="Poczta">Poczta: LEARN BEFORE YOU CODE</li>
{noformat}
Once our git is back up and running, I'll push the fix.  Thank you for raising 
this issue and sharing a triggering document.


was (Author: [email protected]):
{noformat}
<etd:PelnaNazwa>IT IS EASY</etd:PelnaNazwa>
</etd:OsobaNiefizyczna>
</Podmiot1>
<Podmiot2 rola="Podatnik">
<etd:OsobaFizyczna>
<etd:NIP>0123456789</etd:NIP>
<etd:ImiePierwsze>JUST TRY</etd:ImiePierwsze>
<etd:Nazwisko>DUDE</etd:Nazwisko>
<etd:DataUrodzenia>2015-02-19</etd:DataUrodzenia>
</etd:OsobaFizyczna>
<etd:AdresZamieszkania rodzajAdresu="RAD">
<etd:AdresPol>
<etd:KodKraju>PL</etd:KodKraju>
<etd:Wojewodztwo>DO YOUR OWN JOB</etd:Wojewodztwo>
<etd:Powiat>DON'T EXPECT ME TO DO IT!</etd:Powiat>
<etd:Gmina>IT'S XML!</etd:Gmina>
<etd:NrDomu>012345678</etd:NrDomu>
<etd:Miejscowosc>READ THE DOCUMENTATION</etd:Miejscowosc>
<etd:KodPocztowy>DUDE</etd:KodPocztowy>
<etd:Poczta>LEARN BEFORE YOU CODE</etd:Poczta>
{noformat}

Is now extracted as:
{noformat}
        <li fieldName="PelnaNazwa">Nazwa pełna: 
IT IS EASY</li>
        <li fieldName="REGON_SCR">REGON: </li>
        <li fieldName="SUF_REGON">REGON: </li>
        <li fieldName="REGON">REGON: </li>
        <li fieldName="Nazwisko">Nazwisko: 
DUDE</li>
        <li fieldName="ImiePierwsze">ImiePierwsze: 
JUST TRY</li>
        <li fieldName="DataUrodzenia">DataUrodzenia: 
2015-02-19</li>
        <li fieldName="PESEL">PESEL: </li>
        <li fieldName="NIP1">Numer Identyfikacji Podatkowej: </li>
        <li fieldName="PESEL1">Numer PESEL: </li>
        <li fieldName="Kraj">Kraj: </li>
        <li fieldName="KodKraju">KodKraju: 


PL</li>
        <li fieldName="Wojewodztwo">Województwo: 
DO YOUR OWN JOB</li>
        <li fieldName="Powiat">Powiat: 
DON'T EXPECT ME TO DO IT!</li>
        <li fieldName="Gmina">Gmina: 
IT'S XML!</li>
        <li fieldName="Ulica">Ulica: </li>
        <li fieldName="NrDomu">Nr domu: 
012345678</li>
        <li fieldName="NrLokalu">Nr lokalu: </li>
        <li fieldName="Miejscowosc">Miejscowość: 
READ THE DOCUMENTATION</li>
        <li fieldName="KodPocztowy">Kod pocztowy: 
DUDE</li>
        <li fieldName="Poczta">Poczta: 
LEARN BEFORE YOU CODE</li>
{noformat}
Once our git is back up and running, I'll push the fix.  Thank you for raising 
this issue and sharing a triggering document.

> Enhance PDFParser to extract text from XFA forms
> ------------------------------------------------
>
>                 Key: TIKA-1857
>                 URL: https://issues.apache.org/jira/browse/TIKA-1857
>             Project: Tika
>          Issue Type: Improvement
>          Components: parser
>            Reporter: Pascal Essiembre
>              Labels: patch
>             Fix For: 1.13
>
>         Attachments: 041617_filled_out.pdf, doc8.pdf, govdocs1_xfas.zip, 
> xfa_in_govdocs1.txt
>
>
> Extract text from PDF Forms (XFA).  Information about XFA: 
> https://en.wikipedia.org/wiki/XFA



--
This message was sent by Atlassian JIRA
(v6.3.15#6346)

Reply via email to