[
https://issues.apache.org/jira/browse/TIKA-1857?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15887106#comment-15887106
]
Tim Allison edited comment on TIKA-1857 at 2/28/17 3:10 PM:
------------------------------------------------------------
{noformat}
<etd:PelnaNazwa>IT IS EASY</etd:PelnaNazwa>
<etd:ImiePierwsze>JUST TRY</etd:ImiePierwsze>
<etd:Nazwisko>DUDE</etd:Nazwisko>
<etd:Wojewodztwo>DO YOUR OWN JOB</etd:Wojewodztwo>
<etd:Powiat>DON'T EXPECT ME TO DO IT!</etd:Powiat>
<etd:Gmina>IT'S XML!</etd:Gmina>
<etd:Miejscowosc>READ THE DOCUMENTATION</etd:Miejscowosc>
<etd:KodPocztowy>DUDE</etd:KodPocztowy>
<etd:Poczta>LEARN BEFORE YOU CODE</etd:Poczta>
{noformat}
Is now extracted as:
{noformat}
<li fieldName="PelnaNazwa">Nazwa pełna: IT IS EASY</li>
<li fieldName="Nazwisko">Nazwisko: DUDE</li>
<li fieldName="ImiePierwsze">ImiePierwsze: JUST TRY</li>
<li fieldName="Wojewodztwo">Województwo: DO YOUR OWN JOB</li>
<li fieldName="Powiat">Powiat: DON'T EXPECT ME TO DO IT!</li>
<li fieldName="Gmina">Gmina: IT'S XML!</li>
<li fieldName="Miejscowosc">Miejscowość: READ THE DOCUMENTATION</li>
<li fieldName="KodPocztowy">Kod pocztowy: DUDE</li>
<li fieldName="Poczta">Poczta: LEARN BEFORE YOU CODE</li>
{noformat}
Once our git is back up and running, I'll push the fix. Thank you for raising
this issue and sharing a triggering document.
was (Author: [email protected]):
{noformat}
<etd:PelnaNazwa>IT IS EASY</etd:PelnaNazwa>
</etd:OsobaNiefizyczna>
</Podmiot1>
<Podmiot2 rola="Podatnik">
<etd:OsobaFizyczna>
<etd:NIP>0123456789</etd:NIP>
<etd:ImiePierwsze>JUST TRY</etd:ImiePierwsze>
<etd:Nazwisko>DUDE</etd:Nazwisko>
<etd:DataUrodzenia>2015-02-19</etd:DataUrodzenia>
</etd:OsobaFizyczna>
<etd:AdresZamieszkania rodzajAdresu="RAD">
<etd:AdresPol>
<etd:KodKraju>PL</etd:KodKraju>
<etd:Wojewodztwo>DO YOUR OWN JOB</etd:Wojewodztwo>
<etd:Powiat>DON'T EXPECT ME TO DO IT!</etd:Powiat>
<etd:Gmina>IT'S XML!</etd:Gmina>
<etd:NrDomu>012345678</etd:NrDomu>
<etd:Miejscowosc>READ THE DOCUMENTATION</etd:Miejscowosc>
<etd:KodPocztowy>DUDE</etd:KodPocztowy>
<etd:Poczta>LEARN BEFORE YOU CODE</etd:Poczta>
{noformat}
Is now extracted as:
{noformat}
<li fieldName="PelnaNazwa">Nazwa pełna:
IT IS EASY</li>
<li fieldName="REGON_SCR">REGON: </li>
<li fieldName="SUF_REGON">REGON: </li>
<li fieldName="REGON">REGON: </li>
<li fieldName="Nazwisko">Nazwisko:
DUDE</li>
<li fieldName="ImiePierwsze">ImiePierwsze:
JUST TRY</li>
<li fieldName="DataUrodzenia">DataUrodzenia:
2015-02-19</li>
<li fieldName="PESEL">PESEL: </li>
<li fieldName="NIP1">Numer Identyfikacji Podatkowej: </li>
<li fieldName="PESEL1">Numer PESEL: </li>
<li fieldName="Kraj">Kraj: </li>
<li fieldName="KodKraju">KodKraju:
PL</li>
<li fieldName="Wojewodztwo">Województwo:
DO YOUR OWN JOB</li>
<li fieldName="Powiat">Powiat:
DON'T EXPECT ME TO DO IT!</li>
<li fieldName="Gmina">Gmina:
IT'S XML!</li>
<li fieldName="Ulica">Ulica: </li>
<li fieldName="NrDomu">Nr domu:
012345678</li>
<li fieldName="NrLokalu">Nr lokalu: </li>
<li fieldName="Miejscowosc">Miejscowość:
READ THE DOCUMENTATION</li>
<li fieldName="KodPocztowy">Kod pocztowy:
DUDE</li>
<li fieldName="Poczta">Poczta:
LEARN BEFORE YOU CODE</li>
{noformat}
Once our git is back up and running, I'll push the fix. Thank you for raising
this issue and sharing a triggering document.
> Enhance PDFParser to extract text from XFA forms
> ------------------------------------------------
>
> Key: TIKA-1857
> URL: https://issues.apache.org/jira/browse/TIKA-1857
> Project: Tika
> Issue Type: Improvement
> Components: parser
> Reporter: Pascal Essiembre
> Labels: patch
> Fix For: 1.13
>
> Attachments: 041617_filled_out.pdf, doc8.pdf, govdocs1_xfas.zip,
> xfa_in_govdocs1.txt
>
>
> Extract text from PDF Forms (XFA). Information about XFA:
> https://en.wikipedia.org/wiki/XFA
--
This message was sent by Atlassian JIRA
(v6.3.15#6346)