[
https://issues.apache.org/jira/browse/PDFBOX-4284?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
]
David KELLER updated PDFBOX-4284:
---------------------------------
Description:
here the test program:
{{public class ExtractTextPdfTest {}}
{{ }}
{{ public static void main(String[] args) throws Exception {}}
{{ // #7272}}
{{// String documentIn = "c:\\data\\test}}
{{libreoffice_5.2.pdf";}}
{{ String documentIn = "c:\\data\\test}}
{{libreoffice_6.0.pdf";}}
{{ }}
{{ try (PDDocument pdDocument = PDDocument.load(new File(documentIn)))
{}}
{{ PDFTextStripper stripper = new PDFTextStripper();}}
{{ String content = stripper.getText(pdDocument);}}
{{ System.out.println(content);}}
{{ }}}
{{ }}
{{ }}}
{{}}}
1/ run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
result :
{quote}Réf : #chrono# Le #date#
Affaire suivie par :
#recipient.salutation#
#recipient.name#
#recipient.streetNumber#
#recipient.streetName#
#recipient.zipCode#
#recipient.locality#
#object#
#recipient.salutation#,
Nous avons bien reçu votre candidature pour le poste de………………………….
et nous vous
remercions de l’intérêt que vous portez à notre administration.
Afin d'examiner votre candidature de manière plus complète, nous souhaiterions
vous rencontrer.
Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... ,
responsable du service de ... , le
... à ... heures.
Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos
salutations distinguées.
Le Maire,
#signature#
{quote}
2/ run PDFTextStripper on the same Word document converted by LibreOffice 6.0
in PDF
result :
{quote}Réf : Destinataire
Affaire suiiiie aar : Adresse
Code Postal
Ville
Paris, le 25/07/2018
Madame, Moinsieuir
Nous avons le plaisir de vous informer que suite à la Commission d’Attribution
de Logement
qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le logement
situé au xx
rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
Les caractéristiuies de ce logemeint soint les suiiiaintes :
Suirface habitable :
Tyae de logemeint :
Garage/Parkiing :
Mointaint dui loyer :
Mointaint des charges :
Mointaint dui déaôt de garainte :
Date d’eintrée dains les lieuix :
Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui
logemeint (APL, AL) calcuilée et
commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
Vouis aiez juisiui’aui xx/xx/xx aouir inouis siginifer l’acceatatoin
de ce logemeint aar letre
recommaindée aiec accuisé de réceatoin.
Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes saluitatoins
distinguiées.
Le Maire,
#siginatuire#
{quote}
was:
here the test program:
{{public class ExtractTextPdfTest {}}
{{ }}
{{ public static void main(String[] args) throws Exception {}}
{{ // #7272}}
{{// String documentIn = "c:\\data\\test\\libreoffice_5.2.pdf";}}
{{ String documentIn = "c:\\data\\test\\libreoffice_6.0.pdf";}}
{{ }}
{{ try (PDDocument pdDocument = PDDocument.load(new File(documentIn)))
{}}
{{ PDFTextStripper stripper = new PDFTextStripper();}}
{{ String content = stripper.getText(pdDocument);}}
{{ System.out.println(content);}}
{{ }}}
{{ }}
{{ }}}
{{}}}
1/ run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
result :
{quote}Réf : #chrono# Le #date#
Affaire suivie par :
#recipient.salutation#
#recipient.name#
#recipient.streetNumber#
#recipient.streetName#
#recipient.zipCode#
#recipient.locality#
#object#
#recipient.salutation#,
Nous avons bien reçu votre candidature pour le poste de…………………………. et
nous vous
remercions de l’intérêt que vous portez à notre administration.
Afin d'examiner votre candidature de manière plus complète, nous souhaiterions
vous rencontrer.
Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... ,
responsable du service de ... , le
... à ... heures.
Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos
salutations distinguées.
Le Maire,
#signature#
{quote}
1/ run PDFTextStripper on the same Word document converted by LibreOffice 6.0
in PDF
result :
{quote}Réf : Destinataire
Affaire suiiiie aar : Adresse
Code Postal
Ville
Paris, le 25/07/2018
Madame, Moinsieuir
Nous avons le plaisir de vous informer que suite à la Commission d’Attribution
de Logement
qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le logement
situé au xx
rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
Les caractéristiuies de ce logemeint soint les suiiiaintes :
Suirface habitable :
Tyae de logemeint :
Garage/Parkiing :
Mointaint dui loyer :
Mointaint des charges :
Mointaint dui déaôt de garainte :
Date d’eintrée dains les lieuix :
Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui
logemeint (APL, AL) calcuilée et
commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
Vouis aiez juisiui’aui xx/xx/xx aouir inouis siginifer l’acceatatoin de
ce logemeint aar letre
recommaindée aiec accuisé de réceatoin.
Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes saluitatoins
distinguiées.
Le Maire,
#siginatuire#
{quote}
> LibreOffice6 PDF Conversion broke PDFTextStripper result
> ----------------------------------------------------------
>
> Key: PDFBOX-4284
> URL: https://issues.apache.org/jira/browse/PDFBOX-4284
> Project: PDFBox
> Issue Type: Bug
> Components: Parsing
> Affects Versions: 3.0.0 PDFBox
> Environment: Window 10 and CentOS7
> Reporter: David KELLER
> Priority: Major
> Labels: features
> Attachments: libreoffice_5.2.pdf, libreoffice_6.0.pdf,
> original-document.docx
>
>
> here the test program:
> {{public class ExtractTextPdfTest {}}
> {{ }}
> {{ public static void main(String[] args) throws Exception {}}
> {{ // #7272}}
> {{// String documentIn = "c:\\data\\test}}
> {{libreoffice_5.2.pdf";}}
> {{ String documentIn = "c:\\data\\test}}
> {{libreoffice_6.0.pdf";}}
> {{ }}
> {{ try (PDDocument pdDocument = PDDocument.load(new
> File(documentIn))) {}}
> {{ PDFTextStripper stripper = new PDFTextStripper();}}
> {{ String content = stripper.getText(pdDocument);}}
> {{ System.out.println(content);}}
> {{ }}}
> {{ }}
> {{ }}}
> {{}}}
>
> 1/ run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
> result :
> {quote}Réf : #chrono# Le #date#
> Affaire suivie par :
> #recipient.salutation#
> #recipient.name#
> #recipient.streetNumber#
> #recipient.streetName#
> #recipient.zipCode#
> #recipient.locality#
> #object#
> #recipient.salutation#,
> Nous avons bien reçu votre candidature pour le poste de………………………….
> et nous vous
> remercions de l’intérêt que vous portez à notre administration.
> Afin d'examiner votre candidature de manière plus complète, nous
> souhaiterions vous rencontrer.
> Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... ,
> responsable du service de ... , le
> ... à ... heures.
> Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos
> salutations distinguées.
> Le Maire,
> #signature#
> {quote}
>
> 2/ run PDFTextStripper on the same Word document converted by LibreOffice
> 6.0 in PDF
>
> result :
> {quote}Réf : Destinataire
> Affaire suiiiie aar : Adresse
> Code Postal
> Ville
> Paris, le 25/07/2018
> Madame, Moinsieuir
> Nous avons le plaisir de vous informer que suite à la Commission
> d’Attribution de Logement
> qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le
> logement situé au xx
> rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
> Les caractéristiuies de ce logemeint soint les suiiiaintes :
> Suirface habitable :
> Tyae de logemeint :
> Garage/Parkiing :
> Mointaint dui loyer :
> Mointaint des charges :
> Mointaint dui déaôt de garainte :
> Date d’eintrée dains les lieuix :
> Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui
> logemeint (APL, AL) calcuilée et
> commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
> Vouis aiez juisiui’aui xx/xx/xx aouir inouis siginifer l’acceatatoin
> de ce logemeint aar letre
> recommaindée aiec accuisé de réceatoin.
> Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes
> saluitatoins distinguiées.
> Le Maire,
> #siginatuire#
> {quote}
>
>
--
This message was sent by Atlassian JIRA
(v7.6.3#76005)
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]