[ 
https://issues.apache.org/jira/browse/PDFBOX-4284?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=16566527#comment-16566527
 ] 

David KELLER commented on PDFBOX-4284:
--------------------------------------

Hi, the content must be the same, because it is the same original Word document 
converted.

As I see on LibreOffice6.0, the encoding is broken, but if you open the file 
"libreoffice_6.0.pdf" with Acrobat Reader, there is not encoding issue.

 

For example the pattern : #siginature# give #siginatuire# with a char sequence 
"ui" instead a unicode "u"

I have a look at

OK : TextPosition String[421.753,708.8614 fs=11.0 xscale=11.0 height=7.3645 
space=2.486 width=5.774994]u

KO : TextPosition String[421.753,708.8614 fs=11.0 xscale=11.0 height=7.3645 
space=2.486 width=5.774994]ui

 

The function TextPosition.getUnicode() give a sring with a non valid encoding 
for the file "libreoffice_6.0.pdf"

 

 

> LibreOffice6 PDF Conversion broke PDFTextStripper result  
> ----------------------------------------------------------
>
>                 Key: PDFBOX-4284
>                 URL: https://issues.apache.org/jira/browse/PDFBOX-4284
>             Project: PDFBox
>          Issue Type: Bug
>          Components: Parsing
>    Affects Versions: 3.0.0 PDFBox
>         Environment: Window 10 and CentOS7
>            Reporter: David KELLER
>            Priority: Major
>              Labels: features
>         Attachments: libreoffice_5.2.pdf, libreoffice_6.0.pdf, 
> original-document.docx
>
>
> here the test program:
> {{public class ExtractTextPdfTest {}}
>  {{    }}
>  {{    public static void main(String[] args) throws Exception {}}
>  {{        // #7272}}
>  {{//        String documentIn = "c:\\data\\test}}
> {{libreoffice_5.2.pdf";}}
>  {{        String documentIn = "c:\\data\\test}}
> {{libreoffice_6.0.pdf";}}
>  {{        }}
>  {{        try (PDDocument pdDocument = PDDocument.load(new 
> File(documentIn))) {}}
>  {{            PDFTextStripper stripper = new PDFTextStripper();}}
>  {{            String content = stripper.getText(pdDocument);}}
>  {{            System.out.println(content);}}
>  {{        }}}
>  {{        }}
>  {{    }}}
>  {{}}}
>  
> 1/  run PDFTextStripper on a Word document converted by LibreOffice 5.2 in PDF
>  result :
> {quote}Réf : #chrono# Le #date#
>  Affaire suivie par :
>  #recipient.salutation#
>  #recipient.name#
>  #recipient.streetNumber#
>  #recipient.streetName#
>  #recipient.zipCode#
>  #recipient.locality#
>  #object#
>  #recipient.salutation#,
>  Nous  avons  bien  reçu  votre  candidature  pour  le  poste  de………………………….  
> et  nous  vous
>  remercions de l’intérêt que vous portez à notre administration.
>  Afin d'examiner votre candidature de manière plus complète, nous 
> souhaiterions vous rencontrer.
>  Aussi, nous vous proposons un rendez-vous en nos locaux avec M ... , 
> responsable du service de ... , le
>  ... à ... heures.
>  Nous vous prions d’agréer, #recipient.salutation#, l’expression de nos 
> salutations distinguées.
>  Le Maire,
>  #signature#
> {quote}
>  
> 2/  run PDFTextStripper on the same Word document converted by LibreOffice 
> 6.0  in PDF
>  
>  result :
> {quote}Réf : Destinataire
>  Affaire suiiiie aar : Adresse
>  Code Postal
>  Ville
>  Paris, le 25/07/2018
>  Madame, Moinsieuir
>  Nous avons le plaisir de vous informer que suite à la Commission 
> d’Attribution de Logement 
>  qui s’est tenue le xx/xx/xxxx, nous avons décidé de vous attribuer le 
> logement situé au xx 
>  rue xxxxxxxxxxxxxxxxxxxx, 75 000 Paris.
>  Les caractéristiuies de ce logemeint soint les suiiiaintes : 
>   Suirface habitable :
>   Tyae de logemeint :
>   Garage/Parkiing :
>   Mointaint dui loyer :
>   Mointaint des charges :
>   Mointaint dui déaôt de garainte :
>   Date d’eintrée dains  les lieuix :
>  Les s mointaints arécisés soint à déduiire, le cas échéaint, de l'aide aui 
> logemeint (APL, AL) calcuilée et  
>  commuiiniiuiée aar iotre Caisse d'allocatoins familiales.
>  Vouis  aiez  juisiui’aui  xx/xx/xx  aouir  inouis  siginifer  l’acceatatoin  
> de  ce  logemeint  aar  letre 
>  recommaindée aiec accuisé de réceatoin.
>  Vouis ariaint d’agréer, Madame, Moinsieuir, l’exaressioin de mes 
> saluitatoins distinguiées.
>  Le Maire,
>  #siginatuire#
> {quote}
>  
>  



--
This message was sent by Atlassian JIRA
(v7.6.3#76005)

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to