[ https://issues.apache.org/jira/browse/PDFBOX-1301?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel ]
John Hewson resolved PDFBOX-1301. --------------------------------- Resolution: Fixed Fix Version/s: 2.0.0 This is fixed in 2.0 > Wrong characters in HTML/TXT file from PDF containing scanned pages/images > -------------------------------------------------------------------------- > > Key: PDFBOX-1301 > URL: https://issues.apache.org/jira/browse/PDFBOX-1301 > Project: PDFBox > Issue Type: Bug > Components: Text extraction > Environment: Windows XP, java version "1.6.0_29" > Reporter: Jan Divis > Fix For: 2.0.0 > > Attachments: 54391-scan.pdf, converted-wrong-chars.html, > correct-chars-when-converted-splitted-page.html > > > When trying to extract text/html from attached PDF file, there are some wrong > characters (instead of characters with diacritics): > Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím > elektronickêch nebo Makêchkoli Minêch prostředkĤ > instead of > Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím > elektronických nebo jakýchkoli jiných prostředků > resp. > Pro úþely tohoto Protokolu mohou bêt sdělení > ]asílána prostřednictvím elektronickêch nebo > Makêchkoli Minêch prostředkĤ > instead of > Pro účely tohoto Protokolu mohou být sdělení > zasílána prostřednictvím elektronických nebo > jakýchkoli jiných prostředků -- This message was sent by Atlassian JIRA (v6.3.4#6332)