Jan Divis created PDFBOX-1301: --------------------------------- Summary: Wrong characters in HTML/TXT file from PDF containing scanned pages/images Key: PDFBOX-1301 URL: https://issues.apache.org/jira/browse/PDFBOX-1301 Project: PDFBox Issue Type: Bug Environment: Windows XP, java version "1.6.0_29" Reporter: Jan Divis
When trying to extract text/html from attached PDF file, there are some wrong characters (instead of characters with diacritics): Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ instead of Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků resp. Pro úþely tohoto Protokolu mohou bêt sdělení ]asílána prostřednictvím elektronickêch nebo Makêchkoli Minêch prostředkĤ instead of Pro účely tohoto Protokolu mohou být sdělení zasílána prostřednictvím elektronických nebo jakýchkoli jiných prostředků -- This message is automatically generated by JIRA. If you think it was sent incorrectly, please contact your JIRA administrators: https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa For more information on JIRA, see: http://www.atlassian.com/software/jira