amin bouja created PDFBOX-1361:
----------------------------------
Summary: damaged arabic text after extraction from pdf
Key: PDFBOX-1361
URL: https://issues.apache.org/jira/browse/PDFBOX-1361
Project: PDFBox
Issue Type: Bug
Components: Text extraction
Affects Versions: 1.7.0
Environment: Windows 7
Eclipse v: last release
PDFBOX 1.7.0.jar
icu4j-49.jar
Reporter: amin bouja
I am using PDFBOX 1.7.0 with the icu4j-49.jar to extract multilingual text from
a pdf file, using this code:
***********************************************************************************|
PDDocument pddDocument = PDDocument.load(new File("arabic.pdf")); |
PDFTextStripper textStripper = new PDFTextStripper();
|
String Text = textStripper.getText(pddDocument);
|
System.out.println(Text);
|
***********************************************************************************
I'am having as Output :
05:71 - 2102يوليوز 22األحد
ي بدنه عند محطة للحافالت، اليوم األحد، ليصاب بحروق خطيرة وذلك بعد أضرم جندي
إسرائيلي سابق يستخدم كرسيا متحركا النار ف
.يومين من وفاة محتج متأثرا باصابات ناجمة عن حادث مماثل
But it should be:
الأحد 22 يوليوز 2012 - 17:58
أضرم جندي إسرائيلي سابق يستخدم كرسيا متحركا النار في بدنه عند محطة للحافلات،
اليوم الأحد، ليصاب بحروق خطيرة وذلك بعد يومين من وفاة محتج متأثرا باصابات ناجمة
عن حادث مماثل.
--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators:
https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira