amin bouja created PDFBOX-1361:
----------------------------------

             Summary: damaged arabic text after extraction from pdf
                 Key: PDFBOX-1361
                 URL: https://issues.apache.org/jira/browse/PDFBOX-1361
             Project: PDFBox
          Issue Type: Bug
          Components: Text extraction
    Affects Versions: 1.7.0
         Environment: Windows 7
Eclipse v: last release
PDFBOX 1.7.0.jar
icu4j-49.jar
            Reporter: amin bouja


I am using PDFBOX 1.7.0 with the icu4j-49.jar to extract multilingual text from 
a pdf file, using this code:

***********************************************************************************|
PDDocument pddDocument = PDDocument.load(new File("arabic.pdf"));      |
PDFTextStripper textStripper = new PDFTextStripper();                           
              |
String Text = textStripper.getText(pddDocument);                                
                   |  
System.out.println(Text);                                                       
                                        |
***********************************************************************************
 

 I'am having as Output :


  05:71 - 2102يوليوز  22األحد 
ي بدنه عند محطة للحافالت، اليوم األحد، ليصاب بحروق خطيرة وذلك بعد أضرم جندي 
إسرائيلي سابق يستخدم كرسيا متحركا النار ف
 .يومين من وفاة محتج متأثرا باصابات ناجمة عن حادث مماثل


But it should be:


الأحد 22 يوليوز 2012 - 17:58
أضرم جندي إسرائيلي سابق يستخدم كرسيا متحركا النار في بدنه عند محطة للحافلات، 
اليوم الأحد، ليصاب بحروق خطيرة وذلك بعد يومين من وفاة محتج متأثرا باصابات ناجمة 
عن حادث مماثل.





 

--
This message is automatically generated by JIRA.
If you think it was sent incorrectly, please contact your JIRA administrators: 
https://issues.apache.org/jira/secure/ContactAdministrators!default.jspa
For more information on JIRA, see: http://www.atlassian.com/software/jira


Reply via email to