Dear group tesseract-ocr,

Qua sự giới thiệu của Quan Nguyen <[email protected]>, tôi đã thử
dùng VietOCR để thử nhận diện một vài trang chữ Hán tradional chiinse.
Kết quả rất tốt, hơn 90% chính xác.
Dưới đây là mấy dòng OCR từ một trang sách:

凱旋門地處寬闊的星星戴高樂廣場0這裏是鄉塞麓 寨大街的盡頭,又是沙佑山丘的最高<黑占= 點 > 。從戴高樂廣場向 四面八方延伸,有12條大道。
宏偉、<爿士= 壯>麗的凱旋門就聳立 在廣場中央的環島上<風=面>這座拱門是在拿破侖時期<蹈昍=1806> 年由夏爾格蘭負責動工建造的。根據拿
破侖的命令,它被 用來紀念法國大軍0凱旋門建成於1836年。它只有一個拱 洞,上<焉= 爲>桶形穹窿其規模超過了羅馬的康斯坦丁凱旋 門0高50
米,寬蚯米凱旋門的每一面上都有巨幅浮雕琪

Trong số những chữ( trong <>) Viet OCR 31 đã nhận mặt sai (số lượng
rất ít), có 2 trường hợp đáng chú ý:

<爿士= 壯>
<黑占= 點 >

đó là OCR đã tách một chữ Hán gồm 2 thành phần thành 2 chữ riêng biệt.
Biết rằng một chữ Hán nằm trong khuôn khổ một ô vuông, nếu VietOCR gom
hai thành phần làm một (trong ô vuông) thì kết quả hẳn sẽ hoàn hảo hơn
nhiều.
Xin góp ý cho các bạn thực hiện công cụ này càng hay hơn nữa, không có
ý nào khác.

DTK

-- 
You received this message because you are subscribed to the Google Groups 
"tesseract-ocr" group.
To post to this group, send email to [email protected].
To unsubscribe from this group, send email to 
[email protected].
For more options, visit this group at 
http://groups.google.com/group/tesseract-ocr?hl=en.

Reply via email to