Dear group tesseract-ocr, Qua sự giới thiệu của Quan Nguyen <[email protected]>, tôi đã thử dùng VietOCR để thử nhận diện một vài trang chữ Hán tradional chiinse. Kết quả rất tốt, hơn 90% chính xác. Dưới đây là mấy dòng OCR từ một trang sách:
凱旋門地處寬闊的星星戴高樂廣場0這裏是鄉塞麓 寨大街的盡頭,又是沙佑山丘的最高<黑占= 點 > 。從戴高樂廣場向 四面八方延伸,有12條大道。 宏偉、<爿士= 壯>麗的凱旋門就聳立 在廣場中央的環島上<風=面>這座拱門是在拿破侖時期<蹈昍=1806> 年由夏爾格蘭負責動工建造的。根據拿 破侖的命令,它被 用來紀念法國大軍0凱旋門建成於1836年。它只有一個拱 洞,上<焉= 爲>桶形穹窿其規模超過了羅馬的康斯坦丁凱旋 門0高50 米,寬蚯米凱旋門的每一面上都有巨幅浮雕琪 Trong số những chữ( trong <>) Viet OCR 31 đã nhận mặt sai (số lượng rất ít), có 2 trường hợp đáng chú ý: <爿士= 壯> <黑占= 點 > đó là OCR đã tách một chữ Hán gồm 2 thành phần thành 2 chữ riêng biệt. Biết rằng một chữ Hán nằm trong khuôn khổ một ô vuông, nếu VietOCR gom hai thành phần làm một (trong ô vuông) thì kết quả hẳn sẽ hoàn hảo hơn nhiều. Xin góp ý cho các bạn thực hiện công cụ này càng hay hơn nữa, không có ý nào khác. DTK -- You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To post to this group, send email to [email protected]. To unsubscribe from this group, send email to [email protected]. For more options, visit this group at http://groups.google.com/group/tesseract-ocr?hl=en.

