On Thu, Oct 20, 2011 at 01:26:35PM +0400, Victor Wagner wrote: > On 2011.10.19 at 19:11:26 +0400, Иван Лох wrote: > > > On Wed, Oct 19, 2011 at 06:45:46PM +0400, Victor Wagner wrote: > > > Правда, пока что попытки совместить это дело с дистрибутивном > > > cuneiform-ом у меня к хорошим результатам не привели. > > > > ocrodjvu --engine cuneiform --language rus -o bookocr.djvu book.djvu > > В теории нет разницы между теорией и практикой. > А на практике - есть. > > Ну попробуй, например вот это http://freebsd.over.ru/oppel_1917.djvu > черед ocrodjvu пропустить. Ни у меня (под Debian-ом) ни у Поволоцкого > (под freebsd) добиться чтобы cuneiform на этом тексте не падал в кору, > не получилось.
Для нормального распознования книг изданных до 1918 года нужен соответствующий словарь. С ятями, ерами и ижицами. Для cineiform это проблематично. Для tesseract 3.0 его теоретически можно написать. А ненормально он распознает. -- To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected] Archive: http://lists.debian.org/[email protected]

