On Sun, Jan 15, 2012 at 10:05:09PM +0400, Dmitry A. Zhiglov wrote:
> Необходимо перевести сканированный текст в электронный вид.
> 
> Дано: сканы страниц содержащие печатный русский (~90%) и английский
> текст. Из себя представляют отчеты работ, т.е. текст
> структурированный, но без визуальных границ у таблиц.
> 
> Желаемое: обработать сканы в пакетном режиме и получить готовый файл в
> виде plaintext UTF-8.
> Перспектива: распознать мнимые таблицы, есть закономерность появления
> таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать
> по-человечески.
> 
> В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze).
> 
> Подскажите, какие существуют качественные инструменты для
> распознавания русского печатного текста и таблиц?
> Выслушаю любые идеи, включая самые нелепые.

ocropus + tesseract 3.0

или 

ocropus + cuneiform (что менее тривиально)

В-общем, есть такой репозитарий у Александра
Позднякова.

deb http://notesalexp.net/debian/sid/ sid main


-- 
Иван Лох


-- 
To UNSUBSCRIBE, email to [email protected]
with a subject of "unsubscribe". Trouble? Contact [email protected]
Archive: http://lists.debian.org/[email protected]

Ответить