On Sun, Jan 15, 2012 at 10:05:09PM +0400, Dmitry A. Zhiglov wrote: > Необходимо перевести сканированный текст в электронный вид. > > Дано: сканы страниц содержащие печатный русский (~90%) и английский > текст. Из себя представляют отчеты работ, т.е. текст > структурированный, но без визуальных границ у таблиц. > > Желаемое: обработать сканы в пакетном режиме и получить готовый файл в > виде plaintext UTF-8. > Перспектива: распознать мнимые таблицы, есть закономерность появления > таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать > по-человечески. > > В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze). > > Подскажите, какие существуют качественные инструменты для > распознавания русского печатного текста и таблиц? > Выслушаю любые идеи, включая самые нелепые.
ocropus + tesseract 3.0 или ocropus + cuneiform (что менее тривиально) В-общем, есть такой репозитарий у Александра Позднякова. deb http://notesalexp.net/debian/sid/ sid main -- Иван Лох -- To UNSUBSCRIBE, email to [email protected] with a subject of "unsubscribe". Trouble? Contact [email protected] Archive: http://lists.debian.org/[email protected]

