15 января 2012 г. 22:05 пользователь Dmitry A. Zhiglov <[email protected]> написал: > > Необходимо перевести сканированный текст в электронный вид. > > Дано: сканы страниц содержащие печатный русский (~90%) и английский > текст. Из себя представляют отчеты работ, т.е. текст > структурированный, но без визуальных границ у таблиц.
самый наработанный функционал по распознанию к сожалению у abbyy finereader. У них есть онлайн-сервис стоит примерно 300р за 200 страниц http://www.abbyyonline.com > > > Желаемое: обработать сканы в пакетном режиме и получить готовый файл в > виде plaintext UTF-8. > Перспектива: распознать мнимые таблицы, есть закономерность появления > таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать > по-человечески. Подобное придется решать руками или писать что-то свое

