Доброго времени могучий MoscowPM! Вот столкнулся с необходимостью извлекать таблицы из PDF. Из открытых библиотек с функцией извлечь таблицы из страницы нашёл только Питоновскцю https://blog.scraperwiki.com/2013/07/pdftables-a-python-library-for-getting-tables-out-of-pdf-files/ только она почему-то склеивает слова? (ну вот нет счастья).
Для ручного извлечения подошло вот это http://tabula.technology/ и FineReader. Но надо автоматизировать для однотипных PDFок. Функция PDF_to_text работает в разных утилитах по-разномы... CAM::PDF, Text::PDF, pdf2xml, Text::FromAny все по-разному укладывают табличу в строки (особенно, когда есть многострочные ячейки) Как же извлекать таблички из PDF? Как сделать это на Perl, или из него?
-- Moscow.pm mailing list [email protected] | http://moscow.pm.org
