[Moscow.pm] Extract tables from PDF

Харпалёв Иван Tue, 02 Dec 2014 03:08:02 -0800

 Доброго времени могучий MoscowPM!

Вот столкнулся с необходимостью извлекать таблицы из PDF.
Из открытых библиотек с функцией извлечь таблицы из страницы нашёл только
 Питоновскцю
https://blog.scraperwiki.com/2013/07/pdftables-a-python-library-for-getting-tables-out-of-pdf-files/
только она почему-то склеивает слова? (ну вот нет счастья).


Для ручного извлечения подошло вот это http://tabula.technology/ и
FineReader. Но надо автоматизировать для однотипных PDFок.

Функция PDF_to_text работает в разных утилитах по-разномы...
CAM::PDF,  Text::PDF, pdf2xml, Text::FromAny
все по-разному укладывают табличу в строки (особенно, когда есть
многострочные ячейки)

Как же извлекать таблички из PDF? Как сделать это на Perl, или из него?

-- 
Moscow.pm mailing list
[email protected] | http://moscow.pm.org

[Moscow.pm] Extract tables from PDF

Ответить