On 12/17/14 18:02, Харпалёв Иван wrote:
Задача в том, чтобы получить текст этой страницы PDF
<https://yadi.sk/i/3bT0EOEIdSeUp>.
И проблема именно в кодировках в Perl.
из
my $pdf = CAM::PDF->new($file_name);
my $text = $pdf->getPageText(1);
приезжает скаляр, который не получается заэнкодить в utf8.
Внутри pdf-файла может быть своя таблица перекодировки - ToUnicode
Если данные извелечь не получается, то скорее всего:
- CAM::PDF не умеет использовать ToUnicode map. Можно попробовать поискать
другой софт для работы с pdf
- В pdf-файле нет ToUnicode, а есть встроенные шрифты и коды символов которые
подходят только к этим шрифтам. Тогда самый простой пусть извелечения текста - OCR.
В данном файле ToUnicode насколько вижу есть, так что надо чинить CAM::PDF или
искать что то вместо него.
Немножко информации про извлечение текста из PDF:
http://lists.cairographics.org/archives/cairo/2007-February/009452.html
--
Moscow.pm mailing list
[email protected] | http://moscow.pm.org