Re: [Moscow.pm] Угадать кодировку (перебором)

Anton Yuzhaninov Wed, 17 Dec 2014 07:39:07 -0800

On 12/17/14 18:02, Харпалёв Иван wrote:

Задача в том, чтобы получить текст этой страницы PDF
<https://yadi.sk/i/3bT0EOEIdSeUp>.
И проблема именно в кодировках в Perl.
   из
my $pdf = CAM::PDF->new($file_name);
my $text = $pdf->getPageText(1);
  приезжает скаляр, который не получается заэнкодить в utf8.


Внутри pdf-файла может быть своя таблица перекодировки - ToUnicode

Если данные извелечь не получается, то скорее всего:

- CAM::PDF не умеет использовать ToUnicode map. Можно попробовать поискатьдругой софт для работы с pdf

- В pdf-файле нет ToUnicode, а есть встроенные шрифты и коды символов которыеподходят только к этим шрифтам. Тогда самый простой пусть извелечения текста - OCR.

В данном файле ToUnicode насколько вижу есть, так что надо чинить CAM::PDF илиискать что то вместо него.


Немножко информации про извлечение текста из PDF:
http://lists.cairographics.org/archives/cairo/2007-February/009452.html
--
Moscow.pm mailing list
[email protected] | http://moscow.pm.org

Re: [Moscow.pm] Угадать кодировку (перебором)

Ответить