田中と申します。はじめまして。

namazu 2.0.20 (正確には、debian の namazu2-index-tools package の
Version 2.0.20-1.0+nmu1)での、mknmz による pdf file 処理の
問題を見つけました。

これに対処するための、pdf.pl 1.22.4.16 に対する patch をお送ります。
未検証ですが、CVS の pdf.pl 1.46 にも適用可能だと思います。
Ref. http://cvs.namazu.org/namazu/filter/pdf.pl?revision=1.46


以下、この背景を説明します。

まず、問題を述べます。password 等の protection のかかっていない pdf 
ファイルを mknmz で処理しようとしたところ、次のようなerror で処理
できませんでした:

 0, application/pdf; x-error=Unable to convert pdf file (maybe copying protectio
n)


推測ではありますが、この原因は、pdf.pl の内部で、pdftotext (と pdfinfo) を
呼ぶ場合の引数が不適切なためです。pdf.pl は pdftotext の version に応じ、
引数の付けかたを変えます。これは、xpdf の pdftotext では適切なもので
あったようです。

一方、最近良く使われている(らしい) poppler由来の pdftotext には、
上記 version の pdf.pl では対応できていません (CVS のも見てみましたが、
この点への対応は無かったようです)。

そこで、この推測に従って、poppler由来の pdftotext に適応させるための 
pdf.pl の patch を作りました。とりあえず、Copyright 表示を見て 
poppler由来か否かを判断してます。

一応、私の手元で試したところ、動いてはいるようです。


以上、御検討ください。

田中篤司

Attachment: poppler.patch
Description: Binary data

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@namazu.org
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

メールによる返信