寺西です。

(2013/07/23 22:16), &1 wrote:
>  pdftotext -q -raw -enc EUC -opw password pdffile
> と
>  pdftotext -cfg /usr/local/etc/xpdfrc -enc EUC -opw password pdffile
> では、いずれでもpdfファイルからテキストが抽出されます。

これが正しいとすると、設定がおかしいです。
encoding name には本来 EUC-JP を指定しないといけません。
しかし、EUC と指定してテキストが抽出されるのなら、
xpdfrc 等の設定がおかしくなっているのではないかと
考えられます。

filter/pdf.pl では、EUC-JP を指定していますし。

# それとも書き間違いでしょうか?

>  mknmz -Cの結果は
> Loaded rcfile: /usr/local/etc/namazu/mknmzrc
...
> Lang_Msg: en_US.UTF-8
> Lang: en_US.UTF-8

この2行は ja_JP.eucJP でなければならないです。
環境変数を正しく設定して mknmz を実行してください。
(あるいは -L ja_JP.eucJP オプションを付けて mknmz を
実行してください。)

>    確認のためにパスワードを付けていないpdfを検索対象ディレクトリに
>   コピーするとこれは正常にインデックスを作ってくれます。

おそらく、filter/pdf.pl の日本語処理の時の pdftotext の
引数だけに -opw passwd を付けているのでしょう。

パスワードなしファイルだと、-opw passwd なしで処理できます
ので。

>    何を疑えばよいでしょうか。

mknmz -C の結果が、VMware上のCentOS と 本番 とで違って
いるのだろうと思います。

mknmz に --debug オプションを追加して、パスワード付きの
PDF ファイルを処理した時のログを見ればよりはっきりするかと
思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-t...@asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@namazu.org
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

メールによる返信