[Namazu-users-ja 1278] Re: mknmz でパスワード付き

Tadamasa Teranishi Tue, 23 Jul 2013 08:30:39 -0700

寺西です。

(2013/07/23 22:16), ＆１ wrote:
> 　pdftotext -q -raw -enc EUC -opw password pdffile
> と
> 　pdftotext -cfg /usr/local/etc/xpdfrc -enc EUC -opw password pdffile
> では、いずれでもpdfファイルからテキストが抽出されます。


これが正しいとすると、設定がおかしいです。
encoding name には本来 EUC-JP を指定しないといけません。
しかし、EUC と指定してテキストが抽出されるのなら、
xpdfrc 等の設定がおかしくなっているのではないかと
考えられます。

filter/pdf.pl では、EUC-JP を指定していますし。

# それとも書き間違いでしょうか?

> 　mknmz -Cの結果は
> Loaded rcfile: /usr/local/etc/namazu/mknmzrc
...
> Lang_Msg: en_US.UTF-8
> Lang: en_US.UTF-8

この2行は ja_JP.eucJP でなければならないです。
環境変数を正しく設定して mknmz を実行してください。
(あるいは -L ja_JP.eucJP オプションを付けて mknmz を
実行してください。)

>   　確認のためにパスワードを付けていないpdfを検索対象ディレクトリに
>   コピーするとこれは正常にインデックスを作ってくれます。

おそらく、filter/pdf.pl の日本語処理の時の pdftotext の
引数だけに -opw passwd を付けているのでしょう。

パスワードなしファイルだと、-opw passwd なしで処理できます
ので。

>   　何を疑えばよいでしょうか。

mknmz -C の結果が、VMware上のCentOS と 本番 とで違って
いるのだろうと思います。

mknmz に --debug オプションを追加して、パスワード付きの
PDF ファイルを処理した時のログを見ればよりはっきりするかと
思います。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-t...@asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E
_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@namazu.org
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

[Namazu-users-ja 1278] Re: mknmz でパスワード付き

メールによる返信