寺西です。 (2013/07/23 22:16), &1 wrote: > pdftotext -q -raw -enc EUC -opw password pdffile > と > pdftotext -cfg /usr/local/etc/xpdfrc -enc EUC -opw password pdffile > では、いずれでもpdfファイルからテキストが抽出されます。
これが正しいとすると、設定がおかしいです。 encoding name には本来 EUC-JP を指定しないといけません。 しかし、EUC と指定してテキストが抽出されるのなら、 xpdfrc 等の設定がおかしくなっているのではないかと 考えられます。 filter/pdf.pl では、EUC-JP を指定していますし。 # それとも書き間違いでしょうか? > mknmz -Cの結果は > Loaded rcfile: /usr/local/etc/namazu/mknmzrc ... > Lang_Msg: en_US.UTF-8 > Lang: en_US.UTF-8 この2行は ja_JP.eucJP でなければならないです。 環境変数を正しく設定して mknmz を実行してください。 (あるいは -L ja_JP.eucJP オプションを付けて mknmz を 実行してください。) > 確認のためにパスワードを付けていないpdfを検索対象ディレクトリに > コピーするとこれは正常にインデックスを作ってくれます。 おそらく、filter/pdf.pl の日本語処理の時の pdftotext の 引数だけに -opw passwd を付けているのでしょう。 パスワードなしファイルだと、-opw passwd なしで処理できます ので。 > 何を疑えばよいでしょうか。 mknmz -C の結果が、VMware上のCentOS と 本番 とで違って いるのだろうと思います。 mknmz に --debug オプションを追加して、パスワード付きの PDF ファイルを処理した時のログを見ればよりはっきりするかと 思います。 -- ===================================================================== 寺西 忠勝(TADAMASA TERANISHI) yw3t-t...@asahi-net.or.jp http://www.asahi-net.or.jp/~yw3t-trns/index.htm Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja