森田です。

> ん〜。混同されていますが...。
> mknmz の --indexing-lang オプションで指定する値は、環境変数 LANG
> や LC_ALL 等に指定する値でなければなりません。
> つまり locale をサポートしている OS なら locale -a で出力される
> 値で、UNIX 系OS で日本語なら EUC-JP 系のものとなります。
> つまり、ご利用の環境だと ja_JP.eucjp でなければなりません。
> 
> 一方で xpdf の -enc オプションで指定できるのは xpdfrc に記述されて
> いる文字列であり、EUC-JP 系のものなら、EUC-JP ということになります。
> 
> mknmz の --indexing-lang と xpdf の -enc オプションの値は同じもの
> を指定するわけではなく、お互い独立しています。

そういうことなんですね。
理解できました。
丁寧な説明ありがとうございます。

$ pdftotext -cfg /usr/local/etc/xpdfrc -enc EUC-JP file.pdf out.txt
を実行したところ正常に抽出ができました。

ということで
$ strings `which pdftotext` | grep xpdfrc
を実行したところ
/etc/xpdf/xpdfrc

と表示されたので
# cat add-to-xpdfrc >> /usr/local/etc/xpdfrc
を実行しxpdfが参照しているxpdfrcに書き込みを行ったところ

検索対象のファイルを調べています...
7個のファイルがインデックス作成の対象として見つかりました
1/7 - /mnt/share/test/Book2.pdf [application/pdf]
2/7 - /mnt/share/test/Book2.xls [application/excel]
3/7 - /mnt/share/test/out.txt [text/plain]
4/7 - /mnt/share/test/texttest.txt [text/plain]
5/7 - /mnt/share/test/word2.doc [application/msword]
6/7 - 
/mnt/share/test/%83I%83s%83I%83C%83h%82%CC%93%C1%92%A5%81E%83%82%83%8B%83q%83l%81E%83I%83L%83V%83R%83h%83%93%81E%83t%83F%83%93%83%5E%83j%83%8B%81E%83I%83L%83m%81%5B%83%80%81E%83I%83L%83V%83R%83%93%83%60%83%93.pdf
 [application/pdf]
7/7 - 
/mnt/share/test/%97%B0%8E_%83%7D%83O%83l%83V%83E%83%80%93%C5%90%AB%8A%D6%8CW.pdf
 [application/pdf]
インデックスを書き出しています...

と見事エラーが発生しませんでした!!

結局はxpdfのインストールに際し、設定ファイルがHPに掲載されていたものと異なっていたということでした。

はーかなりの労力をかけましたが、無事index化することができてすごく爽快感でいっぱいです。

このたびは丁寧にやり取りをしていただきありがとうございました。



_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@namazu.org
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

メールによる返信