寺西です。 # ツッコミどころ満載なのですが、どこからつっこんでいきましょう # かねぇ。
このメールの Subject: には、わざわざ「PDF検索が」と断り書き がありますが、PDF 以外の文書ファイルの場合は正しく検索できる のでしょうか? それを確認しないで、PDF だけで試しているということは ないですよね? (2013/05/24 14:41), earlybirdsinging wrote: > 環境ですが、 > さくらインターネットのVPSというサービスを使っています。 > CentOS 6 > httpd 2.2.15 > Perl v5.10.1 > kakasi 2.3.4 > namazu 2.0.21 えっと NKF は? > こちらのサイト様を参考にしつつセットアップしました。 > http://centossrv.com/namazu.shtml とんでもないこと書いてあるので、参考にしないことを おすすめします。 > この状態でインデックスを作成し > namazu 検索用語 > とすると、PDFファイルがヒットするのですがCGIとしてWEB > から検索すると、「検索式にマッチする文書はありませんでした。」 > となってしまいます。 当然ですが、検索用語は namazu コマンド、namazu.cgi のどちらに も同じ検索語を使っていますよね? そしてそれは日本語が含まているのですよね。 namazu コマンドでヒットする日本語を含まない英単語を namazu.cgi で検索した場合にはどうなりますか? namazu.cgi が参照するインデックスは、namazu コマンドで参照 しているインデックスをきちんと指定していますか? インデックスの指定方法分かっていますか? > 試行錯誤した中で思ったのですが、NMZ.slogを見ると > コマンドで打った検索語句は日本語表記、CGIからPOST > されているものは文字化けしています。 文字化けと片付けられていますが、 EUC-JP で記録されていれば正しいです。EUC-JP 以外なら アウトです。 あと、namazu コマンドで検索できていて、namazu.cgi でダメ なら、インデックスの問題ではなく、namazu.cgi の問題なので 確認するべきところが違うでしょう。 > 文字コードの問題かと思い調べてみたのですが、さくらVPSのCentOS6は > デフォルトコードが「C」となっており、「UTF-8」に変更してみて、 > mknmz xxxx | nkf -w として作成しましたが結果は変わりませんでした。 根本的なことですが、Namazu は UTF-8 に対応していません。 unix で日本語処理するには EUC-JP の一択です。 > XPDFの設定ファイルのxpdfrcの > textEncoding UTF-8 や EUC-JPとしても > 変わりませんでした。 行き当たりばったりで適当に設定するのはやめましょう。 つづきは別メールで。 -- ===================================================================== 寺西 忠勝(TADAMASA TERANISHI) yw3t-t...@asahi-net.or.jp http://www.asahi-net.or.jp/~yw3t-trns/index.htm Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja