先日から質問させていただいていた森田です。 ようやく日本語PDFもindex化できたかと思ったら またエラーがでてしまい、お力を貸していただければと思います。
紙媒体をスキャンした際にはファイル名としては適当なものをつけ、 Adobe acrobatなどをインストールした際に書き込みが可能となる PDFのプロパティでの文書名(namazuでPDFを検索されるときに表示されるタイトル部分) を編集していました。 それで従来の職場の環境では 本文自体には検索対象語が一語もない場合でもPDFのプロパティでの文書名が登録されていれば それを元に+title:hogehogeとすれば検索できていました。 しかし現在の環境ではPDFのプロパティでの文書名があっても本文自体に検索対象語が一語もない場合 検索できませんでした。 具体例をあげると opi.pdf 本文:null PDF文書名 オピオイド fenta.pdf 本文:フェンタニル PDF文書名 フェンタニル(本文はテキストボックスツールで作成) のファイルがある場合 namazu オピオイド 検索結果 参考ヒット数: [ オピオイド: 0 ] 検索式にマッチする文書はありませんでした。 namazu +title:オピオイド 検索結果 参考ヒット数: [ +title:オピオイド: 1 ] 検索式にマッチする 1 個の文書が見つかりました。 セグメンテーション違反です namazu フェンタニル 検索結果 参考ヒット数: [ フェンタニル: 1 ] 検索式にマッチする 1 個の文書が見つかりました。 1. フェンタニル (スコア: 2) 著者: 不明 日付: Sat, 29 Aug 2009 00:03:02 +0900 フェンタニル /mnt/share/test/fenta.pdf (83,435 bytes) namazu +title:フェンタニル 検索結果 参考ヒット数: [ +title:フェンタニル: 1 ] 検索式にマッチする 1 個の文書が見つかりました。 1. フェンタニル (スコア: 1) 著者: 不明 日付: Sat, 29 Aug 2009 00:03:02 +0900 フェンタニル /mnt/share/test/fenta.pdf (83,435 bytes) とセグメンテーション違反ですとの表示がでました。 ファイル自体はちゃんと1つヒットしているようなのですが なにか回避方法はあるのでしょうか。 よろしくお願いいたします。 念のため、環境を再度記載いたします。 $ cat /etc/debian_version 4.0 $ pdfinfo -v pdfinfo version 3.01 Copyright 1996-2005 Glyph & Cog, LLC $ xpdf -v xpdf version 3.01 Copyright 1996-2005 Glyph & Cog, LLC $ mknmz -C システム: linux Namazu: 2.0.19 Perl: 5.008008 File-MMagic: 1.27 NKF: /usr/bin/nkf KAKASI: module_kakasi -ieuc -oeuc -w 茶筌: no 和布蕪: no わかち書き: module_kakasi -ieuc -oeuc -w メッセージの言語: ja_JP.eucjp 言語: ja_JP.eucjp 文字コード: euc CONFDIR: /usr/local/etc/namazu LIBDIR: /usr/local/share/namazu/pl FILTERDIR: /usr/local/share/namazu/filter TEMPLATEDIR: /usr/local/share/namazu/template 対応メディアタイプ: (23) 未対応メディアタイプ: (25) 必要ツールが $path にないものには (-) を表示 application/excel: excel.pl application/gnumeric: gnumeric.pl application/ichitaro5: taro56.pl application/ichitaro6: taro56.pl - application/ichitaro7: taro7_10.pl application/macbinary: macbinary.pl application/msword: msword.pl application/pdf: pdf.pl - application/postscript: postscript.pl application/powerpoint: powerpoint.pl - application/rtf: rtf.pl - application/vnd.kde.kivio: koffice.pl - application/vnd.kde.kpresenter: koffice.pl - application/vnd.kde.kspread: koffice.pl - application/vnd.kde.kword: koffice.pl - application/vnd.oasis.opendocument.graphics: ooo.pl - application/vnd.oasis.opendocument.presentation: ooo.pl - application/vnd.oasis.opendocument.spreadsheet: ooo.pl - application/vnd.oasis.opendocument.text: ooo.pl - application/vnd.openxmlformats-officedocument.presentationml: msofficexml.pl - application/vnd.openxmlformats-officedocument.spreadsheetml: msofficexml.pl - application/vnd.openxmlformats-officedocument.wordprocessingml: msofficexml.pl - application/vnd.sun.xml.calc: ooo.pl - application/vnd.sun.xml.draw: ooo.pl - application/vnd.sun.xml.impress: ooo.pl - application/vnd.sun.xml.writer: ooo.pl application/vnd.visio: visio.pl application/x-apache-cache: apachecache.pl - application/x-bzip2: bzip2.pl application/x-compress: compress.pl application/x-deb: deb.pl - application/x-dvi: dvi.pl application/x-gzip: gzip.pl - application/x-js-taro: taro7_10.pl - application/x-rpm: rpm.pl - application/x-tex: tex.pl - application/x-zip: zip.pl - audio/mpeg: mp3.pl message/news: mailnews.pl message/rfc822: mailnews.pl text/hnf: hnf.pl text/html: html.pl text/html; x-type=mhonarc: mhonarc.pl text/html; x-type=pipermail: pipermail.pl text/plain text/plain; x-type=rfc: rfc.pl text/x-hdml: hdml.pl text/x-roff: man.pl $ locale -a C POSIX ja_JP.eucjp ja_JP.sjis _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja