ご返答ありがとうございます。 今度はテストとして 適当な単語を入力したexcelをPDF変換したファイル 普通のexcelファイル 普通のwordファイル 透明テキストが埋めこまれているWEB上から入手したファイル テキストが埋め込まれていない紙媒体をスキャナーで取り込んだファイル を変換してみたところ、以下のようになりました。
# mknmz 検索対象のファイルを調べています... 5個のファイルがインデックス作成の対象として見つかりました 1/5 - /mnt/share/test/Book2.pdf Unable to convert pdf file (maybe copying protection) 1/4 - /mnt/share/test/Book2.xls [application/excel] 2/4 - /mnt/share/test/word2.doc [application/msword] 3/4 - /mnt/share/test/%83I%83s%83I%83C%83h%82%CC%93%C1%92%A5%81E%83%82%83%8B%83q%83l%81E%83I%83L%83V%83R%83h%83%93%81E%83t%83F%83%93%83%5E%83j%83%8B%81E%83I%83L%83m%81%5B%83%80%81E%83I%83L%83V%83R%83%93%83%60%83%93.pdf Unable to convert pdf file (maybe copying protection) 3/3 - /mnt/share/test/%97%B0%8E_%83%7D%83O%83l%83V%83E%83%80%93%C5%90%AB%8A%D6%8CW.pdf Unable to convert pdf file (maybe copying protection) インデックスを書き出しています... [基本] 日付: Tue Aug 25 03:16:40 2009 追加された文書の数: 2 サイズ (bytes): 33,792 合計の文書数: 2 追加キーワード数: 14 合計キーワード数: 14 わかち書き: module_kakasi -ieuc -oeuc -w 経過時間 (秒): 8 ファイル/秒: 0.25 システム: linux Perl: 5.008008 Namazu: 2.0.19 やはりPDFファイルはすべて変換できないようです。 ちなみに紙媒体を取り込んだPDFファイルもPDFのタイトルは設定しているので 通常ならば対象ファイルになるものと思います。 完全にこの結果からPDFファイルに問題があるのではなく 当方のxpdfの設定がおかしいとは思うのですが。。。 念のためにpdftotextも実行しましたがすべてエラーでした。 /usr/local/etc/xpdfrcには記載しているつもりなのですが。 # pdftotext -enc ECU-JP Book2.pdf out.txt Error: Couldn't find unicodeMap file for the 'ECU-JP' encoding Error: Couldn't get text encoding # pdftotext -enc ja_JP.eucjp Book2.pdf out.txt Error: Couldn't find unicodeMap file for the 'ja_JP.eucjp' encoding Error: Couldn't get text encoding # pdftotext -enc eucjp Book2.pdf out.txt Error: Couldn't find unicodeMap file for the 'eucjp' encoding Error: Couldn't get text encoding 今回の検証に使用したPDFファイルを寺西様個人のアドレスに添付させていただきます。 よろしくお願いいたします。 _______________________________________________ Namazu-users-ja mailing list Namazu-users-ja@namazu.org http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja