- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Oleg Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8
Установил dpsearch-4.46-04042007 Команды GuesserUseMeta нету в indexer.conf ./indexer -v 4 -m -a -u http://search.neonet.md:81/ebooks/test/cat2/Archer-Jeff.... .doc indexer[12437]: {01} Starting external parser: 'catdoc -a -dutf-8 /tmp/ind.1.12437.in' indexer[12437]: {01} [] Stored rec_id: be761523 Size: 491736 Ratio: 37.61% indexer[12437]: {01} Guesser: Lang: ro, Charset: ISO-8859-2 тоесть Charset: ISO-8859-2 проверил catdoc на Archer-Jeffrey-Nici-un-ban.doc. Полученный txt файл правильный, открывал в notepad2 (http://www.flos-freeware.ch/notepad2.html, хорошая замена windowsкого notepada). полученный файл пропустил через dpguesser: bash-3.00# ./dpguesser t.txt Charset: Shift_JIS in /usr/local/dpsearch/etc/langmap/ja.sjis.lm not supported Charset: Big5 in /usr/local/dpsearch/etc/langmap/zh.big5.lm not supported Charset: GB2312 in /usr/local/dpsearch/etc/langmap/zh.gb2312.lm not supported Charset: ISO-2022-JP in /usr/local/dpsearch/etc/langmap/ja.iso-2022-jp.lm not supported Charset: iso-2022-jp in /usr/local/dpsearch/etc/langmap/ja.iso-2022-jp.lit.lm not supported Charset: euc-jp in /usr/local/dpsearch/etc/langmap/ja.euc-jp.lit.lm not supported Charset: EUC-JP in /usr/local/dpsearch/etc/langmap/ja.euc-jp.lm not supported Charset: GB-18030 in /usr/local/dpsearch/etc/langmap/zh.gb18030.lm not supported Charset: sjis in /usr/local/dpsearch/etc/langmap/ja.sjis.lit.lm not supported Charset: EUC-KR in /usr/local/dpsearch/etc/langmap/ko.EUC-KR.lm not supported Charset: GBK in /usr/local/dpsearch/etc/langmap/zh.gbk.lm not supported Charset: tscii in /usr/local/dpsearch/etc/langmap/ta.tscii.lm not supported Charset: euc-kr in /usr/local/dpsearch/etc/langmap/ko.euc-kr.lit.lm not supported .... и dpquesser завис. пришлось нажать Ctrl+C. (ps -auxf показал что он использует 3.8% CPU) > Загружается ли у вас карта ru.utf-8.lm Наверно вы имели в виду файл "ro.utf-8.lm" ? В langmap.conf-dist из dpsearch-4.46-04042007-mysql его нету. Добавить ? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078
