- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8

Установил dpsearch-4.46-04042007 
Команды GuesserUseMeta нету в indexer.conf

./indexer -v 4 -m -a -u 
http://search.neonet.md:81/ebooks/test/cat2/Archer-Jeff.... .doc

indexer[12437]: {01} Starting external parser: 'catdoc -a -dutf-8 
/tmp/ind.1.12437.in'
indexer[12437]: {01} [] Stored rec_id: be761523 Size: 491736 Ratio: 37.61%
indexer[12437]: {01} Guesser: Lang: ro, Charset: ISO-8859-2

тоесть Charset: ISO-8859-2  

проверил catdoc на Archer-Jeffrey-Nici-un-ban.doc. Полученный txt файл 
правильный, открывал в notepad2 (http://www.flos-freeware.ch/notepad2.html, 
хорошая замена windowsкого notepada).

полученный файл пропустил через dpguesser:
bash-3.00# ./dpguesser t.txt
Charset: Shift_JIS in /usr/local/dpsearch/etc/langmap/ja.sjis.lm not supported
Charset: Big5 in /usr/local/dpsearch/etc/langmap/zh.big5.lm not supported
Charset: GB2312 in /usr/local/dpsearch/etc/langmap/zh.gb2312.lm not supported
Charset: ISO-2022-JP in /usr/local/dpsearch/etc/langmap/ja.iso-2022-jp.lm not 
supported
Charset: iso-2022-jp in /usr/local/dpsearch/etc/langmap/ja.iso-2022-jp.lit.lm 
not supported
Charset: euc-jp in /usr/local/dpsearch/etc/langmap/ja.euc-jp.lit.lm not 
supported
Charset: EUC-JP in /usr/local/dpsearch/etc/langmap/ja.euc-jp.lm not supported
Charset: GB-18030 in /usr/local/dpsearch/etc/langmap/zh.gb18030.lm not supported
Charset: sjis in /usr/local/dpsearch/etc/langmap/ja.sjis.lit.lm not supported
Charset: EUC-KR in /usr/local/dpsearch/etc/langmap/ko.EUC-KR.lm not supported
Charset: GBK in /usr/local/dpsearch/etc/langmap/zh.gbk.lm not supported
Charset: tscii in /usr/local/dpsearch/etc/langmap/ta.tscii.lm not supported
Charset: euc-kr in /usr/local/dpsearch/etc/langmap/ko.euc-kr.lit.lm not 
supported

.... и dpquesser завис. пришлось нажать Ctrl+C. (ps -auxf показал что он 
использует 3.8% CPU)

> Загружается ли у вас карта ru.utf-8.lm 
Наверно вы имели в виду файл "ro.utf-8.lm" ? 
В langmap.conf-dist из dpsearch-4.46-04042007-mysql его нету. Добавить ?
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078

Reply via email to