- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Oleg Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8
По поводу dpguesser: когда тестил на маленьком файле он вывел мне таблицу типа 87h 243m li UTF-8 35h 244m zh GB2312 44h 244m zh UTF-8 27h 245m zh Big5 39h 245m ko EUC-KR 41h 246m ja EUC-JP 32h 249m zh GB-18030 ... из которой я ничего не понял, даже после беглого прочтения http://www.maxime.net.ru/doc/guess.en.shtml Эта http://search.neonet.md:81/ebooks/test/test_page.htm страницу при индексировании определяется как Lang: ru, хотя она на english. indexer[20758]: {01} [] Stored rec_id: 300718b Size: 5909 Ratio: 39.03% indexer[20758]: {01} Guesser: Lang: ru, Charset: UTF-8 Внимательно прочитал тут: http://www.dataparksearch.org/dpsearch-international.en.html "By default, DataparkSearch uses only first 8192 bytes". С этим все ок, страница имеет 5672 bytes. В странице есть только два слова НЕ на english: "română русский", которые к тому же находятся в <noindex> ... </noindex>. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078
