- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8

По поводу dpguesser:
когда тестил на маленьком файле он вывел мне таблицу типа
87h 243m        li      UTF-8
35h 244m        zh      GB2312
44h 244m        zh      UTF-8
27h 245m        zh      Big5
39h 245m        ko      EUC-KR
41h 246m        ja      EUC-JP
32h 249m        zh      GB-18030
...
из которой я ничего не понял, даже после беглого прочтения 
http://www.maxime.net.ru/doc/guess.en.shtml

Эта http://search.neonet.md:81/ebooks/test/test_page.htm страницу при 
индексировании определяется как Lang: ru, хотя она на english.
indexer[20758]: {01} [] Stored rec_id: 300718b Size: 5909 Ratio: 39.03%
indexer[20758]: {01} Guesser: Lang: ru, Charset: UTF-8

Внимательно прочитал тут:
http://www.dataparksearch.org/dpsearch-international.en.html

"By default, DataparkSearch uses only first 8192 bytes".
С этим все ок, страница имеет 5672 bytes.

В странице есть только два слова НЕ на english: "română русский", которые к 
тому же находятся в <noindex> ... </noindex>.
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078

Reply via email to