[DataparkSearch Forum] Re: Неправильно индексируются *.doc файлы при кодировке utf8

DataparkSearchForum Sat, 07 Apr 2007 13:19:26 -0700

- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8


Трудно сказать, очень часто Guesser не гуесит как надо, например:
indexer[17400]: {01} URL: http://www.aids.md/information/library/d923/
indexer[17400]: {01} Guesser: Lang: ru, Charset: UTF-8

а вот здесь indexer подумал секунд 15 прежде чем проиндексировать:
URL: http://www.aids.md/ro/information/library/d986/
indexer[18192]: {01} Guesser: Lang: zh, Charset: UTF-8
(для dataparka эта страница содержит text pdf документа заранее сгенеренный 
pdf2txt, но документ очень маленький).

Из 
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05&topic_id=1175792637
 я предполагаю что если указывать Content-Language и Content-Type в headers то 
datapark вообще не должен прибегать к помощи guessera a просто использовать эту 
информацию. Раз wебмастер указал язык и charset, зачем dataparku тратить время 
на guessing ?

Например для http://www.aids.md/ro/information/library/d986/ headers выглядят 
так:
Content-Type: text/html; charset=UTF-8
Content-Language: ro

но guesser пишет: Lang: zh
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078;page=2

[DataparkSearch Forum] Re: Неправильно индексируются *.doc файлы при кодировке utf8

Reply via email to