- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8
Трудно сказать, очень часто Guesser не гуесит как надо, например:
indexer[17400]: {01} URL: http://www.aids.md/information/library/d923/
indexer[17400]: {01} Guesser: Lang: ru, Charset: UTF-8
а вот здесь indexer подумал секунд 15 прежде чем проиндексировать:
URL: http://www.aids.md/ro/information/library/d986/
indexer[18192]: {01} Guesser: Lang: zh, Charset: UTF-8
(для dataparka эта страница содержит text pdf документа заранее сгенеренный
pdf2txt, но документ очень маленький).
Из
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05&topic_id=1175792637
я предполагаю что если указывать Content-Language и Content-Type в headers то
datapark вообще не должен прибегать к помощи guessera a просто использовать эту
информацию. Раз wебмастер указал язык и charset, зачем dataparku тратить время
на guessing ?
Например для http://www.aids.md/ro/information/library/d986/ headers выглядят
так:
Content-Type: text/html; charset=UTF-8
Content-Language: ro
но guesser пишет: Lang: zh
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078;page=2