- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Как определяеться язык и кодировка индексируемых документов ?

При ./indexer -v 4 мы видим как datapark определяет Lang и Charset.
например:
indexer[22853]: {01} URL: http://www.aids.md/information/library/d988/
indexer[22853]: {01} Status: 200 OK
indexer[22853]: {01} [] Stored rec_id: 476bb374 Size: 6312 Ratio: 38.91%
indexer[22853]: {01} Guesser: Lang: zh, Charset: UTF-8

В документации (http://www.dataparksearch.org/dpsearch-international.ru.html)
есть подпункт 7.1.5. Определение кодировки документа.

Я думаю этого недостаточно, и в то же время накладно определять guesser-om 
кодировку и язык.

В html-e можно указывать язык документа, например <HTML lang="ru">
http://www.w3.org/TR/html4/struct/dirlang.html#langcodes

Почему бы не проверять на lang ?

Этот 
(http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05&topic_id=1175685078)
 
Решил создать этот топик 
http://www.w3.org/TR/html4/struct/dirlang.html#langcodes
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=

Reply via email to