- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Maxime
Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8

Конечно имелся в виду ro.utf-8.lm :)
Да, скорость работы indexer зависит от числа загуженых арт языков и кодировок, 
и не используемые языки и кодировки нужно не загружать. Но насколько я понял, 
румынский язык (ro) близок к молдавскому (mo), поэтому логично включить карты 
румынского в вашу конфигурацию.
Порядок указания карт языков не важен. они всё равно проверяются в порядке 
расстояния от распределения n-gram текущего документа, и проверяются все 
загруженные карты. Вероятность одинакового минимального расстояния для двух 
разных карт очень мала, почти невероятна.
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078

Reply via email to