- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Re: Неправильно индексируются *.doc файлы при кодировке utf8
Добавил ro.utf-8.lm в langmap.conf.
./indexer -v 4 -m -a -u URL
indexer[12504]: {01} Guesser: Lang: ro, Charset: UTF-8
проверил, работает сейчас! ура.
В процесе тестов обнаружил что без ro.utf-8.lm один из pdf-ов определяется как
Guesser: Lang: zh, Charset: UTF-8 ... zh :))
после чего добавил ro.utf-8.lm все ок, Lang: ro
... Я раньше както не думал об этом: если в langmap.conf указать только те
кодировки которые будут встречаться на сайте, то по идее indexer.conf должен
работать быстрее? .... и порядок в langmap.conf тоже важен ? то есть datapark
будет пробовать lang map-ы сверху вниз ?
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1175685078