- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Oleg
Subject: Re: Ispell & Synonims

После долгого раздумья, решил изложить свои мысли по поводу сабжа.
Я думаю что поддержка внешних «сервисов» для генерации словоформ, исправления 
правописания лучше чем native support. OpenOffice например, для проверки 
орфографии использует пакет hunspell (http://hunspell.sourceforge.net/). 
Hunspell/MySpell/Aspell все они более современные версии старого Ispella. 
Поэтому фича SQLWordForms очень полезная: для некоторых языков создаются 
словари только для aspell/myspell которые по возможностям превосходят ispell, 
например: Dot signs an arbitrary character, Twofold suffix stripping, 
Prefix--suffix dependencies 
(http://sourceforge.net/docman/display_doc.php?docid=29374&group_id=143754). 
Легче сгенерировать все словоформы, убрать лишнее!
 , добавить если что, и скормить их поисковику.  Таким образом нет зависимости 
от определенного формата и правил. 
    В других поисковиках Swish-e (http://swish-e.org/), Lucene 
(http://lucene.apache.org/) используется пакет Snowball 
(http://snowball.tartarus.org) для поддержки морфологии.  Такой подход 
предполагает что возможно использование других third party tools. (Там при 
индексации в базу записывается только root words, да и после прочтения 
документации Swish-e я понял что DataPark и mnoGoSearch более продвинутые). 
    Есть и другой путь: поддержка myspell словарей. (взять код из 
hunspell/myspell который генерирует словоформы и шабаш). Но я всётаки склоняюсь 
к заранее построенной базе с словоформами.
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1122123666;page=3

Reply via email to