- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Oleg Subject: Re: Ispell & Synonims
После долгого раздумья, решил изложить свои мысли по поводу сабжа. Я думаю что поддержка внешних «сервисов» для генерации словоформ, исправления правописания лучше чем native support. OpenOffice например, для проверки орфографии использует пакет hunspell (http://hunspell.sourceforge.net/). Hunspell/MySpell/Aspell все они более современные версии старого Ispella. Поэтому фича SQLWordForms очень полезная: для некоторых языков создаются словари только для aspell/myspell которые по возможностям превосходят ispell, например: Dot signs an arbitrary character, Twofold suffix stripping, Prefix--suffix dependencies (http://sourceforge.net/docman/display_doc.php?docid=29374&group_id=143754). Легче сгенерировать все словоформы, убрать лишнее! , добавить если что, и скормить их поисковику. Таким образом нет зависимости от определенного формата и правил. В других поисковиках Swish-e (http://swish-e.org/), Lucene (http://lucene.apache.org/) используется пакет Snowball (http://snowball.tartarus.org) для поддержки морфологии. Такой подход предполагает что возможно использование других third party tools. (Там при индексации в базу записывается только root words, да и после прочтения документации Swish-e я понял что DataPark и mnoGoSearch более продвинутые). Есть и другой путь: поддержка myspell словарей. (взять код из hunspell/myspell который генерирует словоформы и шабаш). Но я всётаки склоняюсь к заранее построенной базе с словоформами. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1122123666;page=3
