Re: Насчет текстовой индексации

Roman Rokytskyy Mon, 04 Jun 2007 07:53:44 -0700


Kovalenko Dmitry wrote:

ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у
тебя различные формы склонения и во множ. числе дают разные лексемы, то
этому можно помочь - ведь этап "послефильтрирования" для signature file
обязателен.


Не, я их не нормализую :) Храню как есть. Честно :)

ну вот это место, где можно немного подкрутить - за основу можно взять"нормализатор" из Lucene для русского языка. Хоть он и на Java, но идеятам простенькая и в виде одной UDF оформляется без проблем. вопрос -принесет ли это какую-то выгоду или нет?

Там большое число слов, которые, фактически являются числами. Наверное
с ними надо что-то делать, но "моя это что-то пока явно осилить не
может" :)

может, в большинстве случаев отбросить нафиг? никто ведь не будет искатьтолько по числам (кроме номера паспорта, наверное), если оставить этаппослефильтрации, то наверняка можно сэкономить на количестве записей...хотя если основные числа приходят от каких-то там идентификационныхномеров, тады ой...

Re: Насчет текстовой индексации

Ответить