Kovalenko Dmitry wrote:
ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у
тебя различные формы склонения и во множ. числе дают разные лексемы, то
этому можно помочь - ведь этап "послефильтрирования" для signature file
обязателен.
Не, я их не нормализую :) Храню как есть. Честно :)
ну вот это место, где можно немного подкрутить - за основу можно взять
"нормализатор" из Lucene для русского языка. Хоть он и на Java, но идея
там простенькая и в виде одной UDF оформляется без проблем. вопрос -
принесет ли это какую-то выгоду или нет?
Там большое число слов, которые, фактически являются числами. Наверное
с ними надо что-то делать, но "моя это что-то пока явно осилить не
может" :)
может, в большинстве случаев отбросить нафиг? никто ведь не будет искать
только по числам (кроме номера паспорта, наверное), если оставить этап
послефильтрации, то наверняка можно сэкономить на количестве записей...
хотя если основные числа приходят от каких-то там идентификационных
номеров, тады ой...