> ну и 700 тыс. уникальных слов что-то мне не очень верится... если же у > тебя различные формы склонения и во множ. числе дают разные лексемы, то > этому можно помочь - ведь этап "послефильтрирования" для signature file > обязателен.
Не, я их не нормализую :) Храню как есть. Честно :) Там большое число слов, которые, фактически являются числами. Наверное с ними надо что-то делать, но "моя это что-то пока явно осилить не может" :) Коваленко Дмитрий.

