Re: Текстовая индексация

Roman Rokytskyy Wed, 23 May 2007 05:36:46 -0700

Интересно как этот intersect будет работать с множествами c сотнями
тысяч записей. Формально, конечно, побыстрее чем join записей.

Если твоя система умная, то она такие лексемы сначала проигнорирует, апотом подумает, что быстрее - каждый документ просмотреть или жевсе-таки пересечение с очень большим списком делать (или вообще нафиг еевыбросить).

Но мне хочется отказаться от пересечений в принципе.

Тогда смотри в сторону GiST - это так называемые "signaturefiles"-алгоритмы. Для каждого документа считается битовая маскаопределенной длины. Такая же маска считается для запроса. Дальше -бинарные операции с последующим просмотром каждого документа дляфильтрации false positived.

В общем случае быстродействие этих алгоритмов хуже чем для invertedfiles (твой вариант), но читай также инфо от PgSQL - они утверждают, чтоGiST лучше для часто-обновляемых баз.


Роман

Re: Текстовая индексация

Ответить