Re: Принцип организации индекса

Kovalenko Dmitry Wed, 06 Jun 2007 09:22:39 -0700

> >> Просто привяжи к каждому слову список (обычный линейный массив целых
> >> чисел)
> >> с номерами строк, где это слово встречается
>
> > Да он у меня и так есть.
>
> ну дык и зачем тогда этот весь огород, мало того что это ничего не давт в
> плане выйгрыша времени на поиске этих самых комбинаций так ты еще и поимеешь
> тормоза на поиске в значительно возросшем объеме, плюс гемор по работе с
> гигантским файлом
>


Я сейчас пообщался с парнем из Yandex'a. Комбинации они не юзают. Типа
для каждого слова формируется "кишка" идентфиикаторов документов, и
потом эти "кишки" за линейное время пересекаются. Это типа, как он
сказал, весьма грубое описание.

Я вот теперь сижу, как баран, и думаю. А джоины у нашего сервера
(2.0.1) - они как работают? Если точно также - берутся отсортированные
потоки данных и, через слияние, определятся общее подмножество, то
какого тогда у меня такие же тормоза?

А если нет и каждый элемент из первого потока ищется в остальных -
тады ой.

Вообщем, завтра у меня выходной. Буду думать о светлом и прохладном.

Коваленко Дмитрий.

PS. Тупа главы моей вершина.
PSS. Дерево я переписал. И хотя стало работать заметно быстрее - уже
не радует. Это Вы мне все настроение испортили. Злые вы.

Re: Принцип организации индекса

Ответить