> >> Просто привяжи к каждому слову список (обычный линейный массив целых > >> чисел) > >> с номерами строк, где это слово встречается > > > Да он у меня и так есть. > > ну дык и зачем тогда этот весь огород, мало того что это ничего не давт в > плане выйгрыша времени на поиске этих самых комбинаций так ты еще и поимеешь > тормоза на поиске в значительно возросшем объеме, плюс гемор по работе с > гигантским файлом >
Я сейчас пообщался с парнем из Yandex'a. Комбинации они не юзают. Типа для каждого слова формируется "кишка" идентфиикаторов документов, и потом эти "кишки" за линейное время пересекаются. Это типа, как он сказал, весьма грубое описание. Я вот теперь сижу, как баран, и думаю. А джоины у нашего сервера (2.0.1) - они как работают? Если точно также - берутся отсортированные потоки данных и, через слияние, определятся общее подмножество, то какого тогда у меня такие же тормоза? А если нет и каждый элемент из первого потока ищется в остальных - тады ой. Вообщем, завтра у меня выходной. Буду думать о светлом и прохладном. Коваленко Дмитрий. PS. Тупа главы моей вершина. PSS. Дерево я переписал. И хотя стало работать заметно быстрее - уже не радует. Это Вы мне все настроение испортили. Злые вы.

