Привет!

sasha wrote:
> 
> > Свой код я открывать пока не планирую.
> 
> Это комерческая тайна? :-)
> 
> тоже летал? Потому как я бы и сам переделал его либу, но я в FB API
> вобще и в isc_blob_seek в частности ни бум бум,

Хм... Что есть isc_blob_seek?

Вот месяц назад реализовал я поисковую систему. Первоначальной инфы не
было практически никакой, посему пришлось изобретать велосипед(?). Но,
судя по обрывкам фраз, получилось что-то похожее на то, о чем речь идет.
А именно: хранение индексов в блобах, прямой и инверсный индексы, вся
обработка в UDF. Сейчас в базе около 4 млн документов, которые
необходимо проиндексировать. Документ представляет собой строку 20..120
символов или 3..20 слов (прайс-листы). Поиск практически мгновенный, на
данный момент используется только обрабатывается оператор И (ИЛИ и НЕ
добавляются легко). Также достаточно легко прикрутить поиск по началу
слова или по маске. Единственное, что меня свербит, то бишь не очень
нравится - относительно долгая индексация. На чистой базе, когда начал
заливать документы, примерно 100 док/сек, сейчас на 4 млн - около 4..10
док/сек.

Это не то, что интересует?

Взглянуть можно здесь: http://www.radioweb.ru/


--
Best regards
Sergey Tonkikh, шлите письма на zigzag <злой собак> radioweb.ru

Ответить