Тогда вообще непонятно. Нормальное соотношение размера индекса Люцены к
размеру исходного текста где-то около 30%... У тебя исходный текст был
размером 20 Мб? Откуда тогда 2 млн. файликов?
См. первый пост что именно я индексировал: это КЛАД, таблица KLADR, PK поле code, contents поле name.
Я не знаю, что такое КЛАДР (то-есть, знаю, что это классификатор адресов
России, но я не видел данных, которые там записаны). Прав ли я,
допустив, что этот name это что-то типа VARCHAR(100)? Если да, тогда,
что ты тогда хочешь от полнотекстового поиска? Сорри, но мне кажется,
что для этой задачи как раз FTS нафиг не нужен, по крайней мере тот,
который предлагает Люцена. Я бы на твоем места для опыта взял архив этой
конференции (Thunderbird, например, хранит их локально в удобочитаемом
виде).
Роман
- Re: Compare perfomance filse systems and blob Roman Rokytskyy
-