Re: Продолжение [вопрос с библиотекой решен]

Alexey Pechnikov Tue, 09 Feb 2010 11:21:22 -0800

Hello!

On Tuesday 09 February 2010 21:09:59 Иван Лох wrote:
> > Да вот не хотелось бы в базу _встраивать_ xslt-процессор, который в таком 
> 
> А чего та встраивать-то? Это маленькая библиотека.


Тоже верно - на фоне libICU, необходимой для поддержки юникода..

> Ну если парсер быстрый и один и тот-же то фрагмент один и тот-же будет 
> получаться.
> Только страницу надо запоминать, чтобы все не преобразовывать.

Вот как пример поиска:

sqlite> select counter(1), snippet(file_text) from file_text where file_text 
match 'london';
1|<b>...</b>, Chem. and Ind., <b>London</b>, 16, 647—651,<b>...</b>
...
7|<b>...</b>The ancient Empires of the East, <b>London</b>, 1883. 4 Мищенко 
Ф.<b>...</b>
8|<b>...</b>Encyclopedia of Photography, Desk Edition, <b>London</b>: Focal 
Press, 1969, p<b>...</b>

Ниже информация о смещениях в тексте:

sqlite> select counter(1), offsets(file_text) from file_text where file_text 
match 'london';
1|0 0 203302 6 0 0 209935 6 0 0 210216 6
...
7|0 0 14552 6 0 0 400383 6
8|0 0 65668 6 0 0 1010763 6 0 0 1067169 6

Когда каждый документ будет fb2-файлом, упакованным в zip-архив, то нужно 
достать файл из архива, 
преобразовать в текст и получить найденный фрагмент - то есть придется немало 
операций выполнить.
Так что идея открывать _много_ файлов для построения выделенных фрагментов мне 
очень не нравится.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Re: Продолжение [вопрос с библиотекой решен]

Ответить