Re: Анонс: легковесная система полнотекстового поиска

Alexey Pechnikov Sun, 07 Feb 2010 06:03:38 -0800

Hello!

On Sunday 07 February 2010 15:14:23 Feata`lion Nyere`` wrote:
> Господин Печников, не могли бы Вы уточнить, возможна ли опция индексирования
> удалённых файлов по http или простой способ добавления её?


Индексирование списка html-страниц проблемы не представляет. Что касается 
прочих 
форматов, то их чрезвычайно сложно определить "на лету", не сохраняя файл на 
диск,
а  веб-сервера вроде апача абсолютно криво передают mime-тип. Кроме того, для 
индексирования удаленных ресурсов невозможно получить заранее список файлов, их
необходимо обнаруживать непосредственно в ходе обработки. Далее, обработка 
удаленных архивов также невозможна, поскольку мы не имеем способа получить для
индексации нужный нам файл из архива (при поддержке веб-сервером byte ranges
можно кое-что сделать, но имхо довольно криво).

Так что полагаю оптимальным делать зеркало средствами wget, к примеру, и после
индексировать локальные файлы. С ftp проще - см. curlftpfs.

Примечание: одна из основных причин, почему я взялся за разработку своего 
индексатора,  это желание избежать использования временных файлов при
индексировании. В результате мы тратим больше процессорного времени, но можем 
индексировать гиговый архив на ноутбуке с гигом памяти в фоне, не мешая работе 
остальных приложений и не нагружая жесткий диск. Так что смело создавайте 
зеркало 
http-ресурса и его индексируйте - это потребует больше места на диске, но вы 
легко 
сможете выполнять эту операцию на обычных сата-дисках даже для больших сайтов.
В то же время следует учесть, что вызов внешнего скрипта для извлечения каждого 
отдельного файла из архива требует больше времени, нежели распаковка архива на
диск или в ОЗУ и дальнейшая обработка всех файлов. Впрочем, никто вам не мешает
проигнорировать все архивы, а потом распаковать по очереди внешним скриптом и 
проиндексировать точки распаковки.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Re: Анонс: легковесная система полнотекстового поиска

Ответить