Спасибо за ответ, я какраз думал о том, чтобы при невозможности расширения до http делать зеркало интересующих ресурсов.
2010/2/7 Alexey Pechnikov <[email protected]> > Hello! > > On Sunday 07 February 2010 15:14:23 Feata`lion Nyere`` wrote: > > Господин Печников, не могли бы Вы уточнить, возможна ли опция > индексирования > > удалённых файлов по http или простой способ добавления её? > > Индексирование списка html-страниц проблемы не представляет. Что касается > прочих > форматов, то их чрезвычайно сложно определить "на лету", не сохраняя файл > на диск, > а веб-сервера вроде апача абсолютно криво передают mime-тип. Кроме того, > для > индексирования удаленных ресурсов невозможно получить заранее список > файлов, их > необходимо обнаруживать непосредственно в ходе обработки. Далее, обработка > удаленных архивов также невозможна, поскольку мы не имеем способа получить > для > индексации нужный нам файл из архива (при поддержке веб-сервером byte > ranges > можно кое-что сделать, но имхо довольно криво). > > Так что полагаю оптимальным делать зеркало средствами wget, к примеру, и > после > индексировать локальные файлы. С ftp проще - см. curlftpfs. > > Примечание: одна из основных причин, почему я взялся за разработку своего > индексатора, это желание избежать использования временных файлов при > индексировании. В результате мы тратим больше процессорного времени, но > можем > индексировать гиговый архив на ноутбуке с гигом памяти в фоне, не мешая > работе > остальных приложений и не нагружая жесткий диск. Так что смело создавайте > зеркало > http-ресурса и его индексируйте - это потребует больше места на диске, но > вы легко > сможете выполнять эту операцию на обычных сата-дисках даже для больших > сайтов. > В то же время следует учесть, что вызов внешнего скрипта для извлечения > каждого > отдельного файла из архива требует больше времени, нежели распаковка архива > на > диск или в ОЗУ и дальнейшая обработка всех файлов. Впрочем, никто вам не > мешает > проигнорировать все архивы, а потом распаковать по очереди внешним скриптом > и > проиндексировать точки распаковки. > > Best regards, Alexey Pechnikov. > http://pechnikov.tel/ > -- Rgds, ----Feata`lion

