- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: sas Subject: проблемы при конфигурации indexer
хотим регулярно индексировать сайт написаный на php, в url есть знаки ?..=...&..=... indexer запускаем по cron с опцией -W: indexer -W вот наш файл indexer: #--------------------- DBAddr mysql://.........................../?dbmode=cache LocalCharset windows-1251 Server http://www.domen.com/ Period 1d URLSelectCacheSize 100 ParserTimeOut 300 MaxDocsPerServer 100 Allow * Disallow *.gif *.jpg *.jpeg *.bmp *.tiff *.tif *.xpm *.xbm *.pcx Disallow *.vdo *.mpeg *.mpe *.mpg *.avi *.movie *.mov *.dat Disallow *.exe *.com *.cab *.dll *.bin *.class *.ex_ DefaultLang ru VaryLang "ru en" RemoteCharset windows-1251 Include stopwords.conf Include langmap.conf Include sections.conf #--------------------- вопрос следующий, 1. как можно написать секцию Allow/Disallow, чтобы указать что индексировать, а все остальное запретить, пробовали так Allow *.html *.htm *.shtml *.txt *.php Disallow * но в результате индексировались только файлы у которых не было запросов ?...=...&..=... а у нас таких файлов большинство ((( 2. как ограничить кол-во документов, которые индексируются за раз, т.к. мы запускаем cron раз в 2 часа (нельзя создавать большую нагрузку на сервер) и хотим чтобы последовательно порциями например по 100 документов индексировалось, при этом чтобы не взирая на заголовки измененности документов все документы переиндексировалось за неделю( всего около 5000 док. на сервере) опция URLSelectCacheSize 100 почему то не помогает, при запуске вручную или по cron все равно путаются проиндексироваться все документы до упора, при этом indexer вылетает также есть подозрение, что Period 1d тоже не всегда отрабатывает по крону как в нашем случае правильно настроить индексер? - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
