- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: sas
Subject: проблемы при конфигурации indexer

хотим регулярно индексировать сайт написаный на php, в url есть знаки 
?..=...&..=...
indexer запускаем по cron с опцией -W: 
indexer -W
вот наш файл indexer:
#---------------------
DBAddr          mysql://.........................../?dbmode=cache

LocalCharset windows-1251 
 
Server  http://www.domen.com/

Period 1d
URLSelectCacheSize 100

ParserTimeOut 300

MaxDocsPerServer 100

Allow *

Disallow *.gif  *.jpg  *.jpeg *.bmp  *.tiff *.tif   *.xpm  *.xbm *.pcx
Disallow *.vdo  *.mpeg *.mpe  *.mpg  *.avi  *.movie *.mov  *.dat
Disallow *.exe  *.com  *.cab  *.dll  *.bin  *.class *.ex_

DefaultLang ru
VaryLang "ru en"
RemoteCharset windows-1251 

Include stopwords.conf
Include langmap.conf
Include sections.conf
#---------------------

вопрос следующий, 
1. как можно написать секцию 
Allow/Disallow, чтобы указать что индексировать, а все остальное запретить, 
пробовали так
Allow *.html *.htm *.shtml *.txt *.php
Disallow *
но в результате индексировались только файлы у которых не было запросов 
?...=...&..=...
а у нас таких файлов большинство (((
2. как ограничить кол-во документов, которые индексируются за раз, т.к. мы 
запускаем cron раз в 2 часа (нельзя создавать большую нагрузку на сервер) и 
хотим чтобы последовательно порциями например по 100 документов 
индексировалось, при этом чтобы не взирая на заголовки измененности документов 
все документы переиндексировалось за неделю( всего около 5000 док. на сервере)
опция 
URLSelectCacheSize 100 
почему то не помогает, при запуске вручную или по cron все равно путаются 
проиндексироваться все документы до упора, при этом indexer вылетает
также есть подозрение, что 
Period 1d
тоже не всегда отрабатывает по крону

как в нашем случае правильно настроить индексер?

- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=

Reply via email to