- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: ooptimum
Subject: Проблема с ReverseAlias regex

Я тестирую данный движок уже в течение 2 месяцев. На одном из индексируемых 
сайтов установлена система сбора статистики с серверов Counter Strike -- 
PsychoStats v2.2, генерирующая множество динамических страниц с данными в 
разных разрезах. Для подавления дублирующихся страниц в indexer.conf была 
добавлена команда (оттестирована в RegexBuddy на списке URL данного сайта):
ReverseAlias regex ^(.*cs.*/(clan|player|weapon)\.php\?id=\d+).* $1
приводящая все URL вида:
http://domain.tld/clan.php?id=1036&msort=deaths&morder=asc
http://domain.tld/clan.php?id=1036&msort=deaths&morder=desc
http://domain.tld/clan.php?id=1036&msort=kills&morder=asc
к виду:
http://domain.tld/clan.php?id=1036
т.к. только параметр id является обязательным, все остальные служат лишь целям 
сортировки по различным критериям. Однако ссылки, имеющие единственный параметр 
id, данной системой не продуцируются, т.е. все подобные ссылки создаются самим 
поисковым движком.

Проблема в том, что в базу попадают как синтетические ссылки, сгенерированные 
движком, так и все остальные, которые должны были бы быть отфильтрованы, как 
предполагалось с самого начала. Например, вот произвольная выдержка из вывода 
команды `indexer -Iu http://domain.tld/% -s 200|cut -d' ' -f2|sort`:
http://domain.tld/player.php?id=9971
http://domain.tld/player.php?id=9971&msort=kills&morder=asc
http://domain.tld/player.php?id=9971&vsort=deaths&vorder=asc
http://domain.tld/player.php?id=9971&vsort=deaths&vorder=desc
http://domain.tld/player.php?id=9971&vsort=kills&vorder=asc
http://domain.tld/player.php?id=9971&vsort=killsperdeath&vorder=asc
http://domain.tld/player.php?id=9971&vsort=killsperdeath&vorder=desc
http://domain.tld/player.php?id=9971&vsort=name&vorder=asc
http://domain.tld/player.php?id=9971&vsort=name&vorder=desc
http://domain.tld/player.php?id=9971&vsort=skill&vorder=asc
http://domain.tld/player.php?id=9971&vsort=skill&vorder=desc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=accuracy&worder=asc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=accuracy&worder=desc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=deaths&worder=desc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=kills&worder=asc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=name&worder=desc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=shotsperkill&worder=asc
http://domain.tld/player.php?id=9971&weaponid=1&wsort=shotsperkill&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=accuracy&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=damage&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=deaths&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=headshotpct&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=headshots&worder=asc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=kills&worder=asc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=kills&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=name&worder=desc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=shotsperkill&worder=asc
http://domain.tld/player.php?id=9971&weaponid=13&wsort=shotsperkill&worder=desc
http://domain.tld/player.php?id=9971&weaponid=2&wsort=accuracy&worder=desc
http://domain.tld/player.php?id=9971&weaponid=2&wsort=damage&worder=desc

Видно наличие как синтетической ссылки (первая строка), так и всех остальных, 
которые я намеревался отфильтровать. Что я делаю не так? Меня не вполне 
устраивает ситуация, когда при довольно ограниченном количестве страниц для 
индексирования я имею подобную статистику:
indexer -Su http://domain.tld/%

          Database statistics

Status    Expired      Total
   -----------------------------
     0     281449     281723 Not indexed yet
   200          0     494542 OK
   415          0      26607 Unsupported Media Type
  2200          0     194821 Clones, OK
   -----------------------------
 Total     281449     997693


- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;post=

Reply via email to