- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: ooptimum Subject: Проблема с ReverseAlias regex
Я тестирую данный движок уже в течение 2 месяцев. На одном из индексируемых сайтов установлена система сбора статистики с серверов Counter Strike -- PsychoStats v2.2, генерирующая множество динамических страниц с данными в разных разрезах. Для подавления дублирующихся страниц в indexer.conf была добавлена команда (оттестирована в RegexBuddy на списке URL данного сайта): ReverseAlias regex ^(.*cs.*/(clan|player|weapon)\.php\?id=\d+).* $1 приводящая все URL вида: http://domain.tld/clan.php?id=1036&msort=deaths&morder=asc http://domain.tld/clan.php?id=1036&msort=deaths&morder=desc http://domain.tld/clan.php?id=1036&msort=kills&morder=asc к виду: http://domain.tld/clan.php?id=1036 т.к. только параметр id является обязательным, все остальные служат лишь целям сортировки по различным критериям. Однако ссылки, имеющие единственный параметр id, данной системой не продуцируются, т.е. все подобные ссылки создаются самим поисковым движком. Проблема в том, что в базу попадают как синтетические ссылки, сгенерированные движком, так и все остальные, которые должны были бы быть отфильтрованы, как предполагалось с самого начала. Например, вот произвольная выдержка из вывода команды `indexer -Iu http://domain.tld/% -s 200|cut -d' ' -f2|sort`: http://domain.tld/player.php?id=9971 http://domain.tld/player.php?id=9971&msort=kills&morder=asc http://domain.tld/player.php?id=9971&vsort=deaths&vorder=asc http://domain.tld/player.php?id=9971&vsort=deaths&vorder=desc http://domain.tld/player.php?id=9971&vsort=kills&vorder=asc http://domain.tld/player.php?id=9971&vsort=killsperdeath&vorder=asc http://domain.tld/player.php?id=9971&vsort=killsperdeath&vorder=desc http://domain.tld/player.php?id=9971&vsort=name&vorder=asc http://domain.tld/player.php?id=9971&vsort=name&vorder=desc http://domain.tld/player.php?id=9971&vsort=skill&vorder=asc http://domain.tld/player.php?id=9971&vsort=skill&vorder=desc http://domain.tld/player.php?id=9971&weaponid=1&wsort=accuracy&worder=asc http://domain.tld/player.php?id=9971&weaponid=1&wsort=accuracy&worder=desc http://domain.tld/player.php?id=9971&weaponid=1&wsort=deaths&worder=desc http://domain.tld/player.php?id=9971&weaponid=1&wsort=kills&worder=asc http://domain.tld/player.php?id=9971&weaponid=1&wsort=name&worder=desc http://domain.tld/player.php?id=9971&weaponid=1&wsort=shotsperkill&worder=asc http://domain.tld/player.php?id=9971&weaponid=1&wsort=shotsperkill&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=accuracy&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=damage&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=deaths&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=headshotpct&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=headshots&worder=asc http://domain.tld/player.php?id=9971&weaponid=13&wsort=kills&worder=asc http://domain.tld/player.php?id=9971&weaponid=13&wsort=kills&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=name&worder=desc http://domain.tld/player.php?id=9971&weaponid=13&wsort=shotsperkill&worder=asc http://domain.tld/player.php?id=9971&weaponid=13&wsort=shotsperkill&worder=desc http://domain.tld/player.php?id=9971&weaponid=2&wsort=accuracy&worder=desc http://domain.tld/player.php?id=9971&weaponid=2&wsort=damage&worder=desc Видно наличие как синтетической ссылки (первая строка), так и всех остальных, которые я намеревался отфильтровать. Что я делаю не так? Меня не вполне устраивает ситуация, когда при довольно ограниченном количестве страниц для индексирования я имею подобную статистику: indexer -Su http://domain.tld/% Database statistics Status Expired Total ----------------------------- 0 281449 281723 Not indexed yet 200 0 494542 OK 415 0 26607 Unsupported Media Type 2200 0 194821 Clones, OK ----------------------------- Total 281449 997693 - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://dataparksearch.org/cgi-bin/simpleforum.cgi?fid=06;post=
