- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: White Russian Bear Subject: Как приходится выкручитваться
Индексировать проще версию-для-печати. Я пока буду рассматривать ipb версии 1, у которой нет мультивложенности. Ко второй перейду позже. Для этого списки форумов (их можно определить по вхождению в URL слова showforum), надо не индексировать, а заставт иендексера делать HrefOnly. Ну на фиг они нужны-то в базе? Далее, на них найдутся сцылки на темы. Они выглядят как http://berdsk.net.ru/ipb/index.php?showtopic=19200 По ним мы обнаружим перегруженные мусорным контентом (таблицами долбанными, имиджами и прочей бякой) сами обсуждения. Нам тоже не надо их индексировать, однако, стоит ли натравливать на них HrefOnly? Моя не думай. Кажись, шустрее будет уже на этом этапе превратить найденные на странцах showforum урлы в урлы, предназначенные для печати. Стало быть, нам требуется в indexer.conf превратить это: http://berdsk.net.ru/ipb/index.php?showtopic=19200 в вот это: http://berdsk.net.ru/ipb/index.php?act=Print&client=printer&t=19200 то есть _тупо_ заменить "showtopic" на "act=Print&client=printer&t" Но я, братцы, ни фига не силён в регекспах, посему мой МногоСёрч покамест просто настроен на то, чтобы всё, содержащее showtopic, интерпретировать как HrefOnly, а когда пачетайу доку и вспомню регекспы, тогда логику и поменяю. Если так сделать в РеверсАлиасе, то однозначно придётся делать обратное преоразование на этапе поиска, то бишь в случае Многосёрча - в Search.HTM, подменять строку "act=Print&client=printer&t" обратно на "showtopic", а то противно людям будет открывать сцылки и лицезреть скучные листинги, с которых непонятно как перейти на цветастенькую-скинастенькую страничечку со всякими клёвыми смайликами-юзерпиками, которые они так любят. В остальном, специально для IPB мной было насобачено некоторое количество Disallow, для чего даже выделен специальный файл, обозватый Disallows.conf Вот и его содержимое: ###################################### # Disallows.conf ###################################### #Recommended @ MnogoSearch forum against sessions ids: ReverseAlias regex ^(.*)[&\?][a-zA-Z;]+=[a-zA-Z0-9]{32}$ $1 ReverseAlias regex ^(.*)([&\?])[a-zA-Z;]+=[a-zA-Z0-9]{32}&(.*) $1$2$3 ReverseAlias regex ^(.*)[&\?][a-zA-Z;]+=[a-zA-Z0-9]{16}$ $1 ReverseAlias regex ^(.*)([&\?])[a-zA-Z;]+=[a-zA-Z0-9]{16}&(.*) $1$2$3 #Another way to drop out session id's ReverseAlias NoCase regex (http://[^?]*)[&]sid=.*$ $1 ReverseAlias NoCase regex (http://[^?]*)[?]sid=.*$ $1 ReverseAlias NoCase regex (http://[^?]*)[&]sess=.*$ $1 ReverseAlias NoCase regex (http://[^?]*)[?]sess=.*$ $1 ReverseAlias NoCase regex (http://[^?]*)[&]jsessionid=.*$ $1 ReverseAlias NoCase regex (http://[^?]*)[?]jsessionid=.*$ $1 ReverseAlias NoCase regex (http://[^?]*)%3Bjsessionid=.*$ $1 ReverseAlias regex (http://[^?]*)[?]auth_sess=.*$ $1 ReverseAlias regex (http://[^?]*)[&]auth_sess=.*$ $1 ReverseAlias regex (http://[^\;]*)(\;jsessionid=[^\?]*)(\?.*) $1$3 ReverseAlias regex (http://.*[\?&])(PHPSESSID=[^&]*)(.*$) $1$3 ###################################### #IPB - >|<А6А !! Disallow */ipb/txt/ Disallow *mode=threaded* Disallow *getlastpost* Disallow *act=calendar* Disallow *act=Post* Disallow *act=Forward* Disallow *view=* Disallow *thumbnail* Disallow *sid=* Disallow *?s=* Disallow *&s=* Disallow *session_id* Disallow *sessionid* Disallow *session=* Disallow *PHPSESSID=* Disallow *uid=* Disallow *php_sid=* Disallow *nid=* Disallow *sort=* *filmrnd.php* *trans=* *actor=* *producer=* Disallow */deptNavigateAction* Disallow *nsu*/mirrors* Disallow *sasn=???* *ortOrder=* *rderby=* *rder_by=* *rder=* *sortby=* *sort_by=* Disallow */ad/* *&cb=???* *userpic* *showuser=?* Disallow *video*&style=* *video*&leter=?* Disallow *&end_mark=* *referrer* #Administrative interfaces Disallow */adm/* */admin* *login.* *=*auth* Disallow */assets/* */classes/* */js/* */menus/* #no more dumb autoencoding loops: Disallow *http://*http:/* *http://*www*/www*/* Disallow */koi/koi* */koi/iso/* */koi/dos/* */koi/win/* Disallow */koi8/koi* */koi8/iso/* */koi8/dos/* */koi8/win/* Disallow */iso/*/iso/* */iso/koi8/* */iso/iso/* */iso/dos/* */iso/win/* #fucking UBB!! Disallow *out.cgi* *privatesend.* *action* *ubbmisc.* *findthread* */search.* *simplesearch* Disallow *Ultimate.*email* *recent_user* *=*profile* *=*transfer* Disallow *ultimatebb.*get_ip* *=reply* *send_topic* *next_topic* *edit_post* Disallow *close_topic* *ultimatebb.*email* *delete_topic* *=agree* #Phorum mazdai Disallow *phorum/*&v=t Disallow *phorum/*search.php/* Disallow *phorum/*&i=* Disallow *phorum/*&r=1* #Disallow some homenet-specific address zones Disallow *192.168.20.*/* Disallow *192.168.6*/* Disallow *192.168.0.*/* ###################################### Сами видите, у меня дублируются вырезалки ИД-шников сессий, но вроде как индексируется всё без бесконечных циклоидов.. Пойду, подумаю над своим жалким существованием в плане предстоящего индексирования IPB2 и поиска в /usr/doc чего-нить по регекспам. - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;topic_id=1164181043
