On Fri, Apr 06, 2007 at 01:52:34PM +0400, Шенцев Алексей Владимирович wrote:

ШАВ> Они всё равно меняют своё название, расположение. Одна и та же инфа кочует 
с 
ШАВ> места на место. А то бывает куча названий и оформлениий, а содержимое одно 
и 
ШАВ> то же. Из-за этого с ними надоедает бороться ...

Кстати эта база элементарно наполяется. Я как-то пытался заняться тем
чтобы удавливать их в массовом количестве, потом оказалось не до того,
забил. Но результаты получились неплохие.

Дело в том, что большинство этих самых сайтов имеют на себя ссылки с
сайтов-каталогов. Причем эти каталоги тоже друг с другом линкуются. Можно
просто обходить роботом и периодически добавлять новые ресурсы автоматом.

Для этого достаточно полчасика гуглинга чтобы найти несколько таких
крупных каталогов, а дальше уже по цепочкам.

Опять же, если борьба идет с конкретным любителем, можно посмотреть как он
ищет (в каких системах, по каким запросам), и ботом симитировать его
поведение, чтобы перекрыть ему его источники информации.

Вообще ботом все это делается легко, потому как на всех этих сайтах очень
ограниченная лексика, и многие ключевые слова нигде кроме подобных сайтов
не встречаются, или встречаются редко.

Так что справится со всем можно, но вот стоит ли эта война такой затраты
ресурсов?

-- 
С уважением, Денис

http://freesource.info
----------------------------------------------------------------------------
Тем, кто не хочет думать, нужно нажать "Далее"
                -- zerg in #9896

Attachment: signature.asc
Description: Digital signature

_______________________________________________
Sysadmins mailing list
[email protected]
https://lists.altlinux.org/mailman/listinfo/sysadmins

Ответить