Tue, 10 Jul 2007 19:58:33 +0400, "Artem Chuprina" <[EMAIL PROTECTED]>:
> > Существует ли инструмент для получения ВСЕХ ссылок на сайте с их > > классификацией по страницам, директориям и типам (внутренние, внешние, http, > > ftp, rss, ...)? > > Ключевое слово - spider, а остальное делается каким-нибудь перлом > (классификация, которая интересует тебя, скорее всего, отличается от > той, которая интересует других). Ещё два ключевые слова: crawler и robot :) http://en.wikipedia.org/wiki/Spidering#Open-source_crawlers По-быстрому можно попробовать собрать ссылки, например, так: $ wget -m --no-verbose -np -o log -D news.yandex.ru http://news.yandex.ru/ $ cat log | grep URL: | sed 's/.*URL://' | awk '{print $1;}' http://news.yandex.ru/ http://news.yandex.ru/robots.txt http://news.yandex.ru/favicon.ico http://news.yandex.ru/opensearch.xml http://news.yandex.ru/index.rss http://news.yandex.ru/setup/ http://news.yandex.ru/faq.html .... Не проверял, собёрутся ли так все ссылки, но все внутренние данного сайта/раздела сайта, наверное, точно соберутся.