Re: Обобщенная карта са йта

jetxee Tue, 10 Jul 2007 09:18:14 -0700

Tue, 10 Jul 2007 19:58:33 +0400, "Artem Chuprina" <[EMAIL PROTECTED]>:


> > Существует ли инструмент для получения ВСЕХ ссылок на сайте с их
> > классификацией по страницам, директориям и типам (внутренние, внешние, http,
> > ftp, rss, ...)?
> 
> Ключевое слово - spider, а остальное делается каким-нибудь перлом
> (классификация, которая интересует тебя, скорее всего, отличается от
> той, которая интересует других).

Ещё два ключевые слова: crawler и robot :)

http://en.wikipedia.org/wiki/Spidering#Open-source_crawlers



По-быстрому можно попробовать собрать ссылки, например, так:

$ wget -m --no-verbose -np -o log -D news.yandex.ru http://news.yandex.ru/
$ cat log | grep URL: | sed 's/.*URL://' | awk '{print $1;}'
http://news.yandex.ru/
http://news.yandex.ru/robots.txt
http://news.yandex.ru/favicon.ico
http://news.yandex.ru/opensearch.xml
http://news.yandex.ru/index.rss
http://news.yandex.ru/setup/
http://news.yandex.ru/faq.html
....

Не проверял, собёрутся ли так все ссылки, но все внутренние данного
сайта/раздела сайта, наверное, точно соберутся.

Re: Обобщенная карта са йта

Ответить