Hallo,
auf meiner Suche durch die Debian-Archive nach einem Web-Crawler bin ich
leider nicht fündig geworden. Eine Suche auf Sourceforge hat folgendes
ergeben:
http://sourceforge.net/projects/webharvest/ (stable)
http://sourceforge.net/projects/grub/ (alpha)
http://sourceforge.net/projects/jcrawler/ (alpha)
http://sourceforge.net/projects/spindexer/ (alpha)
Hat jemand schon eines dieser Programme im Einsatz und vielleicht ein
Debian-Paket dazu? (Etwas ausführlichere Info im angehefteten HTML-Text.)
Ich bin ansich mit htdig ganz zufrieden, aber bei uns soll unbedingt ein
Crawler eingesetzt werden und htdig ist leider ein indexer.
Viele Grüße
Andreas.
--
We have joy, we have fun,
we have Linux on our Sun.
| Group Name |
Description |
Status |
| Harvest Web Indexing | Harvest is a web indexing package, originally disigned for distributed indexing,
it can form a powerful system for indexing both large and small web sites.
Also now includes Harvest-NG a highly efficient, modular, perl-based web
crawler. | stable |
| grub.org - Distributed Internet Crawler | Grub is a distributed internet crawler/indexer designed to run on multi-platform systems, interfacing with a central server/database. | alpha |
| Java Web Crawler | A web crawler written in Java. | alpha |
| spindexer | Spindexer is a Search Engine/Crawler tool similar to UDMsearch or ht://dig -
but unlike these tools, Spindexer is *very* fast and flexible. A simple Perl script works as a front-end to Pavuk and Swish++, allowing a fast crawl across any site(s). | alpha |