Só uma observação: Scrapy, além de processar a árvore HTML, também gerencia a fila de downloads, extração de links, validação de robots.txt... Enfim, é um framework completo. No CPAN tem https://metacpan.org/module/Scrappy; mas, pelos meus testes, é lento demais (para as minhas necessidades). Aliás, reza a lenda que ele usa Parallel::ForkManager, o que, infelizmente, não é verdade (é uma dependência morta :(
ABS() On Tue, Apr 24, 2012 at 12:12, Daniel de Oliveira Mantovani < [email protected]> wrote: > Bom dia, > > Achei um framework para Web Crawling muito interessante escrito em Python, > http://doc.scrapy.org/en/latest/intro/tutorial.html > > Sim, 'e claro que exsite uma solucao muito bem implementada em Perl, > estavel e testada: > https://metacpan.org/module/Web::Scraper > O meu ponto 'e simples, eu estava lendo a minha cota de artigos > aleatorios do dia quando encontrei-o em um blog desconhecido: > http://isbullsh.it/2012/04/Web-crawling-with-scrapy/ > > Eu sei que existem centenas de milhares de artigos sobre coisas em Perl, > https://www.google.com.br/search?sourceid=chrome&ie=UTF-8&q=perl+blogs > > E um artigo muito melhor sobre Web::Scraper, > http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/ > > Conclusao, se existe algo bom implementado em outra linguagem procure no > CPAN. > > > -- > "If you’ve never written anything thoughtful, then you’ve never had > any difficult, important, or interesting thoughts. That’s the secret: > people who don’t write, are people who don’t think." > =begin disclaimer > Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ > SaoPaulo-pm mailing list: [email protected] > L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> > =end disclaimer >
=begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer
