Re: [SP-pm] Scrapy - Python Web Crawler

Stanislaw Pusep Tue, 24 Apr 2012 08:29:09 -0700

Só uma observação: Scrapy, além de processar a árvore HTML, também gerencia
a fila de downloads, extração de links, validação de robots.txt... Enfim, é
um framework completo.
No CPAN tem https://metacpan.org/module/Scrappy; mas, pelos meus testes, é
lento demais (para as minhas necessidades). Aliás, reza a lenda que ele
usa Parallel::ForkManager, o que, infelizmente, não é verdade (é uma
dependência morta :(


ABS()



On Tue, Apr 24, 2012 at 12:12, Daniel de Oliveira Mantovani <
[email protected]> wrote:

> Bom dia,
>
> Achei um framework para Web Crawling muito interessante escrito em Python,
> http://doc.scrapy.org/en/latest/intro/tutorial.html
>
> Sim, 'e claro que exsite uma solucao muito bem implementada em Perl,
> estavel e testada:
> https://metacpan.org/module/Web::Scraper
> O meu ponto 'e simples, eu estava lendo a minha cota de artigos
> aleatorios do dia quando encontrei-o em um blog desconhecido:
> http://isbullsh.it/2012/04/Web-crawling-with-scrapy/
>
> Eu sei que existem centenas de milhares de artigos sobre coisas em Perl,
> https://www.google.com.br/search?sourceid=chrome&ie=UTF-8&q=perl+blogs
>
> E um artigo muito melhor sobre Web::Scraper,
> http://teusje.wordpress.com/2010/05/02/web-scraping-with-perl/
>
> Conclusao, se existe algo bom implementado em outra linguagem procure no
> CPAN.
>
>
> --
> "If you’ve never written anything thoughtful, then you’ve never had
> any difficult, important, or interesting thoughts. That’s the secret:
> people who don’t write, are people who don’t think."
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: [email protected]
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>

=begin disclaimer
   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
 SaoPaulo-pm mailing list: [email protected]
 L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer

Re: [SP-pm] Scrapy - Python Web Crawler

Responder a