[RailsFr] Re: Parser des pages avec Ruby

philippe lachaise Thu, 27 Nov 2008 23:41:30 -0800

Il y a quelques mois j'ai essayé un peu toutes les solutions de
screen-scraping.


Aucune ne m'a donné entièrement satisfaction et je m'en suis sorti par un
mélage d'automatisation et de manuel assez empirique :

Qq problèmes rencontrés :
- Le HTML dans la nature est crad, on le sait, et les outils un peu naïfs
par rapport à ça (<SPAN>xxx</span> ça existe !)
- Le XPATH construit par Firefox (Web Tools) se base sur un DOM revu (en
particulier FF insère des <thead> et <tbody> systématiquement, ce qui fausse
tout pour les tables)
- Les solutions à base de sélecteurs CSS sont pas mal mais délicat à
utiliser lorsqu'on descend profond dans le DOM de la page.

Quelques outils qui ont tous des qualités :

http://labnotes.org/svn/public/ruby/scrapi/
http://scrubyt.org/

Hope it helps ;-)


-- 
IciMarché fédère l'e-commerce de proximité
http://icimarche.fr

--~--~---------~--~----~------------~-------~--~----~
Vous avez reçu ce message, car vous êtes abonné au groupe "Railsfrance" de 
Google Groups.
Pour transmettre des messages à ce groupe, envoyez un e-mail à l'adresse 
[email protected]
Pour résilier votre abonnement envoyez un e-mail à l'adresse [EMAIL PROTECTED]
-~----------~----~----~----~------~----~------~--~---

[RailsFr] Re: Parser des pages avec Ruby

Répondre à