Il y a quelques mois j'ai essayé un peu toutes les solutions de screen-scraping.
Aucune ne m'a donné entièrement satisfaction et je m'en suis sorti par un mélage d'automatisation et de manuel assez empirique : Qq problèmes rencontrés : - Le HTML dans la nature est crad, on le sait, et les outils un peu naïfs par rapport à ça (<SPAN>xxx</span> ça existe !) - Le XPATH construit par Firefox (Web Tools) se base sur un DOM revu (en particulier FF insère des <thead> et <tbody> systématiquement, ce qui fausse tout pour les tables) - Les solutions à base de sélecteurs CSS sont pas mal mais délicat à utiliser lorsqu'on descend profond dans le DOM de la page. Quelques outils qui ont tous des qualités : http://labnotes.org/svn/public/ruby/scrapi/ http://scrubyt.org/ Hope it helps ;-) -- IciMarché fédère l'e-commerce de proximité http://icimarche.fr --~--~---------~--~----~------------~-------~--~----~ Vous avez reçu ce message, car vous êtes abonné au groupe "Railsfrance" de Google Groups. Pour transmettre des messages à ce groupe, envoyez un e-mail à l'adresse [email protected] Pour résilier votre abonnement envoyez un e-mail à l'adresse [EMAIL PROTECTED] -~----------~----~----~----~------~----~------~--~---
