gracias javi, muy útil tu respuesta. ¿que más se debería saber cómo para tener un camino más certero?
El 27 ene. 2017 8:26 AM, "lasizoillo" <lasizoi...@gmail.com> escribió: > Buenas, > > Para hacer scraping en sitios que abusan de javascript, siempre que no > tengas unos criterios de eficiencia excesivos (en plan quiero un > millón de requests hechas para mañana) y no te importe que el scraper > use demasiada memoria, yo tiraría por echarle un vistazo a webdriver. > Haces las pruebas manejando un chrome o un firefox y si todo va bien > pasas a controlar un navegador headless como phantomjs. > > Te obliga a aprender tecnologías, pero a la larga te ahorra tiempo. > > Otra opción es investigar que hace ese javascript para simular su > comportamiento con tu scraper. Googleando un poco tiene pinta que es > una cosa tipo de .net y que hay ejemplos de como lidiar con ello: > > http://toddhayton.com/2015/05/04/scraping-aspnet-pages-with- > ajax-pagination/ > http://stackoverflow.com/questions/23885771/scraping- > with-dopostback-with-link-url-hidden > > Con la información que das tampoco se ser más concreto. Espero que te > sea de utilidad. > > Un saludo, > > Javi > > > El día 27 de enero de 2017, 5:33, Gonzalo V <gvm2...@gmail.com> escribió: > > Hola amigos. > > Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay > unos > > tab o lenguetas que se llenan a través de javascript. ¿cómo podría > obtener > > esa información? > > este es el link, el href > > <li id="ctl00_mainPlaceHolder_tabVotaciones"><a > > id="ctl00_mainPlaceHolder_btnVotaciones" > > href="javascript:__doPostBack('ctl00$mainPlaceHolder$ > btnVotaciones','')">Votaciones</a></li> > > > > y no lo puedo abrir con urllib.request.urlopen > > > > alguien sabe cómo?, han tenido algún problema similar? > > > > > > > > Saludos, > > Gonzalo > > > > _______________________________________________ > > Python-es mailing list > > Python-es@python.org > > https://mail.python.org/mailman/listinfo/python-es > > > _______________________________________________ > Python-es mailing list > Python-es@python.org > https://mail.python.org/mailman/listinfo/python-es >
_______________________________________________ Python-es mailing list Python-es@python.org https://mail.python.org/mailman/listinfo/python-es