Buenas,

Para hacer scraping en sitios que abusan de javascript, siempre que no
tengas unos criterios de eficiencia excesivos (en plan quiero un
millón de requests hechas para mañana) y no te importe que el scraper
use demasiada memoria, yo tiraría por echarle un vistazo a webdriver.
Haces las pruebas manejando un chrome o un firefox y si todo va bien
pasas a controlar un navegador headless como phantomjs.

Te obliga a aprender tecnologías, pero a la larga te ahorra tiempo.

Otra opción es investigar que hace ese javascript para simular su
comportamiento con tu scraper. Googleando un poco tiene pinta que es
una cosa tipo de .net y que hay ejemplos de como lidiar con ello:

http://toddhayton.com/2015/05/04/scraping-aspnet-pages-with-ajax-pagination/
http://stackoverflow.com/questions/23885771/scraping-with-dopostback-with-link-url-hidden

Con la información que das tampoco se ser más concreto. Espero que te
sea de utilidad.

Un saludo,

Javi


El día 27 de enero de 2017, 5:33, Gonzalo V <gvm2...@gmail.com> escribió:
> Hola amigos.
> Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay unos
> tab o lenguetas que se llenan a través de javascript. ¿cómo podría obtener
> esa información?
> este es el link, el href
>  <li id="ctl00_mainPlaceHolder_tabVotaciones"><a
> id="ctl00_mainPlaceHolder_btnVotaciones"
> href="javascript:__doPostBack(&#39;ctl00$mainPlaceHolder$btnVotaciones&#39;,&#39;&#39;)">Votaciones</a></li>
>
> y no lo puedo abrir con urllib.request.urlopen
>
> alguien sabe cómo?, han tenido algún problema similar?
>
>
>
> Saludos,
> Gonzalo
>
> _______________________________________________
> Python-es mailing list
> Python-es@python.org
> https://mail.python.org/mailman/listinfo/python-es
>
_______________________________________________
Python-es mailing list
Python-es@python.org
https://mail.python.org/mailman/listinfo/python-es

Responder a