>
> El como haces el parsing de las páginas queda como misterio, pero se
> supone que lo haces de algún modo ;-)
wget lo hace solito :-)...aparte a veces el html viene ofuscado y no
es fácil meter mano y reconstruir o modificar algo.
>
> Saludos:
Saludos,
--
Milton
___
El día 30 de enero de 2011 02:18, Milton Galo Patricio Inostroza
Aguilera escribió:
> Hola:
>
> He estado utilizando urllib2 para obtener el contenido de páginas web.
> Hasta ahora todo sin problemas :-). Me di cuenta que el src de las
> imagenes, css y javascript de algunos sitios está con ruta
Hola:
He estado utilizando urllib2 para obtener el contenido de páginas web.
Hasta ahora todo sin problemas :-). Me di cuenta que el src de las
imagenes, css y javascript de algunos sitios está con ruta relativa
por lo que cuando obtengo la página pierdo todo eso (tengo la página
en un solo arch
gracias ...
El 28 de enero de 2011 17:26, matt ledding escribió:
> +1 x nltk.org/book ...
>
> sino, por un bot mas sencilla, hay AIML (Artificial Intelligence Markup
> Language), pero sobre todo reversedAIML (http://charlix.sourceforge.net/)que
> tiene otros ideas interesantes. Puedes crear p