En otras palabras realizar varias descargas al mismo tiempo, de tal
manera que agilice el proceso.

¿Urls al respecto?

Como pregunta adicional, ¿cuan legal es descargar esa información de
forma masiva desde la web de páginas blancas?

Saludos

2010/3/5 Alfonso de la Guarda <[email protected]>:
> Pedro,
>
>
> Esta lista no es de python, pero si vas a hacer web scrapping el
> proceso puede tomar tiempo y necesitas  mirar maneras alternativas de
> hacer las cosas, por lo tanto, considera implementar tareas paralelas
> mediante subprocesos y no mediante threads ya que debido a
> limitaciones del GIL python adolece de un gran problema para tratar
> las tareas paralelas.
> La otra alternativa sería trabajar con stackless, unladen swalow o con
> twisted, claro que este es simplemente un módulo, pero que lidia con
> comunicaciones de red paralelas.
>
> Saludos,
>
> --------------------------------
> Alfonso de la Guarda
> Centro Open Source(COS)
> http://www.cos-la.net
> http://alfonsodg.net
>   Telef. 991935157
> 1024D/B23B24A4
> 5469 ED92 75A3 BBDB FD6B  58A5 54A1 851D B23B 24A4
>
>
>
> 2010/3/5 Pedro Muñoz del Río <[email protected]>:
>> Gracias!, justo estábamos viendo una solución similar :)
>>
>> 2010/3/5 Alfonso de la Guarda <[email protected]>:
>>> Pedro,
>>>
>>> Tabo tiene razón scrapy te podría ser de ayuda, pero a modo de
>>> ejemplo, tengo implementado un ejemplo de web scrapping con python, se
>>> encuentra en:
>>>
>>> http://pastebin.com/BDJ9FHbi
>>>
>>>
>>> El ejemplo lo hice algunos años para mis clases pero las líneas estan
>>> comentadas por lo que pueden modificarlo y ajustarlo a sus necesidades
>>>
>>> Saludos,
>>>
>>> --------------------------------
>>> Alfonso de la Guarda
>>> Centro Open Source(COS)
>>> http://www.cos-la.net
>>> http://alfonsodg.net
>>>   Telef. 991935157
>>> 1024D/B23B24A4
>>> 5469 ED92 75A3 BBDB FD6B  58A5 54A1 851D B23B 24A4
>>>
>>>
>>>
>>> 2010/3/5 Gustavo Picon <[email protected]>:
>>>>
>>>> On Mar 5, 2010, at 11:34 AM, David Wong-Aitken wrote:
>>>>
>>>>> sacar la data de la web? depende de qué es lo que quiero sacar. Qué es lo 
>>>>> que quisieras sacar?
>>>>>
>>>>> Lo mas simple es ver la web y apuntar el dato, al menos que quieras 
>>>>> automatizarlo, para lo cual puedes hacer un script en perl o python. Me 
>>>>> parece que alguno vi por la web hace tiempo, pero no es difícil.
>>>>
>>>> Esa técnica se llama web scrapping. Para cosas sencillas se puede usar 
>>>> BeautifulSoup en python o Mechanize en Perl. Si lo que quieres es extraer 
>>>> TODO lo que hay en páginas amarillas, te convendría algo mas 
>>>> especializado, como http://scrapy.org/
>>>>
>>>>
>>>>
>>>> Gustavo Picon
>>>> https://tabo.pe/
>>>>
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Lista de correo Linux-plug
>>>> Temática: Discusión general sobre Linux
>>>> Peruvian Linux User Group (http://www.linux.org.pe)
>>>>
>>>> Participa suscribiéndote y escribiendo a:  [email protected]
>>>> Para darte de alta, de baja  o hacer ajustes a tu suscripción visita:
>>>> http://listas.linux.org.pe/mailman/listinfo/linux-plug
>>>>
>>>> IMPORTANTE: Reglas y recomendaciones
>>>> http://www.linux.org.pe/listas/reglas.php
>>>> http://www.linux.org.pe/listas/comportamiento.php
>>>> http://www.linux.org.pe/listas/recomendaciones.php
>>>>
>>> _______________________________________________
>>> Lista de correo Linux-plug
>>> Temática: Discusión general sobre Linux
>>> Peruvian Linux User Group (http://www.linux.org.pe)
>>>
>>> Participa suscribiéndote y escribiendo a:  [email protected]
>>> Para darte de alta, de baja  o hacer ajustes a tu suscripción visita:
>>> http://listas.linux.org.pe/mailman/listinfo/linux-plug
>>>
>>> IMPORTANTE: Reglas y recomendaciones
>>> http://www.linux.org.pe/listas/reglas.php
>>> http://www.linux.org.pe/listas/comportamiento.php
>>> http://www.linux.org.pe/listas/recomendaciones.php
>>>
>>
>>
>>
>> --
>> Ing. Pedro Muñoz del Río
>> CIP: 105362
>>
>> Acerquese a nuestra empresa: http://www.simuder.com
>> ------------------------------------------------
>> APESOL: http://www.apesol.org
>> UTPINUX: http://www.utpinux.org
>> Blog: http://www.droper.org
>> _______________________________________________
>> Lista de correo Linux-plug
>> Temática: Discusión general sobre Linux
>> Peruvian Linux User Group (http://www.linux.org.pe)
>>
>> Participa suscribiéndote y escribiendo a:  [email protected]
>> Para darte de alta, de baja  o hacer ajustes a tu suscripción visita:
>> http://listas.linux.org.pe/mailman/listinfo/linux-plug
>>
>> IMPORTANTE: Reglas y recomendaciones
>> http://www.linux.org.pe/listas/reglas.php
>> http://www.linux.org.pe/listas/comportamiento.php
>> http://www.linux.org.pe/listas/recomendaciones.php
>>
> _______________________________________________
> Lista de correo Linux-plug
> Temática: Discusión general sobre Linux
> Peruvian Linux User Group (http://www.linux.org.pe)
>
> Participa suscribiéndote y escribiendo a:  [email protected]
> Para darte de alta, de baja  o hacer ajustes a tu suscripción visita:
> http://listas.linux.org.pe/mailman/listinfo/linux-plug
>
> IMPORTANTE: Reglas y recomendaciones
> http://www.linux.org.pe/listas/reglas.php
> http://www.linux.org.pe/listas/comportamiento.php
> http://www.linux.org.pe/listas/recomendaciones.php
>



-- 
Ing. Pedro Muñoz del Río
CIP: 105362

Acerquese a nuestra empresa: http://www.simuder.com
------------------------------------------------
APESOL: http://www.apesol.org
UTPINUX: http://www.utpinux.org
Blog: http://www.droper.org
_______________________________________________
Lista de correo Linux-plug
Temática: Discusión general sobre Linux
Peruvian Linux User Group (http://www.linux.org.pe)

Participa suscribiéndote y escribiendo a:  [email protected]
Para darte de alta, de baja  o hacer ajustes a tu suscripción visita:
http://listas.linux.org.pe/mailman/listinfo/linux-plug

IMPORTANTE: Reglas y recomendaciones
http://www.linux.org.pe/listas/reglas.php
http://www.linux.org.pe/listas/comportamiento.php
http://www.linux.org.pe/listas/recomendaciones.php

Responder a