On 06/07/10 11:45, Ignacio Torres Masdeu wrote:
Y compruebas que no estén dentro de un comentario? ¿O que no sean parte de un string javascript?
A veces no es necesario; es en esas ocasiones donde puedes usar una regex. Reconozco que no se de qué app habláis y que he dormido 1.5 horas, empero :P
Es decir. Tienes una función que no hace lo que debería al 100%. Tal vez puedes vivir con ello y tu "debe" es distinto (puedes coger los falsos resultados de un comentario, pero a mi me duele. Para gustos los colores. :P
Si tratas con plantillas[1] y buscas patrones estáticos no requieres un procesamiento del árbol o de las excepciones porque, precisamente, éstas no deberían existir. Y sí, el rendimiento es superior[2][3].
1/ En mi caso, tengo plantillas para feetchear ascodevida y menéame (aunq de la versión anterior); tal vez si veo que entre 2-3 versiones mantienen, por ejemplo, el class o el id de aquello que me interesa, lo pasaré a beautifulsoup, pero hoy x hoy uso plantillas básicas de regex en perl que avisan si no se ajustan completamente.
2/ En mi caso lo testeé con unos informes de iop's de honeyclients a diversos sites, con el mismo html, cambiaban sólo el js y el css. El árbol html era poco complejo y variaba mucho el volumen de datos a tratar. Creo recordar que el máximo número de rows parseadas eran aprox 200mil: en todos los casos era *mucho* más eficiente utilizar regex
3/ Miento: no he hecho tests con la plantilla primero; cuando los hice eran con un html estático que siempre iba a serlo ya que lo generábamos nosotros mismos. Se que es una muy-muy mala suposición, ya que no tiene pq haber sincronización interna, pero en ese caso éramos dos compañeros y un mismo archivador (ya tengo título para mi película porn-freak)
-- En democracia, dos Belén Esteban valen más que tú -- _______________________________________________ Comandob mailing list [email protected] http://lists.badopi.org/mailman/listinfo/comandob
