On 06/07/10 11:45, Ignacio Torres Masdeu wrote:
Y compruebas que no estén dentro de un comentario?
¿O que no sean parte de un string javascript?

A veces no es necesario; es en esas ocasiones donde puedes usar una regex. Reconozco que no se de qué app habláis y que he dormido 1.5 horas, empero :P

Es decir. Tienes una función que no hace lo que debería al 100%. Tal
vez puedes vivir con ello y tu "debe" es distinto (puedes coger los
falsos resultados de un comentario, pero a mi me duele. Para gustos
los colores. :P

Si tratas con plantillas[1] y buscas patrones estáticos no requieres un procesamiento del árbol o de las excepciones porque, precisamente, éstas no deberían existir. Y sí, el rendimiento es superior[2][3].

1/ En mi caso, tengo plantillas para feetchear ascodevida y menéame (aunq de la versión anterior); tal vez si veo que entre 2-3 versiones mantienen, por ejemplo, el class o el id de aquello que me interesa, lo pasaré a beautifulsoup, pero hoy x hoy uso plantillas básicas de regex en perl que avisan si no se ajustan completamente.

2/ En mi caso lo testeé con unos informes de iop's de honeyclients a diversos sites, con el mismo html, cambiaban sólo el js y el css. El árbol html era poco complejo y variaba mucho el volumen de datos a tratar. Creo recordar que el máximo número de rows parseadas eran aprox 200mil: en todos los casos era *mucho* más eficiente utilizar regex

3/ Miento: no he hecho tests con la plantilla primero; cuando los hice eran con un html estático que siempre iba a serlo ya que lo generábamos nosotros mismos. Se que es una muy-muy mala suposición, ya que no tiene pq haber sincronización interna, pero en ese caso éramos dos compañeros y un mismo archivador (ya tengo título para mi película porn-freak)


--
En democracia, dos Belén Esteban valen más que tú
--
_______________________________________________
Comandob mailing list
[email protected]
http://lists.badopi.org/mailman/listinfo/comandob

Responder a