Concordo com o Tiago. Regras como "SEMPRE" e "NUNCA" são como rodinhas de bicicleta, com experiência e maturidade viram em geral "em situações típicas, PREFIRA" ou "em situações típicas, EVITE" e cabe ao profissional avaliar, e cada caso é um caso.
curl -s [1]http://gooogle.com | grep -i '<TITLE>301 Moved</TITLE>' > /dev/null && echo "yeah title says it moved" || echo "not the title you're looking for" Se eu tiver um oneliner, ou script descartável, tipo isso aí em cima, e alguém me sugerir um parser, eu vou rir e é muito! rsrs Se servir de consolo, pensem (puristas e teóricos de plantão) que existem situações em que é melhor resolver um problema mal e porcamente hoje, e sobreviver, do que uma solução bonita e elegante daqui a um mês, e não ter um segundo mês de sobrevida para usar ou levar o projeto adiante. Veja também: technical debt. On Wed, Apr 3, 2013, at 02:00 PM, Tiago Peczenyj wrote: Eu posso e faço :P 2013/4/3 Andre Carneiro <[2][email protected]> Não, não pode! Evite esse tipo de atitude o máximo possível! Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é porque eu 'posso' que signfica que eu farei. Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o suficiente para não ser parseado, é muito provável que não valha a pena parsea-lo! Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o WWW::Mechanize dá pra pegar! Em 99,99999% dos casos é desnecessário... Cheers! 2013/4/3 Tiago Peczenyj <[3][email protected]> IMHO vc pode sim usar regex para parserar html SE 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não façam muito sentido) 2) a estrutura (quase) nunca mudar (e vc procura uma string X como "APROVADO" ou "ERRO) 3) vc está desesperado Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até pode usar como um complemento ao seu parser mas se basear SÓ nisso, como criterio geral, é furada. 2013/4/3 Marcio Ferreira <[4][email protected]> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser tocados: o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc de fato se concentra no seu problema e esquece o resto. o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu DOM, isso é legal! NUNCA USE REGEX PRA PARSER DE HTML [5]http://stackoverflow.com/questions/1732348/regex-match-open-tags-exc ept-xhtml-self-contained-tags?page=1&tab=votes#tab-top Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/ **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P []s, Marcio Ferreira skype: marcio.ferreir4 [6](21) 8365-7768 2013/4/3 Nuba Princigalli <[7][email protected]> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote: Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o workflow). Já usei e recomendo o [8]https://metacpan.org/module/HTML::TreeBuilder::XPath -- Nuba R. Princigalli [9][email protected] [10]http://pauleira.com @nprincigalli Discipline is not an end in itself, just a means to an end. - King Crimson _______________________________________________ Rio-pm mailing list [11][email protected] [12]http://mail.pm.org/mailman/listinfo/rio-pm _______________________________________________ Rio-pm mailing list [13][email protected] [14]http://mail.pm.org/mailman/listinfo/rio-pm -- Tiago B. Peczenyj Linux User #405772 [15]http://about.me/peczenyj _______________________________________________ Rio-pm mailing list [16][email protected] [17]http://mail.pm.org/mailman/listinfo/rio-pm -- André Garcia Carneiro Software Engineer [18](11)982907780 _______________________________________________ Rio-pm mailing list [19][email protected] [20]http://mail.pm.org/mailman/listinfo/rio-pm -- Tiago B. Peczenyj Linux User #405772 [21]http://about.me/peczenyj _______________________________________________ Rio-pm mailing list [22][email protected] [23]http://mail.pm.org/mailman/listinfo/rio-pm -- Nuba R. Princigalli [email protected] http://pauleira.com @nprincigalli Discipline is not an end in itself, just a means to an end. - King Crimson References 1. http://gooogle.com/ 2. mailto:[email protected] 3. mailto:[email protected] 4. mailto:[email protected] 5. http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top 6. tel:%2821%29%208365-7768 7. mailto:[email protected] 8. https://metacpan.org/module/HTML::TreeBuilder::XPath 9. mailto:[email protected] 10. http://pauleira.com/ 11. mailto:[email protected] 12. http://mail.pm.org/mailman/listinfo/rio-pm 13. mailto:[email protected] 14. http://mail.pm.org/mailman/listinfo/rio-pm 15. http://about.me/peczenyj 16. mailto:[email protected] 17. http://mail.pm.org/mailman/listinfo/rio-pm 18. tel:%2811%29982907780 19. mailto:[email protected] 20. http://mail.pm.org/mailman/listinfo/rio-pm 21. http://about.me/peczenyj 22. mailto:[email protected] 23. http://mail.pm.org/mailman/listinfo/rio-pm
_______________________________________________ Rio-pm mailing list [email protected] http://mail.pm.org/mailman/listinfo/rio-pm
