http://xsh.sourceforge.net/
On Wednesday, April 3, 2013, Matheus Lucas wrote: > Ok, realmente eu estou usando o WWW::Mechanize. :-) > E o html não esta tao porquinho, ja vi piores kkkkk mais é realmente muito > complicado mesmo, cheguei a esta conclusão. > No caso é um <p> que esta no meio do codigo e o mesmo esta gigante, entao > pensei que regex não iria facilitar, teria que ter algo mais inteligente e > principalmente navegavel. :-) > Me lebrei dos seletores do Jquery com esse mojo::dom . :-) > Valeu pela dica André, ogribado ! > > > * > * > * > * > * > * > *----------------* > Matheus Lucas > Tecnologia em Sistemas para Internet > Viçosa-MG > > *"Seja livre, use Linux !"* > > > --- Em *qua, 3/4/13, Andre Carneiro > <[email protected]<javascript:_e({}, 'cvml', > '[email protected]');> > >* escreveu: > > > De: Andre Carneiro <[email protected] <javascript:_e({}, > 'cvml', '[email protected]');>> > Assunto: Re: [Rio-pm] xpath > Para: "Perl Mongers Rio de Janeiro" <[email protected] <javascript:_e({}, > 'cvml', '[email protected]');>> > Data: Quarta-feira, 3 de Abril de 2013, 14:00 > > Não, não pode! > > Evite esse tipo de atitude o máximo possível! > > Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é > porque eu 'posso' que signfica que eu farei. > > Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o > suficiente para não ser parseado, é muito provável que não valha a pena > parsea-lo! > > Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil > chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o > WWW::Mechanize dá pra pegar! > > Em 99,99999% dos casos é desnecessário... > > > Cheers! > > > > 2013/4/3 Tiago Peczenyj > <[email protected]<http://mc/[email protected]> > > > > IMHO vc pode sim usar regex para parserar html SE > > 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas > q não façam muito sentido) > 2) a estrutura (quase) nunca mudar (e vc procura uma string X como > "APROVADO" ou "ERRO) > 3) vc está desesperado > > Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc > até pode usar como um complemento ao seu parser mas se basear SÓ nisso, > como criterio geral, é furada. > > > 2013/4/3 Marcio Ferreira > <[email protected]<http://mc/[email protected]> > > > > Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem > ser tocados: > > o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, > assim vc de fato se concentra no seu problema e esquece o resto. > o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no > seu DOM, isso é legal! > > NUNCA USE REGEX PRA PARSER DE HTML > > http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top > > Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus > "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper > e Mojo::DOM, acho que ele ficou pra trás. =/ > > **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath > mesmo =P > > > []s, > > Marcio Ferreira > skype: marcio.ferreir4 > (21) 8365-7768 > > > 2013/4/3 Nuba Princigalli > <[email protected]<http://mc/[email protected]> > > > > ** > On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote: > > Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" > o workflow). > > > Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath > > -- > Nuba R. Princigalli [email protected]<http://mc/[email protected]> > http://pauleira.com @nprincigalli > Discipline is not an end in itself, just a means to an end. - King Crimson > > > _______________________________________________ > Rio-pm mailing list > [email protected] <http://mc/[email protected]> > http://mail.pm.org/mailman/listinfo/rio-pm > > > > _______________________________________________ > Rio-pm mailing list > [email protected] <http://mc/[email protected]> > http://mail.pm.org/mailman/listinfo/rio-pm > > -----Anexo incorporado----- > > _______________________________________________ > Rio-pm mailing list > [email protected] <http://mc/[email protected]> > http://mail.pm.org/mailman/listinfo/rio-pm > >
_______________________________________________ Rio-pm mailing list [email protected] http://mail.pm.org/mailman/listinfo/rio-pm
