Re: [Rio-pm] xpath

2013-04-03 Por tôpico Blabos de Blebe
http://xsh.sourceforge.net/

On Wednesday, April 3, 2013, Matheus Lucas wrote:

> Ok, realmente eu estou usando o WWW::Mechanize. :-)
> E o html não esta tao porquinho, ja vi piores k mais é realmente muito
> complicado mesmo, cheguei a esta conclusão.
> No caso é um  que esta no meio do codigo e o mesmo esta gigante, entao
> pensei que regex não iria facilitar, teria que ter algo mais inteligente e
> principalmente navegavel. :-)
> Me lebrei dos seletores do Jquery com esse mojo::dom . :-)
> Valeu pela dica André, ogribado !
>
>
> *
> *
> *
> *
> *
> *
> **
> Matheus Lucas
> Tecnologia em Sistemas para Internet
> Viçosa-MG
>
> *"Seja livre, use Linux !"*
>
>
> --- Em *qua, 3/4/13, Andre Carneiro 
>  'andregarciacarne...@gmail.com');>
> >* escreveu:
>
>
> De: Andre Carneiro  'cvml', 'andregarciacarne...@gmail.com');>>
> Assunto: Re: [Rio-pm] xpath
> Para: "Perl Mongers Rio de Janeiro"  'cvml', 'rio-pm@pm.org');>>
> Data: Quarta-feira, 3 de Abril de 2013, 14:00
>
> Não, não pode!
>
> Evite esse tipo de atitude o máximo possível!
>
> Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
> porque eu 'posso' que signfica que eu farei.
>
> Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
> suficiente para não ser parseado, é muito provável que não valha a pena
> parsea-lo!
>
> Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
> chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
> WWW::Mechanize dá pra pegar!
>
> Em 99,9% dos casos é desnecessário...
>
>
> Cheers!
>
>
>
> 2013/4/3 Tiago Peczenyj 
> http://mc/compose?to=tiago.pecze...@gmail.com>
> >
>
> IMHO vc pode sim usar regex para parserar html SE
>
> 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas
> q não façam muito sentido)
> 2) a estrutura (quase) nunca mudar (e vc procura uma string X como
> "APROVADO" ou "ERRO)
> 3) vc está desesperado
>
> Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc
> até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
> como criterio geral, é furada.
>
>
> 2013/4/3 Marcio Ferreira 
> http://mc/compose?to=marciodesouzaferre...@gmail.com>
> >
>
> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem
> ser tocados:
>
> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
> assim vc de fato se concentra no seu problema e esquece o resto.
> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no
> seu DOM, isso é legal!
>
> NUNCA USE REGEX PRA PARSER DE HTML
>
> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>
> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus
> "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper
> e Mojo::DOM, acho que ele ficou pra trás. =/
>
> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
> mesmo =P
>
>
> []s,
>
> Marcio Ferreira
> skype: marcio.ferreir4
> (21) 8365-7768
>
>
> 2013/4/3 Nuba Princigalli 
> http://mc/compose?to=n...@fastmail.fm>
> >
>
>  **
> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>
> Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar"
> o workflow).
>
>
> Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath
>
> --
> Nuba R. Princigalli n...@pauleira.com
> http://pauleira.com @nprincigalli
> Discipline is not an end in itself, just a means to an end. - King Crimson
>
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org 
> http://mail.pm.org/mailman/listinfo/rio-pm
>
>
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org 
> http://mail.pm.org/mailman/listinfo/rio-pm
>
> -Anexo incorporado-
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org 
> http://mail.pm.org/mailman/listinfo/rio-pm
>
>
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Matheus Lucas
Ok, realmente eu estou usando o WWW::Mechanize. :-) 
E o html não esta tao porquinho, ja vi piores k mais é realmente muito 
complicado mesmo, cheguei a esta conclusão.
No caso é um  que esta no meio do codigo e o mesmo esta gigante, entao 
pensei que regex não iria facilitar, teria que ter algo mais inteligente e 
principalmente navegavel. :-) 
Me lebrei dos seletores do Jquery com esse mojo::dom . :-)
Valeu pela dica André, ogribado !





Matheus Lucas
Tecnologia em Sistemas para InternetViçosa-MG
"Seja livre, use Linux !"

--- Em qua, 3/4/13, Andre Carneiro  escreveu:

De: Andre Carneiro 
Assunto: Re: [Rio-pm] xpath
Para: "Perl Mongers Rio de Janeiro" 
Data: Quarta-feira, 3 de Abril de 2013, 14:00

Não, não pode!
Evite esse tipo de atitude o máximo possível!
Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é porque 
eu 'posso' que signfica que eu farei.

Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o 
suficiente para não ser parseado, é muito provável que não valha a pena 
parsea-lo!
Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil chegar 
nesse ponto! Pelo menos os links dá pra pegar. Até com o WWW::Mechanize dá pra 
pegar!

Em 99,9% dos casos é desnecessário...

Cheers!


2013/4/3 Tiago Peczenyj 

IMHO vc pode sim usar regex para parserar html SE
1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não 
façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como "APROVADO" 
ou "ERRO)

3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até 
pode usar como um complemento ao seu parser mas se basear SÓ nisso, como 
criterio geral, é furada.




2013/4/3 Marcio Ferreira 



Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser 
tocados:



o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc 
de fato se concentra no seu problema e esquece o resto.


o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu 
DOM, isso é legal!
NUNCA USE REGEX PRA PARSER DE 
HTMLhttp://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top







Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus 
"findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e 
Mojo::DOM, acho que ele ficou pra trás. =/






**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P

[]s,

Marcio Ferreira

skype: marcio.ferreir4

(21) 8365-7768



2013/4/3 Nuba Princigalli 











On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o 
workflow).


 
Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath

 
--

Nuba R. Princigalli  n...@pauleira.com  http://pauleira.com  @nprincigalli

Discipline is not an end in itself, just a means to an end. - King Crimson

 




___

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



___

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm




-- 
Tiago B. Peczenyj
Linux User #405772



http://about.me/peczenyj


___

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



-- 
André Garcia Carneiro
Software Engineer

(11)982907780


-Anexo incorporado-

___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Nuba Princigalli
Concordo com o Tiago. Regras como "SEMPRE" e "NUNCA" são como rodinhas
de bicicleta, com experiência e maturidade viram em geral "em situações
típicas, PREFIRA" ou "em situações típicas, EVITE" e cabe ao
profissional avaliar, e cada caso é um caso.



curl -s [1]http://gooogle.com | grep -i '301 Moved' >
/dev/null && echo "yeah title says it moved" || echo "not the title
you're looking for"



Se eu tiver um oneliner, ou script descartável, tipo isso aí em cima, e
alguém me sugerir um parser, eu vou rir e é muito! rsrs



Se servir de consolo, pensem (puristas e teóricos de plantão) que
existem situações em que é melhor resolver um problema mal e porcamente
hoje, e sobreviver, do que uma solução bonita e elegante daqui a um
mês, e não ter um segundo mês de sobrevida para usar ou levar o projeto
adiante.



Veja também: technical debt.





On Wed, Apr 3, 2013, at 02:00 PM, Tiago Peczenyj wrote:

Eu posso e faço :P



2013/4/3 Andre Carneiro <[2]andregarciacarne...@gmail.com>

Não, não pode!



Evite esse tipo de atitude o máximo possível!



Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
porque eu 'posso' que signfica que eu farei.


Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
suficiente para não ser parseado, é muito provável que não valha a pena
parsea-lo!

Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
WWW::Mechanize dá pra pegar!

Em 99,9% dos casos é desnecessário...


Cheers!



2013/4/3 Tiago Peczenyj <[3]tiago.pecze...@gmail.com>

IMHO vc pode sim usar regex para parserar html SE

1) a estrutura do html for porca (tipo cheio de tag q não fecha ou
coisas q não façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como
"APROVADO" ou "ERRO)
3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra.
vc até pode usar como um complemento ao seu parser mas se basear SÓ
nisso, como criterio geral, é furada.


2013/4/3 Marcio Ferreira <[4]marciodesouzaferre...@gmail.com>

Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
podem ser tocados:

o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
assim vc de fato se concentra no seu problema e esquece o resto.
o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
no seu DOM, isso é legal!

NUNCA USE REGEX PRA PARSER DE HTML
[5]http://stackoverflow.com/questions/1732348/regex-match-open-tags-exc
ept-xhtml-self-contained-tags?page=1&tab=votes#tab-top

Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
seus "findnodes" e compor seu objeto na mao, frente a soluções como
Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/

**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
mesmo =P


[]s,

Marcio Ferreira

skype: marcio.ferreir4
[6](21) 8365-7768


2013/4/3 Nuba Princigalli <[7]n...@fastmail.fm>

On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de
"gerenciar" o workflow).


Já usei e recomendo
o [8]https://metacpan.org/module/HTML::TreeBuilder::XPath

--
Nuba R. Princigalli [9]n...@pauleira.com [10]http://pauleira.com
@nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson


___
Rio-pm mailing list
[11]Rio-pm@pm.org
[12]http://mail.pm.org/mailman/listinfo/rio-pm




___

Rio-pm mailing list

[13]Rio-pm@pm.org

[14]http://mail.pm.org/mailman/listinfo/rio-pm




--
Tiago B. Peczenyj
Linux User #405772
[15]http://about.me/peczenyj



___

Rio-pm mailing list

[16]Rio-pm@pm.org

[17]http://mail.pm.org/mailman/listinfo/rio-pm




--
André Garcia Carneiro
Software Engineer
[18](11)982907780



___

Rio-pm mailing list

[19]Rio-pm@pm.org

[20]http://mail.pm.org/mailman/listinfo/rio-pm




--
Tiago B. Peczenyj
Linux User #405772

[21]http://about.me/peczenyj

___

Rio-pm mailing list

[22]Rio-pm@pm.org

[23]http://mail.pm.org/mailman/listinfo/rio-pm



--
Nuba R. Princigalli n...@pauleira.com http://pauleira.com @nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson

References

1. http://gooogle.com/
2. mailto:andregarciacarne...@gmail.com
3. mailto:tiago.pecze...@gmail.com
4. mailto:marciodesouzaferre...@gmail.com
5. 
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
6. tel:%2821%29%208365-7768
7. mailto:n...@fastmail.fm
8. https://metacpan.org/module/HTML::TreeBuilder::XPath
9. mailto:n...@pauleira.com
  10. http://pauleira.com/
  11. mailto:Rio-pm@pm.org
  12. http://mail.pm.org/mailman/listinfo/rio-pm
  13. mailto:Rio-pm@pm.org
  14. http://mai

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Matheus Lucas
Realmente Tiago, concordo com você. 
Até comentei mesmo com um amigo que participa do projeto comigo. Chega um 
ponto, que as regex ficam imensas e que depois só jesus tem paciencia de 
analisa-las numa possivel manutenção do codigo e nesse caso a gente nem tem a 
garantia que vai servir pra 100% dos codigos que irao passar por elas. Mais 
ainda perl é novo pra mim e quando o tempo aperta, a gente acaba fazendo magica 
mesmo e usando todo recurso que esta disponivel... Mais concordo plenamente 
você e com alguns que disseram pra ter cuidado usando regex em html. Muito bom !
Já estou olhando aqui e achei bem interessante para o meu problema o mojo::dom 
e agradeço a todos pela ajuda.
abraços();




Matheus Lucas
Tecnologia em Sistemas para InternetViçosa-MG
"Seja livre, use Linux !"

--- Em qua, 3/4/13, Tiago Peczenyj  escreveu:

De: Tiago Peczenyj 
Assunto: Re: [Rio-pm] xpath
Para: "Perl Mongers Rio de Janeiro" 
Data: Quarta-feira, 3 de Abril de 2013, 13:48

IMHO vc pode sim usar regex para parserar html SE
1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q não 
façam muito sentido)2) a estrutura (quase) nunca mudar (e vc procura uma string 
X como "APROVADO" ou "ERRO)

3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc até 
pode usar como um complemento ao seu parser mas se basear SÓ nisso, como 
criterio geral, é furada.



2013/4/3 Marcio Ferreira 


Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem ser 
tocados:


o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação, assim vc 
de fato se concentra no seu problema e esquece o resto.


o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no seu 
DOM, isso é legal!
NUNCA USE REGEX PRA PARSER DE 
HTMLhttp://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top






Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus 
"findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper e 
Mojo::DOM, acho que ele ficou pra trás. =/





**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath mesmo =P

[]s,

Marcio Ferreira

skype: marcio.ferreir4

(21) 8365-7768



2013/4/3 Nuba Princigalli 










On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar" o 
workflow).


 
Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath

 
--

Nuba R. Princigalli  n...@pauleira.com  http://pauleira.com  @nprincigalli

Discipline is not an end in itself, just a means to an end. - King Crimson

 




___

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



___

Rio-pm mailing list

Rio-pm@pm.org

http://mail.pm.org/mailman/listinfo/rio-pm



-- 
Tiago B. Peczenyj
Linux User #405772



http://about.me/peczenyj


-Anexo incorporado-

___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Andre Carneiro
stan++

Boa Stan! Não lembrei desse aí.


Cheers!

2013/4/3 Stanislaw Pusep 

> Matheus, você provavelmente conhece os seletores CSS, esses popularizados
> pelo jQuery.
> Pois é, não há necessidade de aprender XPath, caso já conheça esses
> seletores: https://metacpan.org/module/HTML::Selector::XPath
> (seletor CSS pode ser convertido em XPath, porém a recíproca não é válida!)
> Aliás, talvez o Web::Query (https://metacpan.org/module/Web::Query) seja
> mais familiar/intuitivo para scraping do que Web::Scraper.
>
>
> ABS()
>
>
> 2013/4/3 Matheus Lucas 
>
>> Ola amigos !
>> Esbarrei em um problema com algumas regex aqui em arquivos html e me
>> deram a ideia de usar xpath para resolver. Eu nunca trabalhei com xpath e
>> achei muitos modulos na cpan.
>> Gostaria de saber se alguem ja trabalhou com algum modulo de xpath pra
>> perl e gostaria de receber opniões que modulo é interessante, mais rapido
>> de aprender e tals ? Ja vi que tem varios, mais ainda não sei qual é o
>> melhor para o problema e continuo a estudar. Gradeço se alguem puder me
>> orientar nisso.
>> Agradeço a todos !
>>
>> *
>> *
>> *
>> *
>> *
>> *
>> **
>> Matheus Lucas
>> Tecnologia em Sistemas para Internet
>> Viçosa-MG
>>
>> *"Seja livre, use Linux !"*
>>
>> ___
>> Rio-pm mailing list
>> Rio-pm@pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
André Garcia Carneiro
Software Engineer
(11)982907780
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Stanislaw Pusep
Matheus, você provavelmente conhece os seletores CSS, esses popularizados
pelo jQuery.
Pois é, não há necessidade de aprender XPath, caso já conheça esses
seletores: https://metacpan.org/module/HTML::Selector::XPath
(seletor CSS pode ser convertido em XPath, porém a recíproca não é válida!)
Aliás, talvez o Web::Query (https://metacpan.org/module/Web::Query) seja
mais familiar/intuitivo para scraping do que Web::Scraper.


ABS()


2013/4/3 Matheus Lucas 

> Ola amigos !
> Esbarrei em um problema com algumas regex aqui em arquivos html e me deram
> a ideia de usar xpath para resolver. Eu nunca trabalhei com xpath e achei
> muitos modulos na cpan.
> Gostaria de saber se alguem ja trabalhou com algum modulo de xpath pra
> perl e gostaria de receber opniões que modulo é interessante, mais rapido
> de aprender e tals ? Ja vi que tem varios, mais ainda não sei qual é o
> melhor para o problema e continuo a estudar. Gradeço se alguem puder me
> orientar nisso.
> Agradeço a todos !
>
> *
> *
> *
> *
> *
> *
> **
> Matheus Lucas
> Tecnologia em Sistemas para Internet
> Viçosa-MG
>
> *"Seja livre, use Linux !"*
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Tiago Peczenyj
Eu posso e faço :P


2013/4/3 Andre Carneiro 

> Não, não pode!
>
> Evite esse tipo de atitude o máximo possível!
>
> Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
> porque eu 'posso' que signfica que eu farei.
>
> Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
> suficiente para não ser parseado, é muito provável que não valha a pena
> parsea-lo!
>
> Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
> chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
> WWW::Mechanize dá pra pegar!
>
> Em 99,9% dos casos é desnecessário...
>
>
> Cheers!
>
>
>
> 2013/4/3 Tiago Peczenyj 
>
>> IMHO vc pode sim usar regex para parserar html SE
>>
>> 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas
>> q não façam muito sentido)
>> 2) a estrutura (quase) nunca mudar (e vc procura uma string X como
>> "APROVADO" ou "ERRO)
>> 3) vc está desesperado
>>
>> Mas para cada ponto que vc pode usar, existem muitos argumentos contra.
>> vc até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
>> como criterio geral, é furada.
>>
>>
>> 2013/4/3 Marcio Ferreira 
>>
>>> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
>>> podem ser tocados:
>>>
>>> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
>>> assim vc de fato se concentra no seu problema e esquece o resto.
>>> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
>>> no seu DOM, isso é legal!
>>>
>>> NUNCA USE REGEX PRA PARSER DE HTML
>>>
>>> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>>>
>>> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
>>> seus "findnodes" e compor seu objeto na mao, frente a soluções como
>>> Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/
>>>
>>> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
>>> mesmo =P
>>>
>>>
>>> []s,
>>>
>>> Marcio Ferreira
>>> skype: marcio.ferreir4
>>> (21) 8365-7768
>>>
>>>
>>> 2013/4/3 Nuba Princigalli 
>>>
  **
 On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

 Também há o HTML::TreeBuilder (mas um pouco mais complicado de
 "gerenciar" o workflow).


 Já usei e recomendo o
 https://metacpan.org/module/HTML::TreeBuilder::XPath

 --
 Nuba R. Princigalli n...@pauleira.com http://pauleira.com @nprincigalli
 Discipline is not an end in itself, just a means to an end. - King
 Crimson


 ___
 Rio-pm mailing list
 Rio-pm@pm.org
 http://mail.pm.org/mailman/listinfo/rio-pm

>>>
>>>
>>> ___
>>> Rio-pm mailing list
>>> Rio-pm@pm.org
>>> http://mail.pm.org/mailman/listinfo/rio-pm
>>>
>>
>>
>>
>> --
>> Tiago B. Peczenyj
>> Linux User #405772
>>
>> http://about.me/peczenyj
>>
>> ___
>> Rio-pm mailing list
>> Rio-pm@pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
>
> --
> André Garcia Carneiro
> Software Engineer
> (11)982907780
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
Tiago B. Peczenyj
Linux User #405772

http://about.me/peczenyj
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Andre Carneiro
Não, não pode!

Evite esse tipo de atitude o máximo possível!

Eu 'posso' jogar gasolina em um programador PHP e tocar fogo. Mas não é
porque eu 'posso' que signfica que eu farei.

Por favor, não use regex para parsear HTML!! Se o HTML estiver porco o
suficiente para não ser parseado, é muito provável que não valha a pena
parsea-lo!

Se for realmente necessário, e não tiver jeito, faça! Mas acho difícil
chegar nesse ponto! Pelo menos os links dá pra pegar. Até com o
WWW::Mechanize dá pra pegar!

Em 99,9% dos casos é desnecessário...


Cheers!



2013/4/3 Tiago Peczenyj 

> IMHO vc pode sim usar regex para parserar html SE
>
> 1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas
> q não façam muito sentido)
> 2) a estrutura (quase) nunca mudar (e vc procura uma string X como
> "APROVADO" ou "ERRO)
> 3) vc está desesperado
>
> Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc
> até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
> como criterio geral, é furada.
>
>
> 2013/4/3 Marcio Ferreira 
>
>> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que
>> podem ser tocados:
>>
>> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
>> assim vc de fato se concentra no seu problema e esquece o resto.
>> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar
>> no seu DOM, isso é legal!
>>
>> NUNCA USE REGEX PRA PARSER DE HTML
>>
>> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>>
>> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha
>> seus "findnodes" e compor seu objeto na mao, frente a soluções como
>> Web::Scraper e Mojo::DOM, acho que ele ficou pra trás. =/
>>
>> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
>> mesmo =P
>>
>>
>> []s,
>>
>> Marcio Ferreira
>> skype: marcio.ferreir4
>> (21) 8365-7768
>>
>>
>> 2013/4/3 Nuba Princigalli 
>>
>>>  **
>>> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>>>
>>> Também há o HTML::TreeBuilder (mas um pouco mais complicado de
>>> "gerenciar" o workflow).
>>>
>>>
>>> Já usei e recomendo o
>>> https://metacpan.org/module/HTML::TreeBuilder::XPath
>>>
>>> --
>>> Nuba R. Princigalli n...@pauleira.com http://pauleira.com @nprincigalli
>>> Discipline is not an end in itself, just a means to an end. - King
>>> Crimson
>>>
>>>
>>> ___
>>> Rio-pm mailing list
>>> Rio-pm@pm.org
>>> http://mail.pm.org/mailman/listinfo/rio-pm
>>>
>>
>>
>> ___
>> Rio-pm mailing list
>> Rio-pm@pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
>
> --
> Tiago B. Peczenyj
> Linux User #405772
>
> http://about.me/peczenyj
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
André Garcia Carneiro
Software Engineer
(11)982907780
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Tiago Peczenyj
IMHO vc pode sim usar regex para parserar html SE

1) a estrutura do html for porca (tipo cheio de tag q não fecha ou coisas q
não façam muito sentido)
2) a estrutura (quase) nunca mudar (e vc procura uma string X como
"APROVADO" ou "ERRO)
3) vc está desesperado

Mas para cada ponto que vc pode usar, existem muitos argumentos contra. vc
até pode usar como um complemento ao seu parser mas se basear SÓ nisso,
como criterio geral, é furada.


2013/4/3 Marcio Ferreira 

> Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem
> ser tocados:
>
> o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
> assim vc de fato se concentra no seu problema e esquece o resto.
> o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no
> seu DOM, isso é legal!
>
> NUNCA USE REGEX PRA PARSER DE HTML
>
> http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top
>
> Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus
> "findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper
> e Mojo::DOM, acho que ele ficou pra trás. =/
>
> **Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
> mesmo =P
>
>
> []s,
>
> Marcio Ferreira
> skype: marcio.ferreir4
> (21) 8365-7768
>
>
> 2013/4/3 Nuba Princigalli 
>
>>  **
>> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>>
>> Também há o HTML::TreeBuilder (mas um pouco mais complicado de
>> "gerenciar" o workflow).
>>
>>
>> Já usei e recomendo o
>> https://metacpan.org/module/HTML::TreeBuilder::XPath
>>
>> --
>> Nuba R. Princigalli n...@pauleira.com http://pauleira.com @nprincigalli
>> Discipline is not an end in itself, just a means to an end. - King Crimson
>>
>>
>> ___
>> Rio-pm mailing list
>> Rio-pm@pm.org
>> http://mail.pm.org/mailman/listinfo/rio-pm
>>
>
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
Tiago B. Peczenyj
Linux User #405772

http://about.me/peczenyj
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Andre Carneiro
Matheus


Se você for usar para parsear HTML, você pode tentar o
HTML::TreeBuilder::XPath, ou mesmo o WWW::Scraper. Ambos são excelentes! O
WWW::Scraper tem conceitos bem diferentes do HTML::TreeBuilder::XPath. Eu
recomendo que você veja os dois!

Esse assunto é bem recorrente por aqui. Se quiser, você pode entrar no site
oficial do São Paulo Perl Mongers. Se não me falhe a memória, tem tutoriais
abordando esse problema com os dois módulos que eu mencionei. O site é esse
aqui: http://sao-paulo.pm/artigos

O artigo que eu escrevi sobre isso é esse aqui:
http://sao-paulo.pm.org/artigo/2010/utilizandoxpathparacriarwebspiders

O outro eu não achei. Kd o artigo de scrapping com WWW::Scraper, pessoal?



Cheers!


2013/4/3 Matheus Lucas 

> Ola amigos !
> Esbarrei em um problema com algumas regex aqui em arquivos html e me deram
> a ideia de usar xpath para resolver. Eu nunca trabalhei com xpath e achei
> muitos modulos na cpan.
> Gostaria de saber se alguem ja trabalhou com algum modulo de xpath pra
> perl e gostaria de receber opniões que modulo é interessante, mais rapido
> de aprender e tals ? Ja vi que tem varios, mais ainda não sei qual é o
> melhor para o problema e continuo a estudar. Gradeço se alguem puder me
> orientar nisso.
> Agradeço a todos !
>
> *
> *
> *
> *
> *
> *
> **
> Matheus Lucas
> Tecnologia em Sistemas para Internet
> Viçosa-MG
>
> *"Seja livre, use Linux !"*
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>



-- 
André Garcia Carneiro
Software Engineer
(11)982907780
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Marcio Ferreira
Desculpe a pressa em responder, o e-mail anterior, alguns pontos que podem
ser tocados:

o Web::Scraper, ~força~ que vc faça a ~configuração~ da sua navegação,
assim vc de fato se concentra no seu problema e esquece o resto.
o Mojo::DOM é muito amigavel, ele cria de fato um objeto pra vc navegar no
seu DOM, isso é legal!

NUNCA USE REGEX PRA PARSER DE HTML
http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags?page=1&tab=votes#tab-top

Porque nao gosto do HTML::TreeBuilder: vc precisa fazer linha a linha seus
"findnodes" e compor seu objeto na mao, frente a soluções como Web::Scraper
e Mojo::DOM, acho que ele ficou pra trás. =/

**Quando digo HTML::TreeBuilder, me refiro ao HTML::TreeBuilder::XPath
mesmo =P

[]s,

Marcio Ferreira
skype: marcio.ferreir4
(21) 8365-7768


2013/4/3 Nuba Princigalli 

> **
> On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:
>
> Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar"
> o workflow).
>
>
> Já usei e recomendo o https://metacpan.org/module/HTML::TreeBuilder::XPath
>
> --
> Nuba R. Princigalli n...@pauleira.com http://pauleira.com @nprincigalli
> Discipline is not an end in itself, just a means to an end. - King Crimson
>
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Nuba Princigalli
On Wed, Apr 3, 2013, at 01:17 PM, Marcio Ferreira wrote:

Também há o HTML::TreeBuilder (mas um pouco mais complicado de
"gerenciar" o workflow).



Já usei e recomendo
o [1]https://metacpan.org/module/HTML::TreeBuilder::XPath



--
Nuba R. Princigalli n...@pauleira.com http://pauleira.com @nprincigalli
Discipline is not an end in itself, just a means to an end. - King
Crimson

References

1. https://metacpan.org/module/HTML::TreeBuilder::XPath
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

Re: [Rio-pm] xpath

2013-04-03 Por tôpico Marcio Ferreira
Web::Scraper e Mojo::DOM são os melhores, IMHO.
Também há o HTML::TreeBuilder (mas um pouco mais complicado de "gerenciar"
o workflow).


[]s,

Marcio Ferreira
skype: marcio.ferreir4
(21) 8365-7768


2013/4/3 Matheus Lucas 

> Ola amigos !
> Esbarrei em um problema com algumas regex aqui em arquivos html e me deram
> a ideia de usar xpath para resolver. Eu nunca trabalhei com xpath e achei
> muitos modulos na cpan.
> Gostaria de saber se alguem ja trabalhou com algum modulo de xpath pra
> perl e gostaria de receber opniões que modulo é interessante, mais rapido
> de aprender e tals ? Ja vi que tem varios, mais ainda não sei qual é o
> melhor para o problema e continuo a estudar. Gradeço se alguem puder me
> orientar nisso.
> Agradeço a todos !
>
> *
> *
> *
> *
> *
> *
> **
> Matheus Lucas
> Tecnologia em Sistemas para Internet
> Viçosa-MG
>
> *"Seja livre, use Linux !"*
>
> ___
> Rio-pm mailing list
> Rio-pm@pm.org
> http://mail.pm.org/mailman/listinfo/rio-pm
>
___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm

[Rio-pm] xpath

2013-04-03 Por tôpico Matheus Lucas
Ola amigos ! 
Esbarrei em um problema com algumas regex aqui em arquivos html e me deram a 
ideia de usar xpath para resolver. Eu nunca trabalhei com xpath e achei muitos 
modulos na cpan.
Gostaria de saber se alguem ja trabalhou com algum modulo de xpath pra perl e 
gostaria de receber opniões que modulo é interessante, mais rapido de aprender 
e tals ? Ja vi que tem varios, mais ainda não sei qual é o melhor para o 
problema e continuo a estudar. Gradeço se alguem puder me orientar nisso.
Agradeço a todos !




Matheus Lucas
Tecnologia em Sistemas para InternetViçosa-MG
"Seja livre, use Linux !"___
Rio-pm mailing list
Rio-pm@pm.org
http://mail.pm.org/mailman/listinfo/rio-pm