Andre, você está certo, automatizar scrapers a este nível é um tiro no pé... Mas você errou a causa: garanto que essa abordagem "automática" depende muito mais de uma "babá" do que o jeito tradicional, pelo simples fato de estar adentrando o território do desconhecido (quantos "frameworks de scrapers" existem? e "frameworks de untemplatization"? :) Bruno, tanto LCS quanto LCSS fazem comparação de 2 em 2, certo? Ao menos, pela implementação "naive", que monta uma matriz... Já pelo conceito do Generalised suffix tree, daria para "comparar" 3 ou mais, não?
ABS() 2011/8/1 Bruno Buss <[email protected]> > 2011/8/1 Stanislaw Pusep <[email protected]> > >> Sim, seria um node para cada char, no caso ideal; e, para piorar: não >> seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça: >> ao invés de fazer scrappers individuais para os sites, fazer um >> "destemplatizador", um programa que percorre sites relativamente grandes >> (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente. >> Um algoritmo bacana é implementado via Tree::Suffix ( >> http://en.wikipedia.org/wiki/Longest_common_substring_problem), mas é >> impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :( > > > Hum... então o que você quer não é o Longest Common Substring, é o Longest > Common Subsequence então :) > Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P > > > https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem > > [ ]'s > -- > Bruno C. Buss > http://brunobuss.wordpress.com/ > http://www.dcc.ufrj.br/~brunobuss/ > > =begin disclaimer > Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ > SaoPaulo-pm mailing list: [email protected] > L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> > =end disclaimer > >
=begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer
