Andre, você está certo, automatizar scrapers a este nível é um tiro no pé...
Mas você errou a causa: garanto que essa abordagem "automática" depende
muito mais de uma "babá" do que o jeito tradicional, pelo simples fato de
estar adentrando o território do desconhecido (quantos "frameworks de
scrapers" existem? e "frameworks de untemplatization"? :)
Bruno, tanto LCS quanto LCSS fazem comparação de 2 em 2, certo? Ao menos,
pela implementação "naive", que monta uma matriz... Já pelo conceito
do Generalised suffix tree, daria para "comparar" 3 ou mais, não?

ABS()



2011/8/1 Bruno Buss <[email protected]>

> 2011/8/1 Stanislaw Pusep <[email protected]>
>
>> Sim, seria um node para cada char, no caso ideal; e, para piorar: não
>> seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça:
>> ao invés de fazer scrappers individuais para os sites, fazer um
>> "destemplatizador", um programa que percorre sites relativamente grandes
>> (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente.
>> Um algoritmo bacana é implementado via Tree::Suffix (
>> http://en.wikipedia.org/wiki/Longest_common_substring_problem), mas é
>> impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(
>
>
> Hum... então o que você quer não é o Longest Common Substring, é o Longest
> Common Subsequence então :)
> Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P
>
>
> https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem
>
> [ ]'s
> --
> Bruno C. Buss
> http://brunobuss.wordpress.com/
> http://www.dcc.ufrj.br/~brunobuss/
>
> =begin disclaimer
>   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
>  SaoPaulo-pm mailing list: [email protected]
>  L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
> =end disclaimer
>
>
=begin disclaimer
   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
 SaoPaulo-pm mailing list: [email protected]
 L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer

Responder a