2011/8/1 Stanislaw Pusep <[email protected]> > Sim, seria um node para cada char, no caso ideal; e, para piorar: não > seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça: > ao invés de fazer scrappers individuais para os sites, fazer um > "destemplatizador", um programa que percorre sites relativamente grandes > (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente. > Um algoritmo bacana é implementado via Tree::Suffix ( > http://en.wikipedia.org/wiki/Longest_common_substring_problem), mas é > impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(
Hum... então o que você quer não é o Longest Common Substring, é o Longest Common Subsequence então :) Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem [ ]'s -- Bruno C. Buss http://brunobuss.wordpress.com/ http://www.dcc.ufrj.br/~brunobuss/
=begin disclaimer Sao Paulo Perl Mongers: http://sao-paulo.pm.org/ SaoPaulo-pm mailing list: [email protected] L<http://mail.pm.org/mailman/listinfo/saopaulo-pm> =end disclaimer
