Re: [SP-pm] Bioinformática e Sequenciamento [Was: ordenando arquivos.]

Bruno Buss Mon, 01 Aug 2011 12:56:05 -0700

2011/8/1 Stanislaw Pusep <[email protected]>

> Sim, seria um node para cada char, no caso ideal; e, para piorar: não
> seriam apenas 3 strings, mas sim N strings. A ideia é o cúmulo da preguiça:
> ao invés de fazer scrappers individuais para os sites, fazer um
> "destemplatizador", um programa que percorre sites relativamente grandes
> (>1K páginas) e descobre o que é forma e o que é conteúdo, automaticamente.
> Um algoritmo bacana é implementado via Tree::Suffix (
> http://en.wikipedia.org/wiki/Longest_common_substring_problem), mas é
> impraticável, para esta aplicação, em qqer coisa abaixo do Blue Gene :(



Hum... então o que você quer não é o Longest Common Substring, é o Longest
Common Subsequence então :)
Pena que ele é NP-Hard :( e bem conhecido do pessoal de bioinfo :P

https://secure.wikimedia.org/wikipedia/en/wiki/Longest_common_subsequence_problem

[ ]'s
-- 
Bruno C. Buss
http://brunobuss.wordpress.com/
http://www.dcc.ufrj.br/~brunobuss/

=begin disclaimer
   Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
 SaoPaulo-pm mailing list: [email protected]
 L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer

Re: [SP-pm] Bioinformática e Sequenciamento [Was: ordenando arquivos.]

Responder a