2011/7/28 Bruno Buss <[email protected]>
>
> Só de curiosidade, como vocês fazem a contagem de overlaps após terem as
> sequências ordenadas?
> (Eu não trabalho nem nunca estudei isso em específico, então desculpa se
> for uma pergunta besta :)
>
Bem existem várias maneiras de fazer isso.
Já vi gente indo na força bruta. Ao invés de fazer o sort no arquivo de
alinhamento, eles criam um arquivo
para cada cromossomo com cada coordenada repetida e fazem o sort nesse
arquivo.
Por exemplo, o arquivo de alinhamento é assim:
#chromossomo #start #end
chr1 1 5
chr1 3 8
Esse arquivo pode ser representado graficamente assim:
chr1:
linha1: -----
linha2: -----
Eles criam um arquivo chr1.txt com uma coluna com todas as posições que o
arquivo de alinhamento mostra:
chr1.txt:
# 1 até 5
1
2
3
4
5
# 3 até 8
3
4
5
6
7
8
Fazendo o sort desse arquivo temos:
chr1.txt.sorted
1
2
3
3
4
4
5
5
6
7
8
Parseando chr1.txt.sorted com um script em perl e contanto o que é repetida
podemos fazer a cobertura de cada posição:
1 -> 1
2 -> 1
3 -> 2
4 -> 2
5 -> 2
6 -> 1
7 -> 1
8 -> 1
Eu uso uma estratégia diferente. Vou explicar num outro e-mail, pois tenho
que sair agora.
[ ]'s
/ Thiago Yukio Kikuchi Oliveira
(=\
\=) Faculdade de Medicina de Ribeirão Preto
/ Laboratório de Genética Molecular e Bioinformática
/=) -----------------------------------------------------------------
(=/ Centro de Terapia Celular/CEPID/FAPESP - Hemocentro de Rib. Preto
/ Rua Tenente Catão Roxo, 2501 CEP 14151-140
(=\ Ribeirão Preto - São Paulo
\=) Fone: 55 16 2101-9300 Ramal: 9603
/ E-mail: [email protected]
/=) [email protected]
(=/
/ Bioinformatic Team - BiT: http://lgmb.fmrp.usp.br
(=\ Hemocentro de Ribeirão Preto: http://pegasus.fmrp.usp.br
\=)
/ -----------------------------------------------------------------
=begin disclaimer
Sao Paulo Perl Mongers: http://sao-paulo.pm.org/
SaoPaulo-pm mailing list: [email protected]
L<http://mail.pm.org/mailman/listinfo/saopaulo-pm>
=end disclaimer