[CC'ed to the list]
Hello,
On 14/05/13 01:18 PM, David Hernandez wrote:
> Bonjour Sébastien,
>
> On n'a jamais communiqué directement mais tu nous avais aidé il y a
> assez longtemps pour un assemblage bactérien.
OK. I remember your name from the Edena paper which showed that
overlap-layout-consensus
works on short reads too [1].
>
> Je t'écris car je teste Ray sur deux datasets de staphylocoque dorés
> (~2.8 Mo) avec des reads Illumina 100bp short et long paired-ends.
>
> Je fais plusieurs assemblages en faisant varier le paramètre k.
> Mon problème est que Ray produit des assemblages dans lesquels de
> grosses parties du génome manquent (jusqu'à 25%) en fonction de la
> valeur de k.
>
> J'arrive à trouver dans le tas un assemblage presque complet mais je me
> demande si j'utilise Ray correctement.
>
> voici par exemple un script que j'utilise pour lancer Ray:
>
> DATALOC=/home/david/FAS_MW2/DATA/
> RAYEXEC=/usr/local/share/Ray-v2.2.0/Ray
>
> mpd &
>
> for K in 41 21 25 29 33 37 45 49 53 57 61 69 73 77 81 85 89 93 97
> do
> time \
> mpirun -np 22 $RAYEXEC -show-memory-usage -k $K -o ray2.2.0.MW2_K$K \
> -p ${DATALOC}130326_SN234_M_L001_FAS-443_430bp_R1.fastq
> ${DATALOC}130326_SN234_M_L001_FAS-443_430bp_R2.fastq \
> -p ${DATALOC}130326_SN234_M_L001_FAS-445_4.2kb.R1.fastq
> ${DATALOC}130326_SN234_M_L001_FAS-445_4.2kb.R2.fastq 4171 524 \
> -p ${DATALOC}130326_SN234_M_L001_FAS-446_5.5kb.R1.fastq
> ${DATALOC}130326_SN234_M_L001_FAS-446_5.5kb.R2.fastq 5550 787 \
> > logRayMW2i$K
> done
>
> Est-ce que j'oublie quelque chose ?
Which MPI library are you using ?
>
> J'ai également fait des essais avec l'option -use-minimum-seed-coverage,
> ou en reverse-complémentant les long-paired-ends (pour les orienter
> comme les courts) mais ça n'est pas mieux.
>
> Je joins à cet email un des logs d’exécutions. Tu y remarqueras que la
> longueur totale assemblée est de 2320832 alors qu'on devrait être plutot
> autour de 2.8 Mo).
>
> Je ne te cache pas que c'est pour une publi, et que c'est relativement
> urgent...
>
So is the part missing consistentely in every assembly ?
Can you try the following script on your CoverageDistribution.txt file ?
https://github.com/sebhtml/NGS-Pipelines/blob/master/Calculate-Genome-Size.py
(You can get a copy of this tool with "git clone
git://github.com/sebhtml/NGS-Pipelines.git").
This will estimate the genome size using kmer frequencies. It is quite accurate.
Otherwise, this is a typical use case for Ray Cloud Browser to help understand
what is going on.
See:
http://browser.cloud.raytrek.com/client/?map=3§ion=0®ion=9&location=0&depth=10&zoom=1.2255452109421872
---
[1] http://genome.cshlp.org/content/18/5/802.long
> Merci d'avance pour tes conseils,
> David
>
------------------------------------------------------------------------------
AlienVault Unified Security Management (USM) platform delivers complete
security visibility with the essential security capabilities. Easily and
efficiently configure, manage, and operate all of your security controls
from a single console and one unified framework. Download a free trial.
http://p.sf.net/sfu/alienvault_d2d
_______________________________________________
Denovoassembler-users mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/denovoassembler-users