On 15/05/13 10:58 AM, David Hernandez wrote:
> I am using MPICH2 1.2.1
>
> The total size of the missing parts may significantly differ but there
> are some consistencies.

So the problem is reproducible ?

Is the datat public ?

>
> The size as estimated by the script is OK:
>
> Starting k-mer coverage: 50
> Ending k-mer coverage: 2000
> Average k-mer coverage: 305
> Estimated haploid genome size: 2838719
>
> David
>
>
> On 05/15/2013 04:12 PM, Sébastien Boisvert wrote:
>> [CC'ed to the list]
>>
>> Hello,
>>
>> On 14/05/13 01:18 PM, David Hernandez wrote:
>>> Bonjour Sébastien,
>>>
>>> On n'a jamais communiqué directement mais tu nous avais aidé il y a
>>> assez longtemps pour un assemblage bactérien.
>>
>> OK. I remember your name from the Edena paper which showed that
>> overlap-layout-consensus
>> works on short reads too [1].
>>
>>>
>>> Je t'écris car je teste Ray sur deux datasets de staphylocoque dorés
>>> (~2.8 Mo) avec des reads Illumina 100bp short et long paired-ends.
>>>
>>> Je fais plusieurs assemblages en faisant varier le paramètre k.
>>> Mon problème est que Ray produit des assemblages dans lesquels de
>>> grosses parties du génome manquent (jusqu'à 25%) en fonction de la
>>> valeur de k.
>>>
>>> J'arrive à trouver dans le tas un assemblage presque complet mais je me
>>> demande si j'utilise Ray correctement.
>>>
>>> voici par exemple un script que j'utilise pour lancer Ray:
>>>
>>> DATALOC=/home/david/FAS_MW2/DATA/
>>> RAYEXEC=/usr/local/share/Ray-v2.2.0/Ray
>>>
>>> mpd &
>>>
>>> for K in 41 21 25 29 33 37 45 49 53 57 61 69 73 77 81 85 89 93 97
>>> do
>>> time \
>>> mpirun -np 22 $RAYEXEC -show-memory-usage -k $K -o ray2.2.0.MW2_K$K \
>>> -p ${DATALOC}130326_SN234_M_L001_FAS-443_430bp_R1.fastq
>>> ${DATALOC}130326_SN234_M_L001_FAS-443_430bp_R2.fastq \
>>> -p ${DATALOC}130326_SN234_M_L001_FAS-445_4.2kb.R1.fastq
>>> ${DATALOC}130326_SN234_M_L001_FAS-445_4.2kb.R2.fastq 4171 524 \
>>> -p ${DATALOC}130326_SN234_M_L001_FAS-446_5.5kb.R1.fastq
>>> ${DATALOC}130326_SN234_M_L001_FAS-446_5.5kb.R2.fastq 5550 787 \
>>>    > logRayMW2i$K
>>> done
>>>
>>> Est-ce que j'oublie quelque chose ?
>>
>> Which MPI library are you using ?
>>
>>>
>>> J'ai également fait des essais avec l'option -use-minimum-seed-coverage,
>>> ou en reverse-complémentant les long-paired-ends (pour les orienter
>>> comme les courts) mais ça n'est pas mieux.
>>>
>>> Je joins à cet email un des logs d’exécutions. Tu y remarqueras que la
>>> longueur totale assemblée est de 2320832 alors qu'on devrait être plutot
>>> autour de 2.8 Mo).
>>>
>>> Je ne te cache pas que c'est pour une publi, et que c'est relativement
>>> urgent...
>>>
>>
>> So is the part missing consistentely in every assembly ?
>>
>>
>>
>> Can you try the following script on your CoverageDistribution.txt file ?
>>
>>
>> https://github.com/sebhtml/NGS-Pipelines/blob/master/Calculate-Genome-Size.py
>>
>>
>>
>> (You can get a copy of this tool with "git clone
>> git://github.com/sebhtml/NGS-Pipelines.git").
>>
>>
>> This will estimate the genome size using kmer frequencies. It is quite
>> accurate.
>>
>>
>>
>> Otherwise, this is a typical use case for Ray Cloud Browser to help
>> understand what is going on.
>>
>> See:
>>
>> http://browser.cloud.raytrek.com/client/?map=3&section=0&region=9&location=0&depth=10&zoom=1.2255452109421872
>>
>>
>>
>> ---
>> [1] http://genome.cshlp.org/content/18/5/802.long
>>
>>
>>> Merci d'avance pour tes conseils,
>>> David
>>>
>


------------------------------------------------------------------------------
Try New Relic Now & We'll Send You this Cool Shirt
New Relic is the only SaaS-based application performance monitoring service 
that delivers powerful full stack analytics. Optimize and monitor your
browser, app, & servers with just a few lines of code. Try New Relic
and get this awesome Nerd Life shirt! http://p.sf.net/sfu/newrelic_d2d_may
_______________________________________________
Denovoassembler-users mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/denovoassembler-users

Reply via email to