assemblage adaptatif de génomes et de méta-génomes par ... · maxime boissonneault louis demers...
TRANSCRIPT
1
Assemblage adaptatif de génomes et de méta-génomes par
passage de messages
Sébastien Boisvert
Soutenance de thèse de doctoratExposé: 20 minutes
Jeudi le 10 avril 2014 à 10:00Local VND-2770, Pavillon Ferdinand-Vandry
Université Lavalhttp://boisvert.info/soutenance/
2
Exposé
● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner
3
Sujet de recherche
● Génomique● Passage de messages● Assemblage de novo de génomes et de méta-
génomes
ATCGATCAGCATCAGTAC
4
Pour mieux comprendre un phénomène, il faut des données
● Avec des données, des analyses sont faites pour prendre des décisions
● Beaucoup de données en génomique● La génomique aide pour les décisions en santé,
environnement, agroalimentaire, sécurité
5
Pourquoi lire l'ADN ?
● L'ADN contient les gènes, lesquels codent pour les protéines qui font fonctionner les êtres vivants
● Mieux comprendre l'architecture de l'ADN
6
Séquençage de l'ADN
Fig. 1 Nature Biotechnology 26, 1135 - 1145 (2008)
7Metzker, M. L. Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46 (2010).
Séquencer en parallèle
8
Limitations du séquençage de l'ADN
● La longueur de l'ADN lu est petite (Illumina: 100 – 250 nt)
● Pacific Biosciences: > 10 kb (PAG 2013)
Huddleston, J. et al. Reconstructing complex regions of genomes using long-read sequencing technology. Genome Research 24, gr.168450.113-696 (2014).
Loman, N. J. et al. High-throughput bacterial genome sequencing: an embarrassment of choice, a world of opportunity. Nature Reviews Microbiology 10, 599-606 (2012).
génome
Fragments séquencés
9
Séquences en paire
● L'ADN est fragmenté● Les deux extrémités de chaque fragment sont
séquencés
Chaisson, M. J., Brinza, D. & Pevzner, P. A. De novo fragment assembly with short mate-paired reads: Does the read length matter? Genome Research 19, 336-346 (2009).
Korbel, J. O. et al. Paired-end mapping reveals extensive structural variation in the human genome. Science 318, 420-426 (2007).
Génome
FragmentSéquence 1
Séquence 2
10
Métagénomique
● 99.8% des microbes ne sont pas cultivables
Streit, W. R. & Schmitz, R. A. Metagenomics – the key to the uncultured microbes. Current Opinion in Microbiology 7, 492-498 (2004).
11
Métagénomique
● Les bactéries de communautés complexes sont difficiles à cultiver / non-cultivables
● Métagénomique: séquençage direct de l'ADN de microorganismes non-cultivés
● Pas de bias de culture
Handelsman, J. (2004, December). Metagenomics: Application of genomics to uncultured microorganisms. Microbiology and Molecular Biology Reviews 68 (4), 669-685.
Handelsman et al. (Oct 1998) Chemistry & Biology 5 (10).
12
Métagénomique
● Métagénome: plusieurs génomes● Exemples:● Séquencer l'ADN provenant d'un biofermenteur● Séquencer l'ADN provenant des selles d'un
humain
The microbiome explored: recent insights and future challenges. Blaser, Bork, Fraser, Knight & Wang Nature Reviews Microbiology 11, 213-217 (March 2013)
13
Microbiome avec des sondes nucléotidiques
Figure 2, Handelsman (2004) Microbiology and Molecular Biology Reviews 68 (4), 669-685.
14
Superordinateurs
● Superordinateurs ● Logiciels spécialisés nécessaires
Afuah, A. N. and J. M. Utterback (1991, December). The emergence of a new supercomputer architecture. Technological Forecasting and Social Change 40 (4), 315-328.
Ordinateur 1 Ordinateur 2
Ordinateur 3 Ordinateur 4
15
Tendance
● besoin de logiciels parallèles / distribués pour analyser les données de séquençage avec les superordinateurs
Pollack, A. (2011). DNA sequencing caught in deluge of data. New York Times 1.
Baker, M. (2010, July). Next-generation sequencing: adjusting to data overload. Nature Methods 7 (7), 495-499.
Trelles, O., P. Prins, M. Snir, and R. C. Jansen (2011, February). Big data, but are we ready? Nature Reviews Genetics 12 (3), 224.
(2013, October). In need of an upgrade. Nature Biotechnology 31 (10), 857.
McPherson, J. D. (2009, November). Next-generation gap. Nature Methods 6 (11 Suppl), S2-S5.
Mardis, E. (2010). The $1,000 genome, the $100,000 analysis? Genome Medicine 2 (11), 84+.
16License: AttributionNoncommercialNo Derivative Works Some rights reserved by flickr/jugbo
Assemblage de novo
Pop, M. Genome assembly reborn: recent computational challenges. Brief Bioinform 10, 354-366 (2009).
17
À quoi sert l'assemblage ?
● L'ADN est fragmenté avant d'être lu● L'assemblage construit des longues séquences
à partir des courts fragments
Fragments séquencés
Génome
Assemblage
18
Exposé
● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner
19
Problèmes que je voulais résoudre
● Assembler des génomes en utilisant plusieurs technologies de séquençage de l'ADN (exactitude)
● Assembler des métagénomes (beaucoup de données) en utilisant des superordinateurs
● Visualiser la structure topologique de génomes et de métagénomes
20
Exposé
● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner
21
Représenter les séquences d'ADN
● Comment peut-on représenter les séquences d'ADN ?
Flicek, P. & Birney, E. Sense from sequence reads: methods for alignment and assembly. Nature Methods 6, S6-S12 (2009).
22
Graphes dirigés
● Graphe G avec sommets V et arcs E
a
b
c
de
f
g
Bondy, J. A. Graph Theory With Applications (Elsevier Science Ltd, 1976).
23
Graphe de de Bruijn d'ADN
● Alphabet: {A, T, C, G}● Nombre entier k● Sommets: mots de longueur k avec A, T, C, G● Arcs: chevauchements de k – 1● Exemple (k = 9):
ATGCATCAG -> TGCATCAGT● Bijection entre séquences et chemins dans le
graphe
Zerbino, D. R. Genome assembly and comparison using de Bruijn graphs. Ph.D. thesis, University of Cambridge (2009).
24
Méthode pour gérer beaucoup de données
● Peut-on découper le graphe en morceaux et le distribuer sur des centaines d'ordinateurs ?
25
Interface de passage de messages
● Message: information échangée entre des acteurs
● MPI: Message Passing Interface● Une interface pour créer des logiciels
massivement distribués
Message Passing Interface Forum, MPI: A Message-Passing interface standard version 3.0 (2012).
ATCGATCAGCATCAGTAC
26
Interface de passage de messages
● Principalement la communication point à point pour distribuer le graphe
ATCGATCAGCATCAGTAC
27
Solutions aux problèmes présentés
● RayPlatform: plateforme pour abstraire la complexité
● Solutions implémentées dans Ray● C++, interface de passage de messages (MPI),
graphe de de Bruijn
28
RayPlatform
29
Exposé
● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner
30
● Problème: Assembler des génomes en utilisant plusieurs technologies de séquençage de l'ADN
31
Idée originale
● Utiliser plusieurs technologies de séquençage de l'ADN en même temps
● En 2010, Roche offrait la technologie 454 et Illumina ne dominait pas autant
Boisvert, S., F. Laviolette, and J. Corbeil (2010, November). Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies. Journal of Computational Biology 17 (11), 1519-1533.
32
Distribution de la couverture
Boisvert et al. 2010 Journal of Computational Biology 17 (11), 1519-1533.
33
● Problème: Assembler des métagénomes (beaucoup de données) en utilisant des superordinateurs
Boisvert, S., Raymond, F., Godzaridis, E., Laviolette, F. & Corbeil, J. Ray meta: scalable de novo metagenome assembly and profiling. Genome Biology 13, R122+ (2012).
34
Proportions assemblées de génomes bactériens dans un
métagénome
1000 génomes bactériens, loi de puissance3*10^9 readsErreurs simulées
Bonne proportion des génomes assemblés
Figure 1, Boisvert et al. 2012 Genome Biology
Fiabilité: 1.3 % des contigs ont une erreur
35
Graphe de de Bruijn colorié
● Ajout d'étiquettes sur les sommets● Permet d'énumérer les génomes qui
contiennent un k-mer donné● Engin de détection sensible et spécifique
Boisvert, S., Raymond, F., Godzaridis, E., Laviolette, F. & Corbeil, J. Ray meta: scalable de novo metagenome assembly and profiling. Genome Biology 13, R122+ (2012).
36
Proportions estimées pour les génomes
● Avec les k-mers uniquement coloriés
A: métagénome avec 100 génomes
B: métagénome avec 1000 génomes
Figure 2, Boisvert et al. 2012 Genome Biology
37
Le test des entérotypes
● Peut-on reproduire les entérotypes avec des k-mers plutôt que des alignements ?
● 3 entérotypes:
● 2 entérotypes:
Arumugam, M. (...) and P. Bork (2011, April). Enterotypes of the human gut microbiome. Nature 473 (7346), 174-180.
Wu, G. D. (...) and J. D. Lewis (2011, October). Linking long-term dietary patterns with gut microbial enterotypes. Science (New York, N.Y.) 334 (6052), 105-108.
38
2 entérotypes avec les k-mers
● Données: Qin et al. 2010 Nature (MetaHIT)
Figure 4, Boisvert et al. 2012 Genome Biology
39
● Problème: Visualiser la structure topologique de métagénomes
● Bulles (variation génétique), impasses, branchements (répétitions)
● Pour améliorer les assemblages
40
Visualisation
● La visualisation de graphes de de Bruijn peut aider à découvrir des structures topologiques dans l'ADN de métagénomes
● Déboguer les assemblages et assembleurs● Analogie: une image du problème assiste pour
le diagnostic
42
Régions répétées (Ray Cloud Browser)
43Barnes, J. and P. Hut (1986, December). A hierarchical O(N log n) force-calculation algorithm. Nature 324 (6096), 446-449.
Algorithme Barnes-Hut de disposition
44
Onodera, T., K. Sadakane, and T. Shibuya (2013). Detecting superbubbles in assembly graphs. In A. Darling and J. Stoye (Eds.), Algorithms in Bioinformatics, Volume 8126 of Lecture Notes in Computer Science, pp. 338-348. Springer Berlin Heidelberg.
Bulles dans le graphe
45
Interface interactive
46
Vue à vol d'oiseau de l'ADN
47
Boule d'ADN dans le graphe
Howe, A. C., J. Pell, R. Canino-Koning, R. Mackelprang, S. Tringe, J. Jansson, J. M. Tiedje, and C. T. Brown (2012, December). Illumina sequencing artifacts revealed by connectivity analysis of metagenomic datasets.
48
49
50
51
Conclusions
● Le passage de messages est une excellente abstraction pour créer des logiciels parallèles
● Le graphe de de Bruijn est une structure de données adéquate pour l'assemblage de novo distribué
● Le logiciel libre Ray implémente ces méthodes scientifiques pour l'assemblage de novo de génomes et de méta-génomes
52
Exposé
● Sujet de recherche● Problèmes que je voulais résoudre● Méthodologie de recherche● Conclusions● Suites à donner
53
Suites à donner
● Graphe de de Bruijn sur les protéines (espace des acides aminés)
● Gérer les mésappariements dans les k-mers● Comparer beaucoup d'échantillons rapidement
avec un graphe de de Bruijn colorié (Ray Surveyor)
● Explorer le modèle des acteurs pour la génomique
54
Questions du jury
55
Démo Ray Cloud Browser
● http://ray-cloud-browser.genap.ca/client
56
Quelques modèles possibles
Dean, J. & Ghemawat, S. MapReduce: Simplified data processing on large clusters. Commun. ACM 51, 107-113 (2008).
Gropp, W., Lusk, E. & Skjellum, A. Using MPI: Portable Parallel Programming with the Message Passing Interface. (MIT Press, 1994).
Agha, G. Actors: a model of concurrent computation in distributed systems (MIT Press, Cambridge, MA, USA, 1986).
Sunderam, V. S. PVM: A framework for parallel distributed computing. Concurrency: Pract. Exper. 2, 315-339 (1990).
MPI: Message Passing Interface / Interface de passage de messages
PVM: Portable virtual machines / Machines virtuelles portables
MapReduce ne permet pas la communication entre les sous-tâches
Modèle plutôt théorique
57
Remerciements
58
Remerciements
Jacques Corbeil
François Laviolette
Mario Marchand
59
Conjointe, famille
● Jocelyne, Roger● Liane
Élénie Maxime, Karine
60
Merci aux examinateurs
● Guillaume Bourque● Jacques Corbeil● André Darveau● François Laviolette● Sylvain Moineau
61
Faculté de médecine
● Directrice du programme de Physiologie-endocrinologie:Francine Durocher
● Agente de gestion des études: Chantal Joubert
62
63
Financement (maîtrise et doctorat)
● Instituts de recherche en santé du Canada (IRSC)
● Bourse d'études supérieures du Canada F. Banting et C. Best - Bourse au doctorat
● Bourse d'études supérieures du Canada F. Banting et C. Best - Bourse à la maîtrise
64
Équipe Corbeil
● Francis Brochu
● Jacques Corbeil
● Maxime Déraspe
● Marc-Alexandre Nolin
● Pier-Luc Plante
● Frédéric Raymond
● Lynda Robitaille
● Mélissa Sirois
● Thibault Varin
Équipe Ouellette
● Adriano Coelho
● Hélène Gingras
● Philippe Leprohon
● Angana Mukherjee
● Marc Ouellette
CHU de Québec
Équipe Bergeron
● Michel G. Bergeron
● Karel Boissinot
● Maurice Boissinot
65
CHU de QuébecÉquipe Tremblay
● Joël Rousseau
● Jacques P. Tremblay
Équipe Droit
● Arnaud Droit
● Frédéric Fournier
● Charles Joly-Beauparlant
● René Paradis
Équipe Papadoupoulou
● Barbara Papadoupoulou
● Catherine Jarry
● Pierre Provencher
Équipe Boivin
● Guy Boivin
● Marie-Ève Hamelin
66
Département d'informatique et de génie logiciel / GRAAL
● Alexandre Drouin● Mathieu Dumoulin● Pascal Germain● Sébastien Giguère● Alexandre Lacoste● François Laviolette● Mario Marchand● Amélie Rolland● Jean-Francis Roy● Dany Vohl
67
Calcul Canada
Équipe colosse
● Maxime Boissonneault
● Louis Demers
● Jean-Philippe Dionne
● Laurent Duschene
● Jean-Sébastien Landry
● Frederick Lefebvre
● Florent Parent
● Marc Parizeau
Équipe Mammouth Parallèle II● Michel Barette● Carol Gauthier● Minh-Nghia Nguyen● Alain Veilleux
SciNet
● Jonathan Dursi
● Daniel Gruner
● Chris Loken
● Ramses van Zon
68
Cray Inc.
● Steve Behling● Mikhail Kandel● Bill Long● Claude Paquette● Carlos P. Sosa
69
Calcul Québec (mp2)
70
Argonne (Mira)
71Rick L. Stevens
72
FIN