utilisation du séquençage nouvelle génération pour le...
TRANSCRIPT
![Page 1: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/1.jpg)
Pôle de Biologie Médicale et Pathologie (Dr M. VAUBOURDOLLE)
Département de Génétique Médicale (Pr J.P. SIFFROI) UF de Génétique Moléculaire (Pr S. AMSELEM)
Site Trousseau
Utilisation du séquençage nouvelle génération pour le diagnostic des maladies rares
Bruno Copin Bioinformaticien
![Page 2: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/2.jpg)
Fichiers de sortie des séquenceurs :
• Images (photos), logs …
• Fastq : @HWI-ST278R:335:C16J4ACXX:4:1101:1729:2093 1:N:0:CTTGTA
GAGGACTTCAGTGAGTAGGGCGTGAGAGGGAGGTAGGGTAAGTTGGACTGACCAGGGTCTGAGATCTAACTCAAGT
+
@@@DDDDDHFHBFEF<AFEH@G2@)8?EHIIII)?GGI9?;F8<CGCHC@D)=@EHHA=EC;BBBDDDCCCCAAC#
@HWI-ST278R:335:C16J4ACXX:4:1101:1920:2095 1:N:0:CTTGTA
AAGAAGGGGACTTCAAAAATATGCTTCGGTTAAAAGAACTGGGAATCAACAATATGTGCGAGCTCGTTTCTGTCGC
+
@@?DD>DDFHFFDIIH9FFHIICH?<FHG:DGIG4:?DGB?9@GGIHGBDCFG9F>.=@BA<B<BD31;ACC@C?#
• VCF (variant calling format):
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
• BAM (binaire d’un SAM - Sequence Alignment/Map)
Analyse bioinformatique
![Page 3: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/3.jpg)
Contrôles de qualité
Analyse bioinformatique
• La représentation des échantillons sur la flow cell doit être la plus homogène possible
=> Vu directement sur le séquenceur
• Si un échantillon est sous ou sur représenté, il faut contrôler les données avec un outil comme fastqc
![Page 4: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/4.jpg)
Buts :
• Avoir un système automatique, de la génération des fichiers « bruts » de
NGS (multiplateformes – Illumina) avec une interface unique
• Collecter tous les variants de toutes les études dans des bases de données
• Analyser depuis son poste de travail (restriction, être sur le réseau de
l’hôpital)
• Pouvoir enregistrer des annotations non disponibles automatiquement ainsi
que des commentaires récupérables ultérieurement pour d’autres ADNs.
Analyse bioinformatique
![Page 5: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/5.jpg)
fastqToVcf.pl Génération de 250 GO de fichiers par Id
Insert_VCF4.pl
ADN_L001_R(1/2)_001.fastq.gz
(5GO chacun)
Insertion dans la base des 3 fichiers annotés de façon indirecte Création de table de hachage (Une table de hachage est, en informatique, une structure de données qui permet une
association clé-élément, c'est-à-dire une implémentation du type abstrait tableau associatif) pour un gain de temps. L’insertion est réalisée de façon à utiliser un maximum de processeurs de libres
Analyse bioinformatique
![Page 6: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/6.jpg)
Table ADN ~80 colonnes
• Sha (concaténation
Chr_Start_End_Ref_Alt =>clé primaire)
• Chr
• Start
• End
• Ref
• Alt
• FuncGene
• GeneName
• ExonicFunGene
• AaChange
• dbSnp132
• ScoreTFBSconsSite
• FTrans
• ScoreTargetScans
• CibleTargetScans
• WgRNA
• PhastConsElements46wayScore
• PhastConsElements46wayLod
• GenomicSuperDupsScore
• GenomicSuperDupsPos
• DGV
• gwasCatalog
• MafEvs
• Maf1kgAll
• Maf1kgAfr
• Maf1kgAmr
• Maf1kgAsn
• Maf1kgEur
• Sift-LJB2
• Polyphen2-HDIV-LJB2
• Pp2-Hdiv-Pred-LJB2
• PolyPhen2-Hvar-LJB2
• PolyPhen2_HVAR_Pred-LJB2
• LRT-LJB2
• LRT_Pred-LJB2
• MutationTaster-LJB2
• MutationTaster-Pred-LJB2
• MutationAssessor-LJB2
• MutationAssessor-Pred-LJB2
• FATHMM-LJB2
• GERP-LJB2
• PhyloP-LJB2
• SiPhy-LJB2
• Genotype-Bowtie2
• Qual-Bowtie2
• DPused-Bowtie2
• INDEL-Bowtie2
• DP-Bowtie2
• VDB-Bowtie2
• AF1-Bowtie2
• AC1-Bowtie2
• DP4-Bowtie2
• MQ-Bowtie2
• FQ-Bowtie2
• PV4-Bowtie2
• BiasStrand-Bowtie2
• BiasBaseQ
• BiasMapQ
• BiasTail
• Genotype-Bwa
• Qualx-Bwa
• DPused-Bwa
• Qual-Bwa
• AF-Bwa
• AN-Bwa
• DB-Bwa
• DP-Bwa
• DS-Bwa
• Dels-Bwa
• HRun-Bwa
• FS-Bwa
• Haplotype-Bwa
• MLEAC-Bwa
• MLEAF-Bwa
• MQ-Bwa
• MQ0-Bwa
• QD-Bwa
• BiasStrand-Bwa
• VQSLOD-Bwa
• INDEL-Bwa
• HOMLEN
• HOMSEQ
• SVLEN
• SVTYPE
• NTLEN
• DP-Pindel
• date dateTIME
• Val1
• Val2
• Val3
• Val4
• dateValidation
Analyse bioinformatique
![Page 7: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/7.jpg)
Table AllVariants (concaténation de tables par Chromosome)
• Sha (concaténation Chr_Start_End_Ref_Alt =>clé primaire) • Chr • Start • End • Ref • Alt • Het nbre d’ADN hétérozygotes pour la variation • Hom • Het_ADN N° ADN htz pour la variation • Hom_ADN • Date (timestamp) • Commentaire • Date commentaire
Analyse bioinformatique
![Page 8: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/8.jpg)
Mise à disposition des données pour annotations manuelles et classement des variants
Analyse bioinformatique
![Page 9: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/9.jpg)
Sélection d’un ADN pour un gène
Analyse bioinformatique
![Page 10: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/10.jpg)
Analyse bioinformatique
Maf1kGAll Status Variant
Commentaire Variant
Validation technicien
Validation Ingénieur
Validation Biologiste
junior
Validation Biologiste
senior
0.0005 Pathogenic 5 MLG: p.Glu29*, décrit plusieurs
familles Kott et al.
Phil 01-01-2015 15:03:22
Marie 04-01-2015 15:03:22
Marie 04-01-2015 15:03:22
0.09 Guy 02-01-2015 15:03:22
Flo 03-01-2015 15:03:22
Marie 04-01-2015 15:03:22
Marie 04-01-2015 15:03:22
0.83
5 pathogenic
4 likely patho
3 VOUS
2 Likely benign
1 benign
0 artefact
![Page 11: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/11.jpg)
Visualisation des données d’un variant 1/3
Analyse bioinformatique
![Page 12: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/12.jpg)
Analyse bioinformatique Visualisation des données d’un variant 2/3
![Page 13: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/13.jpg)
Analyse bioinformatique Visualisation des données d’un variant 3/3
![Page 14: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/14.jpg)
Synthèse de l’analyse
Un tableau regroupant les variants classés est créé suivant les règles actuelles : 5 pathogène sûr 4 pathogène probable 3 variants de signification inconnue 2 polymorphisme probable 1 polymorphisme sûr
Analyse bioinformatique
![Page 15: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/15.jpg)
Outils utilisés
BWA (Burrows-Wheeler Aligner Li H. and Durbin R. (2009) Bioinformatics, 25:1754-60)
Bowtie2 ( Langmead B, Salzberg S. Nature Methods. 2012, 9:357-359. Johns Hopkins University)
GATK (The Genome Analysis Toolkit McKenna A, et al.(2010). . Genome Res. 20:1297-303. Broad Institute)
Picard & SAMtools, Projets opensource (Li H.*, Handsaker B.*, Wysoker A., Fennell T., Ruan J., Homer N., Marth G.,
Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup (2009) The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics, 25, 2078-9)
Annovar (Wang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of genetic variants from next-generation sequencing data Nucleic Acids Research, 38:e164, 2010)
Pindel (Ye K, Schulz MH, Long Q, Apweiler R, Ning Z. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics. 2009 Nov 1;25(21):2865-71. Epub 2009 Jun 26.)
MySql Apache PHP PERL
Analyse bioinformatique
![Page 16: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/16.jpg)
Plateforme Bioinformatique IDF-Seq IT
![Page 17: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/17.jpg)
Depuis mi-2016, la plateforme bioinformatique propose l’infrastructure, les outils et l’expertise permettant:
• Le stockage des données de génomique NGS produites au niveau des 12 GH de l’AP-HP
• Leur analyse dans le cadre de processus maitrisés et normalisés
• L’exploitation et le partage des résultats
• La création et l’animation d'une communauté bioinformatique
• Le support technique et scientifique, la formation
• La veille technologique en bioinformatique
Contact [email protected]
Localisation
Campus Picpus, 33 bd Picpus, 75012 Paris 6ème étage, Bureau 607
Missions de la plateforme de bioinformatique
![Page 18: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/18.jpg)
MERCI pour votre attention !!
Analyse bioinformatique
![Page 19: Utilisation du séquençage nouvelle génération pour le ...bmp-huep.fr/docs/PresentationNGS-BC.pdfContrôles de qualité Analyse bioinformatique • La représentation des échantillons](https://reader033.vdocuments.pub/reader033/viewer/2022060910/60a557234a438717cd7678f0/html5/thumbnails/19.jpg)
Elimination des duplicats Uniquement pour capture
Analyse bioinformatique