journées « bioinformatique des génopoles » - lyon-gerland, 22 octobre 2003 génopole institut...
TRANSCRIPT
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
Génopole Institut PasteurGénopole Institut PasteurBioinformatique - Bilan 2003Bioinformatique - Bilan 2003
Génopole Institut PasteurGénopole Institut PasteurBioinformatique - Bilan 2003Bioinformatique - Bilan 2003
Ivan Moszer
Génopole Institut Pasteur
Plate-forme “Intégration et Analyse Génomiques”
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
2
Activités et missionsActivités et missionsActivités et missionsActivités et missions
Annotation de nouvelles séquences génomiques : développement d’outils d’annotation et de stratégies adaptées ; formation aux unités de recherche
Maintien de collections de données génomiques, identifiables par des annotations de grande qualité, sur un ensemble d'organismes sélectionnés : collaborations avec les unités compétentes, rôle de formation et de standardisation
Développement logiciel de bases de données génomiques innovantes (structures de données, interfaces utilisateur) : génome (projet GenoList), transcriptome, et protéome (=> système intégré)
Développement et application de méthodes d'analyse mathématiques et statistiques pour le décryptage des données génomiques : génomique comparée, études phylogénétiques, analyse des données d'expression, réseaux de régulation, etc.
Enseignement et formation
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
3Ligne directrice des activitésLigne directrice des activitésLe pourquoi et le comment des bases de données Le pourquoi et le comment des bases de données
génomiquesgénomiques
Ligne directrice des activitésLigne directrice des activitésLe pourquoi et le comment des bases de données Le pourquoi et le comment des bases de données
génomiquesgénomiques
1. Concevoir et implémenter des structures de données ad hoc 2. S’assurer que celles-ci sont alimentées par des données de
grande qualité 3. Concevoir et implémenter des interfaces utilisateur ad hoc
Ces bases de données agissent comme un point de rencontre entre données de qualité organisées selon des schémas adéquats, et outils d’interrogation et d’analyse pertinents, accessibles depuis des interfaces utilisateur conçues en premier lieu pour répondre aux besoins des biologistes
L’accès à de tels environnements logiciels intégrés doit aider à la découverte de connaissances, au travers d’une exploration des données facilitée par des interactions homme-machine inspirées par les utilisateurs spécialistes, et des représentations visuelles judicieusement élaborées
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
4Outils d’annotationOutils d’annotation(L. Frangeul (L. Frangeul et al.et al.))
Outils d’annotationOutils d’annotation(L. Frangeul (L. Frangeul et al.et al.))
Programme « CAAT-Box » : « Contig Assembly and Annotation Tool-Box »
Caractéristiques :– Suivi du shotgun et des assemblages successifs– Méthodes pour la finition– Annotation possible dès l’étape de finition– Annotations accessibles et modifiables via le Web– Modules d’annotation (Blast, GeneMark, frameshifts, « primers », etc.)
Applications :– Annotation des génomes de Listeria monocytogenes et Listeria innocua– Annotation du génome de Photorhabdus luminescens– Annotation du génome de Streptococcus agalactiae– Annotation du génome de Candida albicans– Annotation du génome de Candida glabrata
Participation au projet Geno*
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
5CAAT-BoxCAAT-BoxMotivationsMotivations
CAAT-BoxCAAT-BoxMotivationsMotivations
Pourquoi commencer à annoter un génome non terminé ?– Nombreuses séquences obtenues en peu de temps– Ces séquences sont souvent assemblées automatiquement, générant
de grands contigs
Quelles sont les difficultés ?– Changement des séquences et des contigs après chaque assemblage– D’où une modification de la localisation/nomenclature/séquence des
gènes déjà annotés
Shotgun
AnnotationFinishing
Time needed
1996
2002
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
6CAAT-BoxCAAT-BoxLes “Individual Protein Files” (IPF)Les “Individual Protein Files” (IPF)
CAAT-BoxCAAT-BoxLes “Individual Protein Files” (IPF)Les “Individual Protein Files” (IPF)
Contig X
ORFs
500 bases avant le codon stop
200 bases après le codon stop
I.P.F.
IndividualProteinFile
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
7CAAT-BoxCAAT-BoxStratégieStratégie
CAAT-BoxCAAT-BoxStratégieStratégie
Assembly X IPF
ORFs
Contigs
IPF
Assembly Y
IPF 1201.1Comments
Results
ORFs
Contigs
IPF 1201.2Comments
Results
OR
Si une modification se présente dans la séquence d’une IPF, son numéro de version augmente et les commentaires et résultats sont transférés dans un champ spécial
IPF 1201.1Comments
Results
L’utilisateur travaille avec un groupe d’IPF indépendamment de la progression de la finition
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
8Interface de CAAT-BoxInterface de CAAT-BoxUtilitairesUtilitaires
Interface de CAAT-BoxInterface de CAAT-BoxUtilitairesUtilitaires
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
9Interface de CAAT-BoxInterface de CAAT-BoxPage IPFPage IPF
Interface de CAAT-BoxInterface de CAAT-BoxPage IPFPage IPF
IPF_reader.cgi génère dynamiquement une page html en fonction :• des champs du fichier IPF• du niveau d’accès utilisateur• des fichiers IPF_results pour cette IPF• des commentaires utilisateur sur cette IPF
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
10Intégration Intégration CAAT-Box/GenomeBrowserCAAT-Box/GenomeBrowser
Intégration Intégration CAAT-Box/GenomeBrowserCAAT-Box/GenomeBrowser
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
11Bases de données annotéesBases de données annotées(C. Boursaux-Eude (C. Boursaux-Eude et alet al.).)
Bases de données annotéesBases de données annotées(C. Boursaux-Eude (C. Boursaux-Eude et alet al.).)
Objectif : générer des annotations de grande qualité pour les génomes microbiens– Relier séquence et fonctions cellulaires– Exigences de qualité et de cohérence :
• Contrôle, correction, et validation des annotations existantes• Création de nouvelles annotations (physiques et fonctionnelles)• Vérification expérimentale des prédictions in silico (interprétations trop permissives, danger des
seuils automatiques, manque d’attributs « warning », manque de traçabilité, propagation des erreurs)• Nomenclatures et vocabulaires contrôlés
– Références croisées– Mises à jour régulières
Applications :– Mise à jour du génome de Bacillus subtilis (mai 2001) (coll. A. Danchin)– Mise à jour des génomes de Mycobacterium tuberculosis et Mycobacterium leprae (janvier
2002) (coll. S.T. Cole)– Mise à jour des génomes de Helicobacter pylori 26695 et J99 (coll. A. Labigne)– Projets pour plusieurs autres organismes microbiens (dont Staphylococcus aureus,
Saccharomyces cerevisiae, etc.)
Participation au projet HAMAP (SWISS-PROT)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
12SubtiList updateSubtiList update(May 2001)(May 2001)
SubtiList updateSubtiList update(May 2001)(May 2001)
288 sequence corrections (systematic verifications and individual submissions) 520 references imported and linked to the relevant genes Updated genes Nb of genes
– Genomic sequence changed 103• location updated (start and/or stop codons) 67• substitutions 3• internal compensated frameshift 2• two genes merged into one single gene 18 ( 9)• three genes merged into one single gene 3 ( 1)• one gene split out into two genes 3 ( 6)• new genes added in the annotations 5• genes deleted from the annotations 2
– Genomic sequence unchanged 85• location updated (start and/or stop codons) 71• new genes added in the annotations 8• genes deleted from the annotations 6
– Gene name changed 239• “y” not-“y” 181• not-“y” not-“y” 54• not-“y” “y” 4
– Description updated ~800
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
13
Utilisation de ArtemisUtilisation de ArtemisUtilisation de ArtemisUtilisation de Artemis
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
14
TubercuList updatesTubercuList updatesTubercuList updatesTubercuList updates
TubercuList R4 (July 2002)– 82 new CDS– 60 CDS lengths modified– 400 new gene names– Mycobacterial ortholog table (links to Leproma)– Transcriptomic section (techniques and conditions)– Proteomic section (links to databases)– Current list of Mycobacterial Intergenic Repetive Units (MIRU)– 1,000 targeted citations – most with medline links
TubercuList R5 (April 2003)– 10 CDS lengths modified– ~ 50 new gene names– 1,000 targeted citations – all with medline links (citations added directly to
TubercuList using BiblioDB)– Updated transmembrane analysis (TMHMM)– More detailed functional classification– Updated partition analysis (MEME/MAST) of the proteome
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
15
Partition analysis of Partition analysis of M. tuberculosisM. tuberculosisPartition analysis of Partition analysis of M. tuberculosisM. tuberculosis
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
16Bases de données génomiquesBases de données génomiques(S. Moreira (S. Moreira et alet al.).)
Bases de données génomiquesBases de données génomiques(S. Moreira (S. Moreira et alet al.).)
Conception d’un modèle de données générique « GenoList » et implémentation d’une interface pour le biologiste
Application de GenoList à plusieurs génomes bactériens :– B. subtilis, E. coli, M. tuberculosis/leprae, H. pylori, Mycoplasma pulmonis,
Synechocystis/Anabaena, L. monocytogenes/innocua, S. aureus, etc.
Extension du modèle aux relations multi-organismes (gènes orthologues, opérons conservés, signaux communs, etc.), et de l’interface aux outils de génomique comparée (analyse de souches multiples et d’organismes proches)
Développement d’extensions pour génomes eucaryotes (C. albicans, S. cerevisiae, participation au projet Anopheles gambiae)
Réécriture en Java (utilisation du serveur applicatif WebObjects)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
17
GenoList : Ancienne versionGenoList : Ancienne versionGenoList : Ancienne versionGenoList : Ancienne version
GenoList est un ensemble de serveurs Web permettant :
– La visualisation d’informations structurées concernant des génomes bactériens
• Annotations syntaxiques (physiques)
• Références bibliographiques• Références croisées• Classification fonctionnelle
des gènes• …
– L’analyse de génomes via des outils bioinformatiques
• BLAST / FASTA• Recherche de motifs• …
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
18Bases de données “GenoList” Bases de données “GenoList” actuellesactuelles
http://genolist.pasteur.fr/http://genolist.pasteur.fr/
Bases de données “GenoList” Bases de données “GenoList” actuellesactuelles
http://genolist.pasteur.fr/http://genolist.pasteur.fr/
Bacillus subtilis 168: SubtiList (coll. A. Danchin - IP)
Escherichia coli K12: Colibri (coll. K. Rudd - Miami U.)
Mycobacterium tuberculosis H37Rv: TubercuList (coll. S. Cole - IP)
Helicobacter pylori 26695/J99: PyloriGene (coll. A. Labigne - IP, P. Legrain -
Hybrigenics)
Mycoplasma pulmonis UAB CTIP: MypuList (coll. A. Blanchard, I. Chambaud - IP)
Mycobacterium leprae TN: Leproma (coll. S. Cole - IP)
Synechocystis PCC6803/Anabaena PCC7120: CyanoList (coll. N. Tandeau de Marsac
- IP)
Listeria monocytogenes EGD-e/Listeria innocua CLIP 11262: ListiList (coll. P.
Glaser, F. Kunst - IP)
Staphylococcus aureus N315/Mu50: AureoList (C. Boursaux-Eude - IP)
Streptococcus pneumoniae R6/Tigr4: StreptoPneumoList (C. Boursaux-Eude - IP)
Candida albicans SC5314: CandidaDB (coll. C. d’Enfert - IP)
Streptococcus agalactiae NEM316: SagaList (coll. P. Glaser, F. Kunst - IP)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
19GenoList : une base de données GenoList : une base de données « multi-génomes » microbiens« multi-génomes » microbiens
GenoList : une base de données GenoList : une base de données « multi-génomes » microbiens« multi-génomes » microbiens
Extension du modèle « SubtiList » à d’autres génomes bacteriens ou microbiens
base de données et serveur Web « multi-génomes »
Améliorer le niveau de généricité du modèle de données Définir une nomenclature cohérente (noms de gènes/id) et utiliser des
vocabulaires contrôlés Améliorer les annotations de base et intégrer des données expérimentales Tenir compte des spécificités de chaque organisme Établir des relations évoluées entre les génomes (gènes orthologues,
opérons conservés, signaux communs, etc.) Intégration d’outils pour les analyses différentielles de génomes Créer des outils spécifiques pour la gestion et l’analyse des souches
multiples et des organismes proches Intégrer ces informations avec d’autres collections de données (références
croisées) Conserver une interface puissante et conviviale
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
20
GenoList
Réplicon
Organisme
Objets génomiques
Régulation
Gènes
Bibliographie
Relations
Méthodes
Utilisateurs
Modèle de données de GenoListModèle de données de GenoList(simplifié)(simplifié)
Modèle de données de GenoListModèle de données de GenoList(simplifié)(simplifié)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
21Interface Web de GenoList :Interface Web de GenoList :Liste de gènesListe de gènes
Interface Web de GenoList :Interface Web de GenoList :Liste de gènesListe de gènes
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
22
GenoList
Modèle de données de GenoList Modèle de données de GenoList Section OrganismeSection Organisme
Modèle de données de GenoList Modèle de données de GenoList Section OrganismeSection Organisme
Multi-organismes Taxonomie
Réplicon
Organisme
Objets génomiques
Régulation
Gènes
Bibliographie
Relations
Méthodes
Utilisateurs
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
23Interface Web de GenoList :Interface Web de GenoList :Sélection taxonomique d’organismesSélection taxonomique d’organismes
Interface Web de GenoList :Interface Web de GenoList :Sélection taxonomique d’organismesSélection taxonomique d’organismes
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
24
GenoList
Modèle de données de GenoList Modèle de données de GenoList SectionSection relations inter-organismesrelations inter-organismes
Modèle de données de GenoList Modèle de données de GenoList SectionSection relations inter-organismesrelations inter-organismes
Réplicon
Organisme
Objets génomiques
Régulation
Gènes
Bibliographie
Relations
Méthodes
Utilisateurs
• FamillesRelations symétriques et transitivesCOG, DiffTool, Usage du code• ScanRelations non symétriques FindTarget• BDBH (« BiDirectional Best Hit »)Relations symétriques• BLAST contre banque externe
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
25
(1)Construction de fichiers de séquences protéiques propres à chaque organisme (
protéomes) au format FASTA
Génération et intégration de Génération et intégration de données DiffTooldonnées DiffTool
Génération et intégration de Génération et intégration de données DiffTooldonnées DiffTool
(2) Lancement du programme DiffTool
(3) Production de deux fichiers : .cluster (composition des
familles) .legend (description des
familles) (4) « Parsing » des fichiers de
sortie issus de DiffTool(5) Intégration des données dans
la base
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
26Interface Web de GenoList :Interface Web de GenoList :Lancement de DiffToolLancement de DiffTool
Interface Web de GenoList :Interface Web de GenoList :Lancement de DiffToolLancement de DiffTool
Sélectionner les familles dont les protéines• ont au moins 40% de similarité & 80% de chevauchement• sont présentes dans au moins 3 génomes de référence• n’appartiennent pas aux génomes d’exclusion
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
27Interface Web de GenoList :Interface Web de GenoList :Familles de protéines DiffToolFamilles de protéines DiffTool
Interface Web de GenoList :Interface Web de GenoList :Familles de protéines DiffToolFamilles de protéines DiffTool
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
28Interface Web de GenoList :Interface Web de GenoList :Sélection de “best hits”Sélection de “best hits”
Interface Web de GenoList :Interface Web de GenoList :Sélection de “best hits”Sélection de “best hits”
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
29
Aspects techniquesAspects techniquesAspects techniquesAspects techniques
Utilisation du langage de modélisation UML et du SGBD Sybase
Développement à l’aide de WebObjects (Apple) : à la fois une plate-forme modulaire de développement orienté-objet pour des applications Java « trois-tiers », et un serveur d’applications performant et évolutif
GenoListSubScript
Sybase
Architecture physique Architecture logique
Serveur de bases de donnéesModèle de données
Serveur applicatifTraitement logique des données
Serveur Web Présentation des données
Architecture physique Architecture logique
Serveur de bases de donnéesModèle de données
Serveur applicatifTraitement logique des données
Serveur Web Présentation des données
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
30Bases de données transcriptomiquesBases de données transcriptomiques(S. Moreira (S. Moreira et alet al.).)
Bases de données transcriptomiquesBases de données transcriptomiques(S. Moreira (S. Moreira et alet al.).)
Développement dans le cadre d’un projet européen (« BACELL Network ») sur les réseaux de régulation chez B. subtilis
Intégration des conditions expérimentales, des résultats bruts et traités, et des analyses ultérieures
Schéma conforme aux recommandations MIAME/MGED
Intégration d’outils d’analyse statistique
Objectif générique pour une réutilisation dans un cadre plus large (P. falciparum, E. coli, S. agalactiae, etc.)
Interface Web développée en Java (utilisation du serveur applicatif WebObjects)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
31
Projet Escherichia coli
Développement de GenoScriptDéveloppement de GenoScriptContexteContexte
Développement de GenoScriptDéveloppement de GenoScriptContexteContexte
BACELL Network (Bacillus Cell Factory)Étude des réseaux de régulation globaux chez Bacillus subtilis
Projet Plasmodium falciparum
Projet Aspergillus fumigatus
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
32
Experimental
Hybridisation
Analysis
Login, Context, Protocols
Overview
Array Design
Modèle conceptuel de donnéesModèle conceptuel de données(simplifié)(simplifié)
Modèle conceptuel de donnéesModèle conceptuel de données(simplifié)(simplifié)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
33
ContexteDéfinit les conditions techniques de réalisation de l’expérience Lame de verre / membrane Eucaryote / Procaryote …
Champs spécifiques et énumérationsDépendent du contexte
Croissance (champ spécifique) Bacillus subtilis : « preculture protocol » Plasmodium : « in vivo treatment »
Type de marquage (énumération) Bacillus subtilis : « 33P dATP, 33P dCTP, 33P dGTP, 33P dTTP » Plasmodium : « Cy3, Cy5 »
Section expérimentaleSection expérimentaleSection expérimentaleSection expérimentale
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
34
Protocol V1
V2
AddModifyDelete
New Protocol V1
Ponctual modification
Modify
Protocoles expérimentauxProtocoles expérimentauxProtocoles expérimentauxProtocoles expérimentaux
Gestion détaillée des protocoles expérimentaux et interface utilisateur intuitive et conviviale
Toutes les modifications peuvent être enregistrées, soit temporairement, soit de façon permanente
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
35Interface Web de GenoScriptInterface Web de GenoScriptPage d’accueilPage d’accueil
Interface Web de GenoScriptInterface Web de GenoScriptPage d’accueilPage d’accueil
Accès restreint
Requêtes principales
Recherches étenduesEntrée et modification d’expériences
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
36Interface Web de GenoScript Interface Web de GenoScript Exemple de requêteExemple de requête
Interface Web de GenoScript Interface Web de GenoScript Exemple de requêteExemple de requête
Liste des gènes régulés significativement
Résultat pour le gène sélectionné
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
37Interface Web de GenoScript Interface Web de GenoScript Versions et modifications de protocolesVersions et modifications de protocoles
Interface Web de GenoScript Interface Web de GenoScript Versions et modifications de protocolesVersions et modifications de protocoles
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
38
Démarche de l’analyse statistiqueDémarche de l’analyse statistiqueDémarche de l’analyse statistiqueDémarche de l’analyse statistique
1. Connaître les méthodes (principes, domaines d’application)
2. Connaître l’expérience et les données (en termes statistiques)
3. Connaître l’objectif (pourquoi une analyse statistique ?)
Problèmes : Outils souvent disponibles sous la forme d’interfaces absconses (ligne de commandes), ou d’environnements très élaborés mais compliqués à utiliser
Solution : Concevoir une plate-forme logicielle qui guide l’utilisateur au travers d’interfaces spécialisées conviviales vers les approches statistiques appropriées (outil d’aide à la décision) => interface commune et cohérente (i) à la visualisation graphique des données, (ii) aux méthodes ad hoc pour la transformation et la normalisation des données brutes, et (iii) aux tests statistiques pour l’analyse différentielle de l’expression génétique
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
39
duplicates
1. Variation biologique : intrinsèque + condition2. Variation due à la technique3. Variation due à l'erreur de la mesure
Causes de cette variabilité
L'analyse doit prendre en compte ce phénomène par un prétraitement des données et par un test statistique adapté
Spots met1 met2 met3 met4 met5 met6 sulf1 sulf2 sulf3 sulf4 sulf5 sulf6 aadK (a) 674,93 836,66 848,41 913,41 542,31 965,76 855,24 1419,28 996,55 1139,76 540,34 800,59 aadK (b) 742,83 867,03 874,48 914,97 579,72 910,34 845,48 1420,34 958,43 1130,83 534,55 910,52 aapA (a) 799,00 516,59 704,07 270,67 298,38 571,97 779,21 849,76 558,76 615,34 262,79 514,03 aapA (b) 787,66 591,86 670,72 313,09 290,31 498,97 797,41 771,62 569,98 589,41 280,07 496,38 abfA (a) 2750,17 2304,45 2323,66 1811,92 924,34 2160,76 2969,41 2260,34 1620,69 2372,72 1112,41 1483,00 abfA (b) 2827,69 2190,10 2320,59 1843,18 961,48 2175,45 2894,38 2511,31 1723,65 2381,59 1118,34 1601,14 abh (a) 950,34 825,21 833,90 446,29 398,17 733,41 962,97 1020,14 692,45 665,86 254,41 567,14 abh (b) 944,90 839,90 776,45 466,44 357,72 786,48 1000,14 1023,48 693,02 652,14 249,86 561,31 abnA (a) 749,24 861,55 831,31 455,89 303,55 758,24 894,14 933,31 800,47 671,38 331,38 454,59 abnA (b) 900,93 879,69 849,00 262,44 331,28 758,31 969,41 917,00 808,86 771,00 382,86 590,86 … … … … … … … … … … … … …
Contrôle : Méthionine Traitement : Sulfate
Difficultés de l’analyseDifficultés de l’analyseDifficultés de l’analyseDifficultés de l’analyse
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
40
Étapes
PrétraitementAnalyse
Différentielle
1. Détermination d’un protocole d’analyse
2. Implémentation des méthodes sous R + Évaluation des méthodes
3. Connecter l'environnement R à SubScript
4. Modification du modèle de Subscript
5. Développer l'interface de manière flexible, didactique, et documentée
Objectif
Réalisation du module statistiqueRéalisation du module statistiqueRéalisation du module statistiqueRéalisation du module statistique
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
41
Rendre normales les donnéesÉtaler les donnéesStabiliser la varianceRendre les gènes comparables( log, arcsin … )
Transformation
Appréhender les données
Visualisation des données
Correction, Réduction et Filtrage
Retirer le bruit non biologiqueRendre comparable les supports
Linéaire (moyenne, …)Non linéaire (Lowess, … )
Normalisation
Prétraitement des donnéesPrétraitement des donnéesPrétraitement des donnéesPrétraitement des données
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
42
•Tests paramétriquesTest de Student, test de Welch et dérivés •Tests non paramétriquesTest de Wilcoxon
Pour échantillons appariés (microarray) ou indépendants (macroarray)
Tests statistiques
• Détermination des p-valuesdistribution normale technique des permutations
• Détermination du seuil (région de rejet de H0)
Significativité
Aides à l'interprétation+ Information sur les gènes (nom, description, structure opéronique …)+ Tri des gènes selon la p-value+ Nombre de faux positifs attendus+ Ratios
Liste de gènes estimés régulés
• Contrôle du FWERBonferroni, Holms …• Contrôle du FDRBenjamini et Yekutieli …• Estimation du taux de faux positifs Storey
Procédure tests multiples
L’analyse différentielleL’analyse différentielle(approches classiques)(approches classiques)
L’analyse différentielleL’analyse différentielle(approches classiques)(approches classiques)
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
43
Système client/serveur : Rserve/JRclient (développé par Simon Urbanek, www.rosuda.org/Rserve)
adapté et à l'utilisation de Java et à l'utilisation Web
Client 2
Requête R
Réponse R
Objet Java
Commande R
REXPTypeAttributObjet java
Exécution méthode d'analyse
Client 1
SubScriptapplication
classesJava
JRclient
Java
Rserve
R
Instance R
Exécution méthode d'analyse
• Un client/Une session = 1 environnement R• Variables restant internes à R• Rapidité• Facilité d'utilisation
Avantages :
Connectivité R/GenoScriptConnectivité R/GenoScriptConnectivité R/GenoScriptConnectivité R/GenoScript
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
44Interface Web de GenoScript Interface Web de GenoScript Prétraitement - OverviewPrétraitement - Overview
Interface Web de GenoScript Interface Web de GenoScript Prétraitement - OverviewPrétraitement - Overview
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
45Interface Web de GenoScript Interface Web de GenoScript Prétraitement - Background correctionPrétraitement - Background correction
Interface Web de GenoScript Interface Web de GenoScript Prétraitement - Background correctionPrétraitement - Background correction
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
46Interface Web de GenoScript Interface Web de GenoScript Prétraitement - Transformation resultsPrétraitement - Transformation results
Interface Web de GenoScript Interface Web de GenoScript Prétraitement - Transformation resultsPrétraitement - Transformation results
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
47Interface Web de GenoScript Interface Web de GenoScript Prétraitement - Normalisation resultsPrétraitement - Normalisation results
Interface Web de GenoScript Interface Web de GenoScript Prétraitement - Normalisation resultsPrétraitement - Normalisation results
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
48Interface Web de GenoScript Interface Web de GenoScript Analyse différentielle - Choix du type d’analyseAnalyse différentielle - Choix du type d’analyseInterface Web de GenoScript Interface Web de GenoScript Analyse différentielle - Choix du type d’analyseAnalyse différentielle - Choix du type d’analyse
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
49Interface Web de GenoScript Interface Web de GenoScript Analyse différentielle - Résultats de l’analyseAnalyse différentielle - Résultats de l’analyseInterface Web de GenoScript Interface Web de GenoScript Analyse différentielle - Résultats de l’analyseAnalyse différentielle - Résultats de l’analyse
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
50Problématique phylogénétiqueProblématique phylogénétique(C. Dauga (C. Dauga et alet al.).)
Problématique phylogénétiqueProblématique phylogénétique(C. Dauga (C. Dauga et alet al.).)
Développement de méthodologies phylogénétiques mettant en évidence les transferts de gènes entre espèces proches
Étude de l’impact des différents phénomènes évolutifs que peuvent subir les gènes (transfert, recombinaison, duplication, variations de vitesse d’évolution et pression de sélection, etc.) sur la représentation phylogénétique (arbre, valeur d’homologie) et l’évolution des génomes
Génome des procaryotes =– Gènes hérités verticalement – + Gènes acquis par transfert– + Gènes dupliqués
Phylogénies conflictuelles :– pour les études de systématique– pour le suivi épidémiologique de souches bactériennes– pour décrire l’évolution des génomes
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
51
Child-4 Mother Child-2Child-1 Child-3 G1SVP 20 (France)SVP19 (Algeria)SVP18 (Morocco)SVP6 (France)SVP17 (France)85PSVP1 (Morocco)SVP4 (Senegal)SVP7 (Portugal)SVP12 (Morocco)SVP9 (Yougoslavia)SVP8 (Tunisia)SVP25 (Morocco)SVP11 (Algeria)SVP10 (France)SVP 23N24626695SVP14 (France)SVP21 SVP15 (Morocco)SVP22 (Algeria)SVP24 (Algeria)SVP13 (France)J99SVP5 (France)Dakar str 2aDakar str 2bDakar str 5bDakar str 5aSVP3 (Senegal)Dakar str 3aSVP2Dakar str 4aDakar str 6bDakar str1bDakar str1aFather G6SVP16 (Algeria)0.02Max likelihood methodglmMstr X47 from a catstr TAK from a monkeyHong Kong str 416Hong Kong str 326Hong Kong str 327Hong Kong str 364Hong Kong str 12OraVax str ox34Hong Kong str 450Child-3G4G5 Father Child-2 G2Child-3G3Child-1 Mother H90.01hspAMax likelihood methodChild-1 Mother Child-2 Father Child-4 Child-4 Dakar str1bDakar str1aDakar str 2aDakar str 2bDakar str 4aDakar str 5bSVP8 (Tunisia)SVP3 (Senegal)SVP4 (Senegal)Father Child-2 H5Child-1 Dakar str 3aH7H8SVP13 (France)SVP12 (Morocco)Child-2 SVP10 (France)26695Dakar str 6bSVP18 (Morocco)85Pstr X47 from a catSVP17 (France)SVP14 (France)SVP21 SVP16 (Algeria)SVP25 (Morocco)J99SVP7 (Portugal)SVP15 (Morocco)N246OraVax str ox34Hong Kong str 12Hong Kong str 364str TAK from a monkeyHong Kong str 450Hong Kong str 416SVP9 (Yougoslavia)SVP1 (Morocco)SVP2SVP5 (France)SVP6 (France)Hong Kong 327SVP24 (Algeria)SVP11 (Algeria)SVP19 (Algeria)H1H2H3H4Child-3 H6 Father H10Father H11SVP22 (Algeria)
Identification phylogénétique des Identification phylogénétique des transfertstransferts
Identification phylogénétique des Identification phylogénétique des transfertstransferts
Confrontation visuelle des topologies
52
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
Évaluation des tests Évaluation des tests phylogénétiquesphylogénétiques
Évaluation des tests Évaluation des tests phylogénétiquesphylogénétiques
Quatre tests évalués :– Incongruence (hétérogénéité des processus évolutifs ?)– Kishino-Hasegawa (topologie)– Shimodaira-Hasegawa (topologie)– Co-évolution (non-proportionnalité des longueurs de branche ?)
Tests aussi performants pour détecter des transferts :– Entre des espèces de lignées différentes– Entre souches d’une même espèce
Nb de transferts
Amplitude du déplacement (nombre de
nœuds)Index de distorsion Test KH Test SH
Test de Co-évolution
Test homogeneite
ILDrps14 ech4 ref ref ref ref ref ref refARNr 16S 2 2 13 0 0,006 32,7654 0,001
recA 2 2 9 0 0 36,05 0,001gyrB 2 2 10 0 0 112,05 0,001rpoB 2 2 13 0 0,001 170,19 0,001
ARNr 16S ref ref ref ref ref ref refdsrAB 9 24 42 0 0 598,85 0,001
E. coli Topol ref Topol ref Topol ref Topol ref Topol refmutS 6 28 15 0,006 0,006mutH 4 12 15 0 0recD 1 5 13 0,001 0,001
53
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
Sensibilité et spécificitéSensibilité et spécificitéSensibilité et spécificitéSensibilité et spécificité
TransfertsPositivité test KH
Positivité test SH
Absence de co-évolution
Hétérogénéité ILD
Nombre de comparaisons
0 37% 17% 70% 48% 351 100% 79% 86% 91% 242 100% 100% 100% 100% 64 100% 100% 100% 100% 16 100% 100% 100% 100% 19 100% 100% 100% 100% 1
68
Test KH détecte 100% des gènes acquis par transferts Test KH : pas de faux négatif
Test SH manque de sensibilité Test SH : faux négatifs pour des transferts isolés de faible amplitude
54
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
SH +
Transferts
Choisir un bon référentTests de co-évolution
KH -
Transferts
KH +
Test SH -Transfert probable / alpha < 10%
Éliminer les longues branches
> 90
Tests topologiques KH et SH
Stratégie de détection de transfertsStratégie de détection de transfertsStratégie de détection de transfertsStratégie de détection de transferts
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
55
Cours - FormationsCours - FormationsCours - FormationsCours - Formations
Mise en place d’une initiation à la bioinformatique pour le cours de Microbiologie Générale de l’Institut Pasteur
Participation au cours d’Analyse des Génomes de l’Institut Pasteur (traitement informatique des données)
Co-organisation de l’atelier INSERM 135 (identification de bactéries non cultivables en clinique et dans l'environnement)
Cours de formation permanente de Bioinformatique de l’Université Paris 7
Co-organisation du cours Unesco “Microbial identification in clinical and environmental settings”
Co-organisation d’un European Training Workshop “Molecular characterization of the human intestinal microbiota”
Journées « Bioinformatique des Génopoles » - Lyon-Gerland, 22 octobre 2003
56
RemerciementsRemerciementsRemerciementsRemerciements
Caroline Boursaux-EudeCatherine Dauga
Pierre DehouxLionel Frangeul
Sandrine Moreira
Nicolas BeaumeMagali Brugnon
J.-Christophe CamusOlivier Garcia
Benjamin GilettiSylvette Grandino
Laurence HummelGaëlle Lacourrège
Albane Le RochHocine Madoui
Anne MarcelLaetitia Marisa
Sandrine MativetHafed Nedjari
Melinda PryorEmmanuel Quevillon
David Simon
Stewart Cole
Louis Jones (PI•IP)Catherine Jorge (PI•IP)
Ivo Gomperts Boneca (PBM•IP)Hilde de Reuse (PBM•IP)
Nicole Tandeau de Marsac (UC•IP)Bernard Dujon (GML•IP)
Christophe d’Enfert (BPF•IP)
Antoine Danchin (GGB•IP) Philippe Glaser (GGB/
GMP•IP)Frank Kunst (BM/
GMP•IP)Farid Chetouani (GMP•IP)
Jean-Yves Coppée (PT2•IP)
Claudine Médigue (GGB•IP/AGC)
Alain Viari (ABI•P6/ INRIA)
David Sherman (UB)
BACELL Network (EU)Kenn Rudd (Miami U.)
Amos Bairoch (SIB)