le pole rh^one-alpes (auvergne) de bioinformatique · 2018-03-20 · le pole rh^one-alpes...
TRANSCRIPT
Le Pole Rhone-Alpes (Auvergne) de BioinformatiquePasse, present et avenir
Guy Perriere
Laboratoire de Biometrie et Biologie EvolutiveUMR CNRS 5558
17 juin 2016
Guy Perriere (LBBE) PRABI 17 juin 2016 1 / 35
Origine et structure
Presentation
Origine remontant a 1998 avec la mise en place du Pole Bio-informatique Lyonnais (PBIL) :
• Une composante PBIL-Doua (equipes du LBBE) et une composantePBIL-Gerland (equipes de l’IBCP).
Evolution en PRABI suite a un financement par l’intermediaired’un Contrat de Plan Etat-Region (2000-2006) :
• Construction de locaux propres, dedies a la bioinformatique.
Structure labellisee RIO (Reseau Inter Organismes) puis IBiSA(Infrastructures Biologie-Sante et Agronomie).
Membre du Reseau National des plateformes en Bioinformatique(ReNaBi) puis de l’Institut Francais de Bioinformatique (IFB).
Guy Perriere (LBBE) PRABI 17 juin 2016 2 / 35
Origine et structure
Le reseau ReNaBi
Mise en place en 2005 :• Initiative du GIS IBiSA.
Six centres regionaux :• Federation de plateformes
et d’equipes de recherche.
Labellisation :• Activite de recherche.• Offre de services.• Formations.
Guy Perriere (LBBE) PRABI 17 juin 2016 3 / 35
Origine et structure
Evolution vers l’IFB
Projet finance dans le cadre de l’AAP « Infrastructures Nationalesen Biologie-Sante » 2011.
Mise en place d’un nœud national (IFB-core) avec une structurede type UMS :
• Localisation administrative a Gif-sur-Yvette.• Localisation des moyens de calcul a Orsay.
Directeur : Jean-Francois Gibrat.
Integration au sein d’ELIXIR.
Guy Perriere (LBBE) PRABI 17 juin 2016 4 / 35
Origine et structure
Composantes PRABI
Au nombre de sept depuis fevrier 2016, avec un responsablescientifique pour chacune d’entre elles :
• PRABI-Doua (Guy Perriere).• PRABI-AMSB (Guy Perriere).• PRABI-Gerland (Raphael Terreux).• PRABI-HCL (Pascal Roy).• PRABI-Grenoble (Alain Viari).• INCa/SLC (Alain Viari).• AuBi (Pierre Peyret).
Autonomie financiere complete de chacune des composantes.
Un directeur scientifique (Guy Perriere, depuis mai 2010).
Guy Perriere (LBBE) PRABI 17 juin 2016 5 / 35
Origine et structure
Plateformes de services associees
PRABI-AMSB (Analyse et Modelisation de SystemesBiologiques) :
• Genomique comparative, metagenomique, transcriptomique, reseauxd’interactions, phylogenie.
PRABI-HCL (Hospices Civils de Lyon) :• Biostatistiques medicales.
SLC (Synergie Lyon Cancer) :• Genomique et transcriptomique du cancer.
AuBi (Auvergne Bioinformatique) :• Genomique comparative, metagenomique, phylogenie.
Guy Perriere (LBBE) PRABI 17 juin 2016 6 / 35
Origine et structure
Equipes de recherche associees
Laboratoire Equipe Acronyme
LBBE Bioinformatique, Phylogenie et Genomique Evolutive BPGEStatistique en Grande Dimension pour la Genomique SGDP
Ecologie Quantitative et Evolutive des Communautes EQEC
Elements Transposables, Evolution, Populations ETEPBaobab BaobabBiostatistiques – Sante BS
Sexe et Evolution SEBF2I Genomique Fonctionnelle des Interactions Trophiques GFITIBCP Structures et Interactions SI
Biocristallographie et Biologie Structurale BBSCTdes Cibles Therapeutiques
LECA Mathematiques et Algorithmique pour l’Etude MAEBde la Biodiversite
INRIA-RA Modelisation, Simulation, Analyse Experimentale et IBISControle de Reseaux de Regulation Bacteriens
IRTSV Bioinformatique Moleculaire BMINCa Synergie Lyon Cancer SLC
Quatorze equipes appartenant a sept laboratoires/instituts
Guy Perriere (LBBE) PRABI 17 juin 2016 7 / 35
Origine et structure
Membres du Conseil Scientifique
LBBE :• Stephane Dray.• Manolo Gouy.• Daniel Kahn.• Guy Perriere.• Pascal Roy.• Marie-France Sagot.• Bruno Spataro.
IBCP :• Gilbert Deleage.• Raphael Terreux.
IFB :• Christophe Blanchet.
AMSB :• Vincent Navratil.
LECA :• Eric Coissac.
INRIA-RA et INCa/SLC :• Alain Viari.
BF2I :• Hubert Charles.
IRTSV :• Yves Vandenbrouck.
AuBi :• Pierre Peyret.
Guy Perriere (LBBE) PRABI 17 juin 2016 8 / 35
Activites
Activites de recherche
Ecologie, génétique des populations
Protéomique BM
Structure des protéines
SI BBSCT
Génomique Biostatistiques
Métabolomique et réseaux
BPGE Baobab
IBIS
SLC
ETEP
BS
EQEC
MAEB SE
vennprabi
SGDG
Santé GFIT
Diagramme de Venn des activites de recherche
Guy Perriere (LBBE) PRABI 17 juin 2016 9 / 35
Activites
Activites de formation
Assurees par l’ensemble des cinq composantes.
Implication dans differentes formations initiales, a tous les niveaux(DUT, L3, M1, M2 et Doctorat).
Formations continues (une quinzaine chaque annee) :• Biostatistiques medicales.• Initiation et perfectionnement a R.• Initiation et perfectionnement a ADE-4.• Analyse de sequences.• Analyse des donnees RNA-Seq.• Phylogenie moleculaire.• Structure des proteines.
Guy Perriere (LBBE) PRABI 17 juin 2016 10 / 35
PRABI-AMSB
Presentation
Plateforme de l’Universite Claude Bernard – Lyon 1 (UCBL)rattachee a la FR Bio-Environnement et Sante (BioEnviS).
Activites de services, de formation et de recherche en bio-informatique.
Domaines d’expertise :• Assemblage de genomes.• Analyse de donnees RNA-Seq et ChIP-Seq.• Metagenomique et metatranscriptomique.• Genomique comparative.• Phylogenie moleculaire.• Reseaux metaboliques.• Bases de donnees.• Biostatistiques.
Guy Perriere (LBBE) PRABI 17 juin 2016 11 / 35
PRABI-AMSB
Services proposes
Valorisation et transfert de la recherche en bioinformatique vers labiologie.
Conseils et services en bioinformatique et biostatistiques.
Construction, hebergement, maintenance et acces a des bases dedonnees.
Developpement et mise a disposition d’outils d’analyse.
Accompagnement de projets scientifiques :• Participation a la mise en place des protocoles experimentaux.• Participation a la redaction des demandes de financement.
Guy Perriere (LBBE) PRABI 17 juin 2016 12 / 35
PRABI-AMSB Personnels
Personnels permanents
Dominique Guyot (IE UCBL) :• Parallelisation des calculs, calculs hautes performances bases de
donnees, service Galaxy.
Christine Oger (IR UCBL) :• Analyse de donnees d’expression, genomique bacterienne et
vegetale, metagenomique, service Galaxy.
Vincent Navratil (IR UCBL) :• Analyse de donnees d’expression, genomique et transcriptomique
virale, service Galaxy.
Philippe Veber 1 (IR CNRS) :• Regulation transcriptionnelle, reseaux de genes.
1. Mi-temps LBBEGuy Perriere (LBBE) PRABI 17 juin 2016 13 / 35
PRABI-AMSB Personnels
Personnels en CDD
Amandine Campan-Fournier (36 mois, FRM) :• Aout 2014-. . .• Analyse RNA-Seq a grande echelle et phylogenie de differentes
souches de Legionella.
Jonathan Fey (18 mois, IFB) :• Decembre 2014-mai 2016.• Parallelisation des calculs pour la construction de ProDom.
Jean-Francois Taly (12 mois, France Genomique) :• Fevrier 2015-janvier 2016.• Banques de donnees dediees a l’identification taxonomique en
metagenomique.
Heloıse Philippon (24 mois, IFB) :• Mai 2016-. . .• Pipeline d’analyse phylogenetique.
Guy Perriere (LBBE) PRABI 17 juin 2016 14 / 35
PRABI-AMSB Personnels
Personnels en CDD – Projet Ancestrome
Remi Planel (40 mois, ANR) :• Septembre 2012-decembre 2015.• Developpements web avances pour la consultation des banques de
donnees.
Pierre Dupuis (8 mois, ANR) :• Octobre 2014-mai 2015.• Services web (Angular), formulaires de requetes pour l’interrogation
des banques de donnees.
Guillaume Gence (12 mois, ANR) :• Octobre 2015-. . .• Poursuite des developpements inities par R. Planel, interfaces de
visualisation.
Guy Perriere (LBBE) PRABI 17 juin 2016 15 / 35
PRABI-AMSB Fonctionnement
Comite des utilisateurs
Mis en place en decembre 2014.
Objectifs :• Prise en compte des besoins des laboratoires en termes d’analyse
des donnees et de formations, voire en moyens de calcul.
Membres :• DU des cinq laboratoires membres de la FR BioEnviS (MAP,
LBBE, LEHNA, BF2I, LEM).• DU du LECA (Grenoble).• Un representant des utilisateurs de chaque unite.• Un representant de la plateforme de sequencage DTAMB.• Directeur technique du PRABI-AMSB.
Six reunions/an.
Guy Perriere (LBBE) PRABI 17 juin 2016 16 / 35
PRABI-AMSB Fonctionnement
Organigramme fonctionnel
Consultations - Tous les jeudi après-midi - Gratuit pour les académiques :
Priorité pour les unités UCBL
Formations - Fc-3Bio - Cellules formation des EPST - Tarifs suivant l’organisation :
Gratuité pour les unités si prise en charge par une cellule de formation
reorg
Traitements automatisés - Galaxy - Pipelines « expertisés » - Quotas selon affiliation :
Priorité FR BioEnviS et LECA - Tarifs selon affiliation :
Gratuité pour les unités UCBL Collaborations - Partenaire dans les AAP - Co-encadrement thèsards, post-docs - Inclusion dans les publications - Contribution aux frais de fonctionnement
Entreprises privées - Contrat de prestations
Guichet unique [email protected]
Guy Perriere (LBBE) PRABI 17 juin 2016 17 / 35
PRABI-AMSB Partenaires
Fc-3Bio
Entreprise privee de formation continue specialisee dans ledomaine des biosciences.
Aide a l’organisation de formations pour les composantesPRABI-AMSB, PRABI-Gerland et INCa/SLC.
Responsable : Jean-Francois Prost ([email protected]).
www.fc3bio.fr
Guy Perriere (LBBE) PRABI 17 juin 2016 18 / 35
PRABI-AMSB Partenaires
ViroScan3D
Societe de services specialisee en genomique au service del’infectiologie.
Issue de ProfileXpert, une plateforme de sequencage de l’UCBL.
Responsable : Catherine Lachuer([email protected]).
www.viroscan3d.com
Guy Perriere (LBBE) PRABI 17 juin 2016 19 / 35
PRABI-AMSB Projets
Projets traites en 2015 (1)
Analyse RNA-Seq de donnees sur la dystrophie myotonique (VN).• Prestation de service et collaboration scientifique avec l’IGBMC
(Strasbourg) (2014-2016).• Travaux effectues :
– Analyse des donnees.
Assemblage de genomes bacteriens appartenant au complexed’especes Agrobacterium en replicons complets (CO).
• Prestation de service pour le LEM dans le cadre d’un financementANR.
• Travaux effectues :
– Assemblages de genomes.– Developpements pour ameliorer la finition.
Guy Perriere (LBBE) PRABI 17 juin 2016 20 / 35
PRABI-AMSB Projets
Projets traites en 2015 (2)
Projet IBIT (CO).• Prestation de service pour le LEM dans le cadre d’un financement
EC2CO (2015-2016).• Travaux effectues :
– Analyse de donnees metagenomique (amplicons).
Projet BACTERIB (PV).• Prestation de service pour l’IGFL.• Travaux effectues :
– Analyse par modele lineaire de donnees de flore bacterienne.
Developpements web pour l’interaction avec les services de calculdistribue d’Amazon (PV) :
• Prestation de service pour Solvuu LLC (New York) (2015-2016).• Travaux effectues :
– Developpement OCAML.
Guy Perriere (LBBE) PRABI 17 juin 2016 21 / 35
PRABI-AMSB Projets
Projets traites en 2015 (3)
Mise en place des services Galaxy (CO, DG, VN) :• Financement FR BioEnviS et LECA (Grenoble) (2014-. . .)• Travaux effectues :
– Mise en place d’une machine de developpement Galaxy compatibleavec le cloud IFB.
– Support utilisateur.– Organisation de formations.
Developpement d’un pipeline d’identification taxonomique pourdes donnees de metagenomique (CO, GP).
• Partenariat scientifique avec le LBBE dans le cadre d’unfinancement par France Genomique (2012-2016).
• Travaux effectues :
– Mise en place d’une procedure automatique de construction debanques de donnees d’ARNr 16S.
Guy Perriere (LBBE) PRABI 17 juin 2016 22 / 35
PRABI-AMSB Projets
Projets traites en 2015 (4)
Developpements autour des banques de familles de genesproteiques (DG, GP, VN) :
• Partenariat scientifique avec le LBBE dans le cadre d’unfinancement par l’IFB (2012-. . .).
• Travaux effectues :
– Parallelisation des calculs pour la construction de la banqueProDom.
– Developpement d’un nouvel algorithme de clustering pour la banquede donnees HOGENOM.
– Programmation d’un programme de repartition de charge pour lecalcul parallele.
Projet Deciphering novel non-conventional functions of nucleolinin HSV-1 infected cells (VN, DG) :
• Partenariat scientifique avec le CIRI dans le cadre d’un financementFINOVI (2012-2015).
• Travaux effectues :
– Prediction d’interactions proteines-proteines hote/pathogenes.
Guy Perriere (LBBE) PRABI 17 juin 2016 23 / 35
PRABI-AMSB Projets
Projets traites en 2015 (5)
Projet Translegio (CO, GP, VN) :• Partenariat scientifique avec le LBBE et le CIRI dans le cadre d’un
financement FRM (2014-2017).• Travaux effectues :
– Assemblage de genomes de differentes souches de Legionellapneumophila.
– Phylogenie de ces souches.– Analyses RNA-Seq.
Projet Legcoxinet (GP, VN).• Partenariat scientifique avec le LBBE et le CIRI dans le cadre d’un
financement par le LabEx Ecofect (2013-2016).• Travaux effectues :
– Participation aux analyses des interactions Legionella/hote.– Prediction d’interactions proteines-proteines hote/pathogenes.
Guy Perriere (LBBE) PRABI 17 juin 2016 24 / 35
PRABI-AMSB L’exemple de ProDom
Quelques rappels sur ProDom
Banque de donnees de familles de domaines proteiques :• Premiere version distribuee en 1994.
Utilisation d’UniProtKB (Swiss-Prot + TrEMBL) comme sourceprimaire de donnees :
• Seule banque de domaines reellement exhaustive si on la compare ases concurrents.
Construction en deux temps :• Generation des familles proprement dites.• Post-traitements et annotation des familles :
– Formatage.– Calcul des alignements multiples avec mesure de la qualite.– Liens avec d’autres banques (Pfam, GO, PDB, Prosite/Profile).
Guy Perriere (LBBE) PRABI 17 juin 2016 25 / 35
PRABI-AMSB L’exemple de ProDom
Croissance du nombre de familles
Version Nb. tot. Nb. >12001.3 305 465 – 108 076 –2002.1 365 172 +19% 138 322 +27%2003.1 391 935 +7.3% 144 444 +4.4%2004.1 504 917 +28% 186 303 +29%2005.1 736 449 +46% 275 561 +48%2006.1 1 716 114 +133% 574 656 +109%2010.1 2 749 610 +58% 947 784 +65%2012.1 3 739 157 +136% 1 992 799 +201%
Nombre de familles ProDom
Guy Perriere (LBBE) PRABI 17 juin 2016 26 / 35
PRABI-AMSB L’exemple de ProDom
Generation des familles
Dans l’ideal, il faudrait au moins une version par an.
Jusqu’en 2006, les familles etaient generees par un algorithmeiteratif (MkDom2) :
• Complexite en O(n2).• Non parallelisable par definition.
Le calcul pour la version 2006.1 a dure 14 mois.
12 ans de calcul auraient ete necessaires pour la version 2010.1.
Developpement d’une version parallelisee de l’algorithme(MPI-MkDom3).
Guy Perriere (LBBE) PRABI 17 juin 2016 27 / 35
PRABI-AMSB L’exemple de ProDom
MPI-MkDom3
Principe general :• Prediction des les collisions (dependances) des iterations en
effectuant un calcul qui, lui, est parallelisable facilement.• Faire en parallele uniquement des iterations pour lesquelles on
predit qu’il n’y a pas de collisions.• Si une collision survient, prendre un autre ensemble d’iterations.
Consequences :• Le calcul prend plus de temps CPU mais, reparti sur des centaines
de cœurs, il prend moins de temps reel.• Resultats semblables a ceux obtenus MkDom2 sur un jeu de
donnees test.• Construction des familles de ProDom 2010.1 en moins d’une
semaine.
Guy Perriere (LBBE) PRABI 17 juin 2016 28 / 35
PRABI-AMSB L’exemple de ProDom
Paraload
Problemes de repartition de charge lorsque l’on fait de laparallelisation par les donnees :
• Aligner 35 sequences est plus rapide que d’en aligner 500 !
Developpement de paraload :• Utilisation pour la construction de ProDom et d’HOGENOM.• Utilisable avec tout probleme parallelisable par les donnees :
– BLAST, alignements multiples, bootstrap, etc.
Telechargeable a l’adresse :• doua.prabi.fr/pub/logiciel/paraload/
Guy Perriere (LBBE) PRABI 17 juin 2016 29 / 35
PRABI-AMSB L’exemple de ProDom
Fonctionnement de base
10 septembre 2015 7/15
Fonctionement de base (exemple)
● Blast de 50 séquences contre une base de donnée
>KC_5966119MKAEAESVSACC>KC_5966117MFLNKAPNTLR>KC_5966274MVANDENYALAA>KC_5966107MEMNDFSFQSEF>KC_5966112MNQSVDTFPYDR………………..………………..>KC_5966124MVVGKAAYLLEL>KC_5966267MNTKMLCNQSIN>KC_5966190MLAGLLFVLILE>KC_5966185MAFRPHGKHNES>KC_5966273MSASGSNSAALV
>KC_5966119MKAEAESVSACC>KC_5966117MFLNKAPNTLR
>KC_5966273MSASGSNSAALV
>KC_5966185MAFRPHGKHNES
Blast
Blast
Blast
Blast
Hits KC_5966119
Hits KC_5966117
Hits KC_5966185
Hits KC_5966273
Hits KC_5966119 Hits KC_5966117
……………….……………….
Hits KC_5966185
Hits KC_5966273
Le serveur découpe les donnéeset les envoie aux clients
Le serveur récolte les donnéescalculées et les empilles sur la sortie
Les clients effectuents les calculs, c'est la
section parallèle
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
02549...........
Index
Guy Perriere (LBBE) PRABI 17 juin 2016 30 / 35
PRABI-AMSB Service Galaxy
Infrastructure
Dell PowerEdge R920 RackServer :• 48 CPU (96 threads).• 15 To disque.• 512 Go RAM.
Deux VM disponibles :• galaxy.prabi.fr :
– Machine de production et de developpement.
• toolshed.prabi.fr :– Depot mercurial d’outils bioinformatiques.– Wrappers valides par le PRABI.
Guy Perriere (LBBE) PRABI 17 juin 2016 31 / 35
PRABI-AMSB Service Galaxy
Developpement de wrappers
Outils developpes dans le perimetre du PRABI :• priam_search (D. Kahn).• kissplice, kissDE (V. Lacroix, A. Julien, C. Marchet).• paraload (D. Guyot).• TETools (L. Modolo, E. Lerat, C. Vieira).• SexDetector (A. Muyle, G. Marais).• RNASeqpower (V. Navratil).
Formation Galaxy4bioinformatics (novembre 2014) suivie par DGet CO.
Guy Perriere (LBBE) PRABI 17 juin 2016 32 / 35
PRABI-AMSB Service Galaxy
Support technique
Mise en place d’une charte utilisateurs.
Liste de diffusion utilisateurs :• [email protected]• Enregistrement obligatoire.
Installation d’outils, gestion des quotas :• [email protected]
Guide d’utilisation et des bonnes pratiques :• www.prabi.fr/redmine/projects/galaxy-user/wiki
Guy Perriere (LBBE) PRABI 17 juin 2016 33 / 35
PRABI-AMSB Service Galaxy
Bilan des formations
Utilisation principalement pour des formations a l’analyse dedonnees RNA-seq et ChIP-seq.
Formation recurrente d’une demi-journee d’introduction al’utilisation (membres de la FR BioEnviS).
Plus de 10 formations inter ou intra sur la periode 2010-2016 :• > 200 biologistes formes.• Une formation internationale en 2014 (EMBnet).
Integration dans la liste du Galaxy Training Network (GTN) :• wiki.galaxyproject.org/Teach/Trainers
Guy Perriere (LBBE) PRABI 17 juin 2016 34 / 35
Pour finir
Partenaires et organismes financeurs
Guy Perriere (LBBE) PRABI 17 juin 2016 35 / 35