![Page 1: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/1.jpg)
Détection de domaines protéiques par co-occurrence
Application à Plasmodium falciparum
Nicolas TerraponOlivier Gascuel 11/04/23Laurent Bréhélin
![Page 2: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/2.jpg)
Problématique
Prédire la composition en domaines des protéines de Plasmodium falciparum.
Les domaines sont les unités structurelles et fonctionnelles des protéines.
Différentes techniques existantes : BLAST, modélisation déterministe ou probabiliste.
![Page 3: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/3.jpg)
Bases de données
Interpro [Mulder 07] Centralise les informations issus de 10 bases :
![Page 4: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/4.jpg)
[Bateman 08]
Hidden Markov Models (HMMs) : outils puissants pour la détection de domaines.
10 340 modèles de domaines. Certains domaines annotés dans la GO. Seuils permettant d’affirmer qu’un domaine
est présent. P. falciparum : seulement 1421 domaines
distincts dans 50% de ses protéines (Yeast : 2369 domaines dans 76% de ses protéines).
![Page 5: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/5.jpg)
Détection par co-occurrence
Principe : Relâcher les seuils de Pfam : plus de détections
mais plus de faux positifs. Filtre : co-occurrence de domaines.
Fondements : Les domaines apparaissent avec très peu d’autres
domaines favoris. Nombre de paires de domaines Pfam observées
dans les protéines d’Uniprot : 20 000 sur ~12,5 millions paires possibles (1,6‰).
![Page 6: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/6.jpg)
Détection par co-occurrence
Etablir une liste de paires de domaines fortement co-occurrents (PDFC)
La présence de l’un doit être un indice fort pour la présence de l’autre.
Construit sur la composition en domaines de toutes les protéines d’Uniprot grâce à un test statistique (Fisher).
Pour chaque protéine de P. falciparum : Répertorier ses domaines Interpro connus. Déterminer ses domaines Pfam potentiels (en
relâchant les seuils).
![Page 7: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/7.jpg)
A
Détection par co-occurrence
Présence d’un domaine A connu.
![Page 8: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/8.jpg)
On détecte un domaine potentiel B.
A B?
Détection par co-occurrence
![Page 9: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/9.jpg)
A B?
Détection par co-occurrence
La paire (A,B) appartient à la liste des PDFC.
![Page 10: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/10.jpg)
AB
On valide B !
Détection par co-occurrence
La paire (A,B) appartient à la liste des PDFC.
![Page 11: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/11.jpg)
Validation de nouveaux domaines chez Plasmodium falciparum (H1).
Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient distribués au hasard (H0).
Estimation du False Discovery Rate
FDR =
Contrôler le taux d’erreur
# domaines validés sous H0
# domaines validés sous H1
![Page 12: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/12.jpg)
Résultats
FDR ≤10% 10%<… ≤ 20% 20%<… ≤ 30%
Nouveaux domaines
284 89 109
Domaines jamais vus chez Pf.
76 22 28
Nouvelles annotations
GO55 18 29
![Page 13: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/13.jpg)
Page Web
![Page 14: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/14.jpg)
Page Web
![Page 15: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/15.jpg)
Page Web
![Page 16: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/16.jpg)
Page Web
![Page 17: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/17.jpg)
MERCI DE VOTRE ATTENTION!
![Page 18: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/18.jpg)
Appliquer notre méthodeet compter lenombre de validations
Contrôler le taux d’erreur
?
?
?
?
?
1Collecter les
domaines potentiels
2Assigner aléatoire-ment les domainesaux protéines
3
?
?
?
?
?
?
?
?
?
?
4Itérer et fairela moyennedes résultats
# erreurs estimées# domaines validés
Ensemble de protéines avec leurs domaines connus et potentiels
Procédure de shuffling
FDR
![Page 19: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/19.jpg)
Estimation du nombre de domaines que la méthode validerait si tous les domaines potentiels étaient faux.
Mise en place d’une procédure de shuffling: Domaines connus sont fixes. Les domaines potentiels sont redistribués
aléatoirement. On applique notre méthode de validation et on
compte le nombre de domaines qu’elle valide. On réitère la procédure et on moyenne.
Estimation du False Discovery Rate =
Contrôler le taux d’erreur
# erreurs estimées# domaines validés
![Page 20: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/20.jpg)
Expérimentations
Simulations sur la levure : Identifier les domaines composants les protéines
de S. cerevisae en utilisant les seuils de Pfam. Création de 4 jeux de séquences artificielles de
divergence croissante : dérive des séquences protéiques de la levure (programme seqgenseqgen). Identification des domaines dans les séquences
divergentes : certains domaines sont perdus. Relâchement des seuils de Pfam et application de
notre méthode de validation par co-occurrence : retrouve-t-on les domaines perdus?
![Page 21: Détection de domaines protéiques par co-occurrence Application à Plasmodium falciparum Nicolas Terrapon Olivier Gascuel 12/01/2014 Laurent Bréhélin](https://reader035.vdocuments.pub/reader035/viewer/2022062621/551d9d81497959293b8baf8b/html5/thumbnails/21.jpg)
Expérimentations
Simulations sur la levure :
Taux Subst.
Dom. Réf.
Perte dom.
Potent. retrouv.
Dom. retrouv.
Dom. inédits
Estim. FDR
Taux nv GO
0.1 2407 149 145 134 274 11.5% 15%
0.25 2407 346 301 265 171 9.2% 7.8%
0.5 2407 907 645 491 60 5.4% 3.1%
0.75 2407 1436 747 501 12 4% 0.3%