définition et analyse de graphes d’interactions de gènes pour la qualité de la viande de porc
DESCRIPTION
Groupe de travail Biopuces, INRA d'Auzeville June 22th, 2010TRANSCRIPT
Définition et analyse de graphesd’interactions de gènes pour la qualité de
la viande de porc
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
IUT de Carcassonne (UPVD)
& Institut de Mathématiques de Toulouse
Groupe de travail BioPuces, INRA de Castanet
25 Juin 2010
1 / 23Nathalie Villa-Vialaneix
N
Présentation générale
1 Les données
2 Principe général de construction d’un graphed’interactions
3 Analyse du graphe d’interactions des gènes régulés par uneQTL
Analyse descriptiveClassification des sommets
4 Analyse du graphe d’interactions des gènes régulés par uneQTL ou différentiellement exprimés pour le PH etcomparaison
2 / 23Nathalie Villa-Vialaneix
N
Les données
Sommaire
1 Les données
2 Principe général de construction d’un graphed’interactions
3 Analyse du graphe d’interactions des gènes régulés par uneQTL
Analyse descriptiveClassification des sommets
4 Analyse du graphe d’interactions des gènes régulés par uneQTL ou différentiellement exprimés pour le PH etcomparaison
3 / 23Nathalie Villa-Vialaneix
N
Les données
Production d’animaux F2 avec des fac-teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus(dont longissimus dorsi)
Mesures phénotypiques (30)(force de cisaillement, PH ...)
Données retenues : Une famille de 57 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
4 / 23Nathalie Villa-Vialaneix
N
Les données
Production d’animaux F2 avec des fac-teurs de variation génétique
F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)
F1 : 17 ♂ × 62 ♀
F2 : 1200 animaux structurés par lignée de père
Prélèvement de tissus(dont longissimus dorsi)
Mesures phénotypiques (30)(force de cisaillement, PH ...)
Données retenues : Une famille de 57 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.
4 / 23Nathalie Villa-Vialaneix
N
Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantescomplétées ;
2 Une nomenclature par défaut pour les gènes (non validéeprécisément) a été définie sur la base de plusieurs typesd’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sontréputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sontrégulés par un eQTL ; il s’agit de D04-D07 (BX671434) et deN01-C04 (ZRANB1).
5 / 23Nathalie Villa-Vialaneix
N
Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantescomplétées ;
2 Une nomenclature par défaut pour les gènes (non validéeprécisément) a été définie sur la base de plusieurs typesd’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sontréputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sontrégulés par un eQTL ; il s’agit de D04-D07 (BX671434) et deN01-C04 (ZRANB1).
5 / 23Nathalie Villa-Vialaneix
N
Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantescomplétées ;
2 Une nomenclature par défaut pour les gènes (non validéeprécisément) a été définie sur la base de plusieurs typesd’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sontréputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sontrégulés par un eQTL ; il s’agit de D04-D07 (BX671434) et deN01-C04 (ZRANB1).
5 / 23Nathalie Villa-Vialaneix
N
Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantescomplétées ;
2 Une nomenclature par défaut pour les gènes (non validéeprécisément) a été définie sur la base de plusieurs typesd’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sontréputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sontrégulés par un eQTL ; il s’agit de D04-D07 (BX671434) et deN01-C04 (ZRANB1).
5 / 23Nathalie Villa-Vialaneix
N
Les données
Premières extractions des données
1 Les données ont été normalisées et les valeurs manquantescomplétées ;
2 Une nomenclature par défaut pour les gènes (non validéeprécisément) a été définie sur la base de plusieurs typesd’annotations, en plus de la référence au spot ;
3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sontréputés régulés par un eQTL ;
4 Les gènes différentiellement exprimés pour le PH ont été extraits: 23 gènes sont réuputés différentiellement exprimés pour le PH.
Remarque : 2 gènes différentiellement exprimés pour le PH sontrégulés par un eQTL ; il s’agit de D04-D07 (BX671434) et deN01-C04 (ZRANB1).
5 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Sommaire
1 Les données
2 Principe général de construction d’un graphed’interactions
3 Analyse du graphe d’interactions des gènes régulés par uneQTL
Analyse descriptiveClassification des sommets
4 Analyse du graphe d’interactions des gènes régulés par uneQTL ou différentiellement exprimés pour le PH etcomparaison
6 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.
Que modélise un réseau de gènes ?
Sommets : GènesArêtes : Corrélation forte dansl’expression des deux gènes
7 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Des gènes aux réseaux de gènes
Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.Que modélise un réseau de gènes ?
Sommets : GènesArêtes : Corrélation forte dansl’expression des deux gènes
7 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.
Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Corrélations, corrélations partielles
Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien
H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;
Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;
Sous H, πij =−wij√
wiiwjjavec Σ−1 = (wij)i,j .
Problème important : Estimation et inversion de Σ !
8 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗ dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;
3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;
Estimer Π par la moyenne des Πb∗ .
Combien d’observations pour estimer correctement Π ?
9 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗ dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;
3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;
Estimer Π par la moyenne des Πb∗ .
Combien d’observations pour estimer correctement Π ?
9 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Estimation des corrélations partielles[Schäfer and Strimmer, 2005]
Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter
1 Générer un échantillon bootstrap b∗ dans les données initiales ;
2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;
3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;
Estimer Π par la moyenne des Πb∗ .Combien d’observations pour estimer correctement Π ?
9 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :graphe d’interactions des gènes régulés par un eQTL (272sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour lePH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL oudifférentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillonsbootstrap de 20 cochons) a été programmée pour estimer lescorrélations partielles (fonction ggm.estimate du packageGeneNet).Un graphe d’interactions est construit dans lequel les arêtes sontles corrélations partielles significatives (test de significativité dela fonction ggm.test.edges, basé sur une approche bayésienne).
10 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :graphe d’interactions des gènes régulés par un eQTL (272sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour lePH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL oudifférentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillonsbootstrap de 20 cochons) a été programmée pour estimer lescorrélations partielles (fonction ggm.estimate du packageGeneNet).
Un graphe d’interactions est construit dans lequel les arêtes sontles corrélations partielles significatives (test de significativité dela fonction ggm.test.edges, basé sur une approche bayésienne).
10 / 23Nathalie Villa-Vialaneix
N
Principe général de construction d’un graphe d’interactions
Mise en œuvre de la méthode
La méthode a été mise en œuvre pour définir trois graphes :graphe d’interactions des gènes régulés par un eQTL (272sommets) ;
graphe d’interactions des gènes différentiellement exprimés pour lePH (23 sommets) ;
graphe d’interactions des gènes régulés par un eQTL oudifférentiellement exprimés pour le PH (293 sommets).
Une procédure de bootstrap (4 000 répétitions d’échantillonsbootstrap de 20 cochons) a été programmée pour estimer lescorrélations partielles (fonction ggm.estimate du packageGeneNet).Un graphe d’interactions est construit dans lequel les arêtes sontles corrélations partielles significatives (test de significativité dela fonction ggm.test.edges, basé sur une approche bayésienne).
10 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Sommaire
1 Les données
2 Principe général de construction d’un graphed’interactions
3 Analyse du graphe d’interactions des gènes régulés par uneQTL
Analyse descriptiveClassification des sommets
4 Analyse du graphe d’interactions des gènes régulés par uneQTL ou différentiellement exprimés pour le PH etcomparaison
11 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Description basique du graphe
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
272 sommets (connexe) ; Densité : 6,4 % ; Transitivité : 25,4 %12 / 23
Nathalie Villa-VialaneixN
Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des degrés des sommets
Degré d’un sommet : Nombre d’arêtes afférentes au sommet.
Histogramme des degrés
Degrés
Fre
quen
cy
5 10 15 20 25 30
010
2030
40
Gènes de plus forts degrés : 21 gènes identifiés
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
PCBP2_MOUSE
RPL7L1
N4BP2TRIAP1 SLA−1TPM3
SLC39A14
SSR4
BX921641
BX672573AW359912
GPI
BX915888
BMPR2UTP23SUZ12
FTH1MGP
DGKI
PRDX4BX670979
13 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des degrés des sommets
Degré d’un sommet : Nombre d’arêtes afférentes au sommet.
Gènes de plus forts degrés : 21 gènes identifiés
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
PCBP2_MOUSE
RPL7L1
N4BP2TRIAP1 SLA−1TPM3
SLC39A14
SSR4
BX921641
BX672573AW359912
GPI
BX915888
BMPR2UTP23SUZ12
FTH1MGP
DGKI
PRDX4BX670979
13 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des indices de centralité
Centralité d’un sommet : Nombre de plus courts chemins entredeux sommets du graphe passant par le sommet d’intérêt⇒Mesure de l’importance du sommet dans la connectivité dugraphe.
Indices de centralité des degrés
●●
●●
●●●●●●●●●●●●●●●●●●
●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
0 50 100 150 200 250
010
020
030
040
050
0
Rang
Indi
ce d
e ce
ntra
lité
Gènes de plus fortes centralités : 25 gènes identifiés
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
BX922566BX676386
CCAR1
BX676495
FAM151B
TRIAP1
BX922608
SLC39A14
SSR4
CLTABX921641
BX922995
GPI
BI359863
SUZ12
FTH1MGP
BX914936
SON
UBE2H
FADD
ROCK2
PRDX4RNASEK
BX924180
14 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Analyse des indices de centralité
Gènes de plus fortes centralités : 25 gènes identifiés
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
BX922566BX676386
CCAR1
BX676495
FAM151B
TRIAP1
BX922608
SLC39A14
SSR4
CLTABX921641
BX922995
GPI
BI359863
SUZ12
FTH1MGP
BX914936
SON
UBE2H
FADD
ROCK2
PRDX4RNASEK
BX924180
14 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Comparaison entre les deux listes
8 gènes sont en commun dans les deux listes :
BX921641 ; FTH1 ; TRIAP1 ; SLC9A14 ; GPI ; SUZ12 ; MGP ;PRDX4
Reconnaissez-vous des amis ?
15 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Principe de la classification de sommets
But : Faire des groupes de sommets fortement connectés entreeux et faiblement connectés aux autres.
Méthode utilisée : Suite au travail d’Adrien, optimisation de lamodularité par un algorithme de recuit simulé (comme dans[Villa et al., 2010]) car :
la modularité est une mesure de la densité des classes qui tientcompte du degré des sommets : il est moins exceptionnel d’êtrelié à un hub qu’à un sommet de faible degré donc le coût de“couper” une arête connecté à un hub doit être plus faible.
l’algorithme de recuit simulé est très facile à mettre en œuvremême si il peut être long. Il est bien adapté à des graphes de cettetaille.
16 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Principe de la classification de sommets
But : Faire des groupes de sommets fortement connectés entreeux et faiblement connectés aux autres.Méthode utilisée : Suite au travail d’Adrien, optimisation de lamodularité par un algorithme de recuit simulé (comme dans[Villa et al., 2010]) car :
la modularité est une mesure de la densité des classes qui tientcompte du degré des sommets : il est moins exceptionnel d’êtrelié à un hub qu’à un sommet de faible degré donc le coût de“couper” une arête connecté à un hub doit être plus faible.
l’algorithme de recuit simulé est très facile à mettre en œuvremême si il peut être long. Il est bien adapté à des graphes de cettetaille.
16 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Méthodologie et résultats
Plusieurs nombres de classes (de 4 à 12) ont été testées et lasolution avec plus forte modularité a été conservée.
Répartition du nombre de sommets dans les classesNuméro de classe 1 2 3 4 5 6 7Nombre de sommets 33 44 58 28 41 28 40
modularité = 0,395
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC56
RPL7L1
AGPS
BF442271FBXL3
MYH2
N4BP2 BX674324
X91724
CCAR1
SLA−1
TPM3
SSR4
BX672573
AW359912
BX674550
BX915888
BMPR2
UTP23
FTH1
STC1
MGP
BX671472
DGKI
RPL27A
ATP2A1
BX670979
BX67439928 nodes294 edgesDensity: 77.8%Transitivity: 85.6%
17 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Méthodologie et résultats
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
1234567
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC56
RPL7L1
AGPS
BF442271FBXL3
MYH2
N4BP2 BX674324
X91724
CCAR1
SLA−1
TPM3
SSR4
BX672573
AW359912
BX674550
BX915888
BMPR2
UTP23
FTH1
STC1
MGP
BX671472
DGKI
RPL27A
ATP2A1
BX670979
BX67439928 nodes294 edgesDensity: 77.8%Transitivity: 85.6%
17 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Méthodologie et résultats
●
●
●
●● ●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC56
RPL7L1
AGPS
BF442271FBXL3
MYH2
N4BP2 BX674324
X91724
CCAR1
SLA−1
TPM3
SSR4
BX672573
AW359912
BX674550
BX915888
BMPR2
UTP23
FTH1
STC1
MGP
BX671472
DGKI
RPL27A
ATP2A1
BX670979
BX67439928 nodes294 edgesDensity: 77.8%Transitivity: 85.6%
17 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL
Méthodologie et résultats
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC56
RPL7L1
AGPS
BF442271FBXL3
MYH2
N4BP2 BX674324
X91724
CCAR1
SLA−1
TPM3
SSR4
BX672573
AW359912
BX674550
BX915888
BMPR2
UTP23
FTH1
STC1
MGP
BX671472
DGKI
RPL27A
ATP2A1
BX670979
BX67439928 nodes294 edgesDensity: 77.8%Transitivity: 85.6%
17 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Sommaire
1 Les données
2 Principe général de construction d’un graphed’interactions
3 Analyse du graphe d’interactions des gènes régulés par uneQTL
Analyse descriptiveClassification des sommets
4 Analyse du graphe d’interactions des gènes régulés par uneQTL ou différentiellement exprimés pour le PH etcomparaison
18 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Description basique du graphe
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
293 sommets (connexe) ; Densité : 8,6 % ; Transitivité : 20,0 %
19 / 23Nathalie Villa-VialaneixN
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Analyse des degrés et de la centralité
Deux gènes en commun parmi les gènes de plus forts degrésdu premier graphe : TPM3 et TFH1 (ce dernier avait un fort indicede centralité aussi) ;
Un seul gène en commun parmi les gènes à plus fort indice decentralité par rapport au premier graphe : SUZ12 (qui était aussi àplus fort degré) ;
Un seul gène est à fort degré et fort indice de centralité dans cegraphe : FIT1.
L’introduction des gènes fortement différentiel conduit à uneorganisation complètement différente des interactions dans legraphe.
20 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Analyse des degrés et de la centralité
Deux gènes en commun parmi les gènes de plus forts degrésdu premier graphe : TPM3 et TFH1 (ce dernier avait un fort indicede centralité aussi) ;
Un seul gène en commun parmi les gènes à plus fort indice decentralité par rapport au premier graphe : SUZ12 (qui était aussi àplus fort degré) ;
Un seul gène est à fort degré et fort indice de centralité dans cegraphe : FIT1.
L’introduction des gènes fortement différentiel conduit à uneorganisation complètement différente des interactions dans legraphe.
20 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Analyse des degrés et de la centralité
Deux gènes en commun parmi les gènes de plus forts degrésdu premier graphe : TPM3 et TFH1 (ce dernier avait un fort indicede centralité aussi) ;
Un seul gène en commun parmi les gènes à plus fort indice decentralité par rapport au premier graphe : SUZ12 (qui était aussi àplus fort degré) ;
Un seul gène est à fort degré et fort indice de centralité dans cegraphe : FIT1.
L’introduction des gènes fortement différentiel conduit à uneorganisation complètement différente des interactions dans legraphe.
20 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
Répartition du nombre de sommets dans les classesNuméro de classe 1 2 3 4 5 6 7Nombre de sommets 33 38 37 43 21 81 40
Classes plus déséquilibrées que dans le premier graphe.modularité = 0,316
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC47
PABPC1
BX924513
CREB3L3
CXCL12
BX671434
TMEM14C
SLC16A3
BX926631
DDX3X
H3F3B
ODC1
CALM1
GNG10
HIAT1
ZRANB1
BX671472
IMMT
THYN1
CREM
BX922466
RRAD
PPP1R3C
HSP70.2
AKR1C4
PRKAG2
LOC733644
NOR−1FOS
BX925205
BTG2
MAFB
HSPA1B
PPAP2A
BX671077
LOC595115
Ubc
37 nodes240 edgesDensity: 36%Transitivity: 49.4%
La plupart des gènes différentiellement exprimés pour le PH sontdans la même classe (sauf 2)
21 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
●
●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1234567
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC47
PABPC1
BX924513
CREB3L3
CXCL12
BX671434
TMEM14C
SLC16A3
BX926631
DDX3X
H3F3B
ODC1
CALM1
GNG10
HIAT1
ZRANB1
BX671472
IMMT
THYN1
CREM
BX922466
RRAD
PPP1R3C
HSP70.2
AKR1C4
PRKAG2
LOC733644
NOR−1FOS
BX925205
BTG2
MAFB
HSPA1B
PPAP2A
BX671077
LOC595115
Ubc
37 nodes240 edgesDensity: 36%Transitivity: 49.4%
La plupart des gènes différentiellement exprimés pour le PH sontdans la même classe (sauf 2)
21 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC47
PABPC1
BX924513
CREB3L3
CXCL12
BX671434
TMEM14C
SLC16A3
BX926631
DDX3X
H3F3B
ODC1
CALM1
GNG10
HIAT1
ZRANB1
BX671472
IMMT
THYN1
CREM
BX922466
RRAD
PPP1R3C
HSP70.2
AKR1C4
PRKAG2
LOC733644
NOR−1FOS
BX925205
BTG2
MAFB
HSPA1B
PPAP2A
BX671077
LOC595115
Ubc
37 nodes240 edgesDensity: 36%Transitivity: 49.4%
La plupart des gènes différentiellement exprimés pour le PH sontdans la même classe (sauf 2)
21 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
BG834885BX926921
BX667806
BX917871
ARHGAP8
BX667797BF442271
CR940191
BX669670
BX676386CR939574
BX926575
BX673689
scai0001.d.08
BX924343
BX672767TRIM33
X91724
X91721
OCLN
SELH_HUMAN
BX917912
CCAR1
BX676495
BX924633
BX922053
UBE2M
BX669689
BX923207
BX672338
APITD1
IL13RA2
BX922491
BX918744
BX671723
BX917123
BX923543
BX667801
BX671017 BX674989BX675907
TEC
BX921641
BX669337
AW359912
TMEM126B
BX674550
BX667979
BX922943
MTIF2
BX668060
BX920987BX915888
BX671117
BX665361
BX665356
BX920538
BX671131
BX674063BX665674
C2
SUZ12
STC1BX918923
scaj0012.o.01
BX920480
BX668068
BX923052
DAPK1
BX915764
LPL
X91330
FADD
BX919942
BX669627
TMEM201
BX676048
BX924187
BX674399BX920880
BX924180
81 nodes475 edgesDensity: 14.7%Transitivity: 40.8%
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC47
PABPC1
BX924513
CREB3L3
CXCL12
BX671434
TMEM14C
SLC16A3
BX926631
DDX3X
H3F3B
ODC1
CALM1
GNG10
HIAT1
ZRANB1
BX671472
IMMT
THYN1
CREM
BX922466
RRAD
PPP1R3C
HSP70.2
AKR1C4
PRKAG2
LOC733644
NOR−1FOS
BX925205
BTG2
MAFB
HSPA1B
PPAP2A
BX671077
LOC595115
Ubc
37 nodes240 edgesDensity: 36%Transitivity: 49.4%
La plupart des gènes différentiellement exprimés pour le PH sontdans la même classe (sauf 2)
21 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Classification des sommets
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
CCDC47
PABPC1
BX924513
CREB3L3
CXCL12
BX671434
TMEM14C
SLC16A3
BX926631
DDX3X
H3F3B
ODC1
CALM1
GNG10
HIAT1
ZRANB1
BX671472
IMMT
THYN1
CREM
BX922466
RRAD
PPP1R3C
HSP70.2
AKR1C4
PRKAG2
LOC733644
NOR−1FOS
BX925205
BTG2
MAFB
HSPA1B
PPAP2A
BX671077
LOC595115
Ubc
37 nodes240 edgesDensity: 36%Transitivity: 49.4%
La plupart des gènes différentiellement exprimés pour le PH sontdans la même classe (sauf 2)
21 / 23Nathalie Villa-Vialaneix
N
Analyse du graphe d’interactions des gènes régulés par un eQTL ou différen-
tiellement exprimés pour le PH et comparaison
Comparaison entre les deux classifica-tions
Classe (eQTL) 1 2 3 4 5 6 7Classe (Tous)1 1 4 9 5 5 3 52 3 9 8 2 2 4 93 2 3 3 0 5 1 54 7 7 5 6 8 5 45 1 3 7 3 1 2 46 11 12 17 10 13 8 107 8 6 9 2 7 5 3
Pourquoi la majorité des sommets de toutes les classes dupremier graphe se retrouvent dans la classe 6 du second graphe ?
22 / 23Nathalie Villa-Vialaneix
N
Perspectives
Perspectives
Le sous-graphe 3 (de quel graphe ?) correspond à deux fonctionsbiologiques : à redécouper ?
D’où viennent les différences entre les deux graphes ?
Est-il pertinent d’intégrer PH ou autres phénotypes comme sommetdu graphe ?
Questions ? Commentaires ?
23 / 23Nathalie Villa-Vialaneix
N
Perspectives
Perspectives
Le sous-graphe 3 (de quel graphe ?) correspond à deux fonctionsbiologiques : à redécouper ?
D’où viennent les différences entre les deux graphes ?
Est-il pertinent d’intégrer PH ou autres phénotypes comme sommetdu graphe ?
Questions ? Commentaires ?
23 / 23Nathalie Villa-Vialaneix
N
Schäfer, J. and Strimmer, K. (2005).An empirical bayes approach to inferring large-scale gene association networks.Bioinformatics, 21(6):754–764.
Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2010).Community retrieval and visualization in large graphs.SciWatch Journal, Hexalog.To appear.
23 / 23Nathalie Villa-Vialaneix
N