Modélisation Bayésienne par chaines de Markov Monte Carlo
• I. Les probabilités Bayésiennes• II. Echantillonnage par Monte Carlo
– Théorie des chaines de Markov– Algorithme de Metropolis
• III. Application: reconstruction phylogénétique
• IV. Recherche de motifs dans les séquences régulatrices par Echantillonnage de Gibbs
I. Lois des probabilités
Interprétation classique :Fréquence de phénomènes "aléatoires"
Interprétation Bayésienne :Degré d´incertitude sur la véracité d´une assertion(dépend du contexte, en particulier, de l´information disponible)
Raisonner en présence d´incertitudeApprendre par l´expérience et l´observation
(probabilité de tirer un 6 lors d´un lancer de dés)
(probabilité que les hommes soient plus proches des chympanzésque du gorille, connaissant la séquence de leurs génomes respectifs)
Lois des probabilités
)|(),|()|,( IBpIBApIBAp
1)|()|( IApIAp
1)|(0 IAp
1)|(1
N
nn IAp
),...,( 2,1 nAAA ensemble exhaustif de
)|,()|,( IABpIBAp commutativité
loi du produit
loi de la somme
propositions mutuellement exclusives :
ou:
domaine
11 machines, dont 1 défectueuse.Produisent des robinets, qui sont conditionnés par caisses de 600.
Machines normales produisent en moyenne une proportion de:5/6 robinets corrects1/6 robinets défectueux
Machine défectueuse:2/3 robinets corrects1/3 robinets défectueux
On prend une caisse au hasard, et on tire n=1, 2… robinets, pour les tester
En déduire la probabilité que la caisse provienne de la machine défectueuse.
Problème:
A : la caisse provient de la machine défectueuse
I0 : notre information a priori (avant toute observation)
B : la caisse provient d´une machine normale
11
1)|( 0 IAp
11
10)|( 0 IBp
3
2),|( 01 IAbonRp
3
1),|( 01 IAdefRp
6
5),|( 01 IBbonRp
6
1),|( 01 IBdefRp
),|( 01 IRAp ? "Probabilité inverse"
)|,()|,( 0101 IARpIRAp
)|(),|()|,( 00101 IApIARpIARp
)|(),|()|,( 010101 IRpIRApIRAp
)|(
)|(),|(),|(
01
00101 IRp
IApIARpIRAp
)|(),|()|(),|( 0010101 IApIARpIRpIRAp
Théorème de Bayes
)|(
)|(),|(),|(
01
00101 IdefRp
IApIAdefRpIdefRAp
),|(),|(1 0101 IRBpIRAp11
10
6
1
11
1
3
1)|( 01 IdefRp
)|(111
31
01 IdefRp
)|(1110
61
01 IdefRp
)|(
)|(),|(),|(
01
00101 IdefRp
IBpIBdefRpIdefRBp
17.06
1
1110
61
111
31
111
31
),|( 01
IdefRAp
83.06
5
1110
61
111
31
1110
61
),|( 01
IdefRBp
17.0),|( 01 IRAp
83.0),|( 01 IRBp
09.0)|( 0 IAp
91.0)|( 0 IBp
defR 1defR 2
29.083.0
61
17.031
17.031
)|(
),|(),,|(),,|(
02
01012012
IRp
IRApIRARpIRRAp
71.083.0
61
17.031
83.061
)|(
),|(),,|(),,|(
02
01012012
IRp
IRBpIRBRpIRRBp
?),,|( 012 IRRAp
?),,|( 012 IRRBp
17.0),|( 01 IRAp
83.0),|( 01 IRBp
09.0)|( 0 IAp
91.0)|( 0 IBp
defR 1bonR 2
14.083.0
65
17.032
17.032
)|(
),|(),,|(),,|(
02
01012012
IRp
IRApIRARpIRRAp
86.083.0
65
17.032
83.065
)|(
),|(),,|(),,|(
02
01012012
IRp
IRBpIRBRpIRRBp
?),,|( 012 IRRAp
?),,|( 012 IRRBp
),...,|( 021 IRRAp
),...,|( 021 IRRBp
),...,|( 021 IRRBp
),...,|( 021 IRRAp
Simu sous une bonne machine
Simu sous une Machine défectueuse
Théorème de Bayes
Probabilité a prioriVraisemblance
Probabilitéa posteriori
Facteur de normalisation
)|(
)|(),|(),|(
0
000 ISp
IApIASpISAp
),...,,( 21 nRRRS Séquence de tirages successifs :
NbNd
IASp
3
2
3
1),|( 0
Nd robinets défecteux
Nb robinets ok
Sd : séquence de robinetstous défectueux.
)|(
)|(),|(),|(
0
000 ISp
IApIASpISAp
)|(
)|(),|(),|(
0
000 ISp
IBpIBSpISBp
)|(),|()|(),|()|( 00000 IBpIBSpIApIASpISp
),|( 0ISAp d
),|( 0ISBp d
)|(ln 0ISp d
)|(ln 0ISpSéquences simuléessous le modèle I0
Sd : séquence de robinetstous défectueux.
)|(
)|(),|(),|(
0
000 ISp
IApIASpISAp
Théorème de Bayes
Probabilité a prioriVraisemblance
Probabilitéa posteriori
Facteur de normalisation
Mesure la validité globale du modèle, face aux données
)|(
)|(),|(),|(
MDp
MpMDpMDp
Théorème de Bayes
Probabilité a prioriVraisemblance
Probabilitéa posteriori
Facteur de normalisation
Mesure la validité globale du modèle, face aux données
Modèle paramétré par
Données DM
Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque
Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.
fp NNMSp )1(),|(
Tirage à pile ou face avec une pièce biaisée.
: probabilité de tirer pile lors d´un tirage quelconque (inconnue)
A priori, peut prendre n´importe quelle valeur entre 0 et 1
)|( Mp distribution a priori uniforme sur [0,1]
Un tirage est effectué, la séquence S =(pile, face, … pile) est obtenue. Pile obtenu Np=10 fois, face obtenu Nf =5 fois.
fp NNMSp )1(),|(
?),|( MSp Estimer , sachant la séquence S
)|(
1)1(
)|(
)|(),|(),|(
MSpMSp
MpMSpMSp
fp NN
1
0
)|(),|()|( dMpMSpMSp
1
0 )!1(
!!)1(
pf
pfNN
NN
NNdfp
fp NN
pf
pf
NN
NNMSp )1(
!!
)!1(),|(
1)|( Mp fp NN
pf
pf
NN
NNMSp )1(
!!
)!1(),|(
)|( Mp
),|( MSp
10 piles5 faces
0.66
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 13. Poser et faire rebondir sur les bords de l´intervalle [0,1]4. recommencer à l´étape 2.
)5.0(1 Unn
5.00
n
II. Monte Carlo: Marche aléatoire
0 1
1. Poser 2. Tirer un nombre aléatoire U uniformément, entre 0 et 13. Poser (en faisant rebondir sur les bords de l´intervalle [0,1])
4. calculer
5. accepter avec une probabilité p=Min(1,a)
si accepté :
si refusé :
6. recommencer à partir de 2.
)5.0(* Unn
5.00
Marche aléatoire biaisée
fp
fp
Nn
Nn
Nn
Nn
n
n
MSp
MSpa
)1(
)1(
),|(
),|( ***
*1 nn
nn 1
Echantillonnage de la distributionde probabilité a posteriori
),|( MSp
N
nnN
dMSp1
1
0
1),|( Espérance a posteriori :
Chaines de Markov
Suite de variables aléatoires ,...),...,,( 210 nxxxxà valeurs dans un espace X
Processus sans mémoire
),()|(),...,|( 11101 nnnnnn xxqxxpxxxxp
),( yxq défini sur X2 Une chaine de Markov est entièrement définie par :
son noyau de transition
la distribution marginale de l´état initial )(0 xp
Distribution marginale de l´état n+1 : ),()()(1 yxqxpypx
nn
),()()( yxqxpypx Distribution stationnaire ("point fixe"):
(dans le cas précédent, l´intervalle [0,1])
Distributions stationnaires et bilan détaillé
),( yxqChaine de Markov définie par :
son noyau de transition
la distribution marginale de l´état initial )(0 xp
),()()( yxqxpypx Distribution stationnaire ("point fixe"):
Bilan détaillé : ),()(),()( yxqxpxyqyp
Implique que (.)p est une distribution stationnaire
Chaines de Markov ergodiques
),( yxqUne chaine de Markov définie par :
son noyau de transition
la distribution marginale de l´état initial )(0 xp
est ergodique si, elle possède une distribution stationnaire
)(0 xp (.)np
(.)p
telle que (.)ptend vers ,
Cette distribution stationnaire est alors évidemment unique
Algorithme de Métropolis
),(),( xyqyxq On dispose d´une chaine de Markov ergodique, de noyau symétrique:
On veut échantillonner une distribution non normalisée, définie sur l´espace X :
0)( xr
Xx
xrZ )( facteur de normalisation (inconnu)
Z
xrxp
)()( notre distribution de probabilité cible
)(
)(,1),(),(
xr
yrMinyxqyxqOn construit la chaine de noyau
Alors, cette chaine est ergodique, de distribution stationnaire )(xp
)|(
)|(),|(),|(
MDp
MpMDpMDp
Métropolis et inférence Bayésienne
Probabilité a priori
VraisemblanceProbabilitéa posteriori
Facteur de normalisation
Modèle M, paramétré par
)|(),|()( MpMDpr Chaine de Markov ,...),...,,( 10 n espace d´états
Chaine ayant la probabilité a posteriori comme dist. stationnaireObtention d´un échantillon (10 000 points)Moyennes sur l´échantillon: espérances a posteriori
III. Modèles stochastiques d´évolution moléculaire
Séquences alignéesArbre phylogénétique?
),( lT (topologie + longueurs de branches)Paramètre :
Données : (séquences alignées)DModèle : M
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
A
A G
A C
1. Tirer une lettre parmi {A,C,G,T}(avec probabilités 1/4, 1/4, 1/4, 1/4)
A
l
le
3. Si substitution, alors tirer un nouvel état avec probabilités 1/4, 1/4, 1/4, 1/4
C
4
1)1(),|( lelACp
2. Probabilité qu´il n´y ait eu aucune substitution sur cette branche :
ll eelAAp 4
1)1(),|(
Modèles stochastiques d´évolution
A
A
C
G
),|( lTCp i
1l
2l3l
4l6l
5l
CiColonne
?
A
A
C
G
5s 5D
),|(),|()|( 2155 lCAplCApCsDp
1l
2l3l
4l6l
5l
4
1)1(
4
1)1( 21 ll ee
A
A
C
G
5s 5D
4
1)1(
4
1)1()|( 2211
55llll eeeeAsDp
1l
2l3l
4l6l
5l
A
A
C
G
5s 5D
)|( 55 AsDp
1l
2l3l
4l6l
5l
)|( 55 CsDp )|( 55 GsDp )|( 55 TsDp
A
A
C
G
6s 6D
)|( 66 AsDp
1l
2l3l
4l6l
5l
)|( 66 CsDp )|( 66 GsDp )|( 66 TsDp
A
A
C
G
6D
1l
2l3l
4l6l
5l5D
iCD 77s6s
5s
)|( 77 AsDp )|( 77 CsDp )|( 77 GsDp )|( 77 TsDp
?
A
A
C
G
6D
1l
2l3l
4l6l
5l5D
iCD 77s
)|( 77 AsDp
TGCAsTGCAs
sDplsspsDplssp,,,
66676,,,
55575
65
)|(),|()|(),|(
6s
5s
A
A
C
G
6D
1l
2l3l
4l6l
5l5D
iCD 77s6s
5s
)|( 77 AsDp )|( 77 CsDp )|( 77 GsDp )|( 77 TsDp
TGCAs
i sDpMCp,,,
77
7
)|(4
1),|(
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
Ci
i
i lTCplTDpDp ),|(),|()|( Vraisemblance :
N sitesP taxonsK=4 caractères
Complexité: NPK2
Algorithme du "pruning"
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
Ci
Modèles stochastiques Bayésiens
i
i MCpMDp ),|(),|(
Prior :
Vraisemblance :
)|( Mp Uniforme
Théorème de Bayes : Distribution a posteriori ),|( MDp
Echantillonnage par Métropolis
*nn
n
*n
1.
2.
3. Reprendre en 1
Accepter avec probabilité
Proposer une modif
selon un noyau symétrique
)|(
)|(,1
*
Dp
DpMinp
n
n
T1
T2
T3
T4
"Node-sliding"
27000
28000
29000
30000
31000
32000
33000
E =-ln L
burn in(discarded)
sample
Monte Carlo Markov chain (MCMC)
)|( Dp Kkk ..1)( ),( kkk lT
Total
T
K
KMDTp ),|(
For any topology T :
~
Chick
CatFishSnailFlyHydraPolyp
Man
posterior consensus
67
87
90
45
78
Chick
CatFishSnailFlyHydraPolyp
A G C G A T C TA G G G A T A TA G G G A T A CA G G C A C A TA C G C A C A CA C C A A C A TA C C A A C A C
Man
Modèles sites rapides/sites lents
A C C G A T A C
Chick
CatFishSnailFlyHydraPolyp
A G C G A T C TA G G G A T A TA G G G A T A CA G G C A C A TA C G C A C A CA C C A A C A TA C C A A C A C
Man
Modèles sites rapides/sites lents
A C C G A T A CC T
C
Chick
CatFishSnailFlyHydraPolyp
A G C G A T C TA G G G A T A TA G G G A T A CA G G C A C A TA C G C A C A CA C C A A C A TA C C A A C A C
Man
C
A C C G A T A CC T
C T
C T
1 substitution
3 substitutions
Chaque site possède une vitesse iv Niivv ..1)( ,
Modèles sites rapides/sites lents
),,( vlT(topologie + longueurs de branches + vitesse en chaque site)
Paramètres :
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
Ci
),,,|( MvlTCp ii
1iv
Chaque site possède une vitesse iv Niivv ..1)( ,
Modèles sites rapides/sites lents
),,( vlT(topologie + longueurs de branches + vitesse en chaque site)
Paramètres :
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A TA C C A A C A T
Man
Ci
),,,|( MvlTCp ii1iv
lTDv ,,|
Prendre chaque site un par un
Pour le site i :
Proposer )5.0.(* Randvv ii et faire rebondir sur la limite 0* iv
)|(),,,|(
)|(),,,|( **
MvpMvlTCp
MvpMvlTCpa
iii
iiiCalculer
Accepter le changement avec une probabilité aMinp ,1
Rééchantillonner les vitesses en chaque site
),,( vlT
Échantillon: )|( Dp ~Kkk ..1)( i.i.d.
Echantillonnage alterné
lTDv ,,|vDlT ,|,
),,( kkkk vlT
Consensusmoyen a posteriori
Vitesse moyenne a posteriori
en chaque site
Modèles d´évolution moléculaire
Chick A C C G A G A T
CatFishSnailFlyHydraPolyp
A G C G A G C TA G G G A G A TA G G G A C A TA G G C A C A TA C G C A C A TA C C A A C A T
Man
A C C A A C A T
Problème Phylogénétique
Problème fonctionnel
IV. Détection de modules fonctionnelsdans les séquences
AAAGACATGCATACAGCCCGACACTAGCACCATCAGCAG
ARNm
protéine
+1sites de fixationde facteurs de transcription
début de la transcription
)(iQ
5)( iL)(i
jkq
TGCAk
ijkq
,,,
)( 1
0.5 0.4 0.1 0.5 0.2
0.2 0.2 0.7 0.2 0.2
0.1 0.2 0.1 0.2 0.1
0.2 0.2 0.1 0.1 0.5
A
C
G
T
Motif
Longueur
Matrice
AAAGACATGCAAACATCCCGACACTAGCACCATCAGCAG
0.5 x 0.4 x 0.7 x 0.5 x 0.5
)(
1
)()( )|(i
j
L
j
ijw
i qQWp
Mot )(..1)( iLjjwW
)1(Q 5)1( L
0.5 0.4 0.1 0.5 0.2
0.2 0.2 0.7 0.2 0.2
0.1 0.2 0.1 0.2 0.1
0.2 0.2 0.1 0.1 0.5
A
C
G
T
ATGCAAACATCCCGACACTAGCACCATCAGCAG
)2(Q 4)2( L
0.3 0.4 0.1 0.5
0.3 0.2 0.7 0.2
0.2 0.2 0.1 0.2
0.2 0.2 0.1 0.1
0.3
0.3
0.2
0.2
background
Annotation A de la séquence S:
)|( ASp
...024
23
22
21
000015
14
13
12
11
00000TCACAGCCCTACAAACGTA qqqqqqqqqqqqqqqqqqq
)0(kq)1(
jkq)2(
jkq
ATGCAAACATCCCGACACTAGCACCATCAGCAG
Annotation A de la séquence S: ),|( MASp
Distribution a priori sur l´ensemble des annotations possibles )|( MAp
probabilité a priori d´apparition du motif i )(iftous les positionnements non-chevauchants équiprobables a priori
)|(
)|(),|(),|(
MSp
MApMASpMSAp
Probabilité a priori
VraisemblanceProbabilitéa posteriori
Facteur de normalisation
Modèle d´annotation M
Echantillonnage de GibbsATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGCAAACATCCCGACACTAGCACCATCAGCAG
)|( SAp
)|( *1 SAp
)|( *2 SAp
)|( *3 SAp
)|( * SAp n
ATGCAAACATCCCGACACTAGCACCATCAGCAG
Annotation A de la séquence S: ),|( MASp
Distribution a priori sur l´ensemble des annotations possibles )|( MAp
probabilité a priori d´apparition du motif i )(iftous les positionnements non-chevauchants équiprobables a priori
Modèle d´annotation M
Les coefficients des matrices sont également inconnus:distribution a priori sur toutes leurs valeurs possibleséchantillonnage conjoint
)1(jkq
Apprentissage automatiquedu dictionnaire de motifs
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC
TGTTTGTTCTCACCATTACACCAGGTCA
ACCACCCCGGGCGGCACACTACGGACGAC
0.2 0.4 0.3 0.5 0.5 0.2 0.2
0.3 0.2 0.2 0.2 0.2 0.2 0.2
0.3 0.2 0.2 0.2 0.2 0.1 0.1
0.2 0.2 0.3 0.1 0.1 0.5 0.5
A
C
G
T
)1(jkq
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC
TGTTTGTTCTCACCATTACACCACGTCA
ACCACCCCGGGCGGCACACTACGGACGAC
)1(jkq
0.2 0.4 0.3 0.5 0.5 0.2 0.2
0.3 0.2 0.2 0.2 0.2 0.2 0.2
0.3 0.2 0.2 0.2 0.2 0.1 0.1
0.2 0.2 0.3 0.1 0.1 0.5 0.5
A
C
G
T
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC
TGTTTGTTCTCACCATTACACCACGTCA
ACCACCCCGGGCGGCACACTACGGACGAC
0.5 0.3 0.6 0.4 0.0 0.4 0.1
0.3 0.5 0.2 0.4 0.5 0.2 0.6
0.3 0.1 0.1 0.1 0.0 0.1 0.2
0.2 0.1 0.1 0.1 0.5 0.3 0.1
A
C
G
T
)1(jkq
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC
TGTTTGTTCTCACCATTACACCACGTCA
ACCACCCCGGGCGGCACACTACGGACGAC
0.5 0.3 0.6 0.4 0.0 0.4 0.1
0.3 0.5 0.2 0.4 0.5 0.2 0.6
0.3 0.1 0.1 0.1 0.0 0.1 0.2
0.2 0.1 0.1 0.1 0.5 0.3 0.1
A
C
G
T
)1(jkq
ATGCAAACATCCCGACACTAGCACCATCAGCAG
ATGATAGGCACACCAGGGCAGAC
TGTTTGTTCTCACCATTACACCACGTCA
ACCACCCCGGGCGGCACACTACGGACGAC
0.5 0.3 0.6 0.4 0.0 0.4 0.1
0.3 0.5 0.2 0.4 0.5 0.2 0.6
0.3 0.1 0.1 0.1 0.0 0.1 0.2
0.2 0.1 0.1 0.1 0.5 0.3 0.1
A
C
G
T
)1(jkq
Thompson et al, Genome Research, 2004
Thompson et al, Genome Research, 2004