identification du nombre de composants dun mélange gaussien sous la direction de bernard garel par...
TRANSCRIPT
Identification du nombre de composantsd’un mélange gaussien
Sous la direction de Bernard Garel
par chaînes de Markov à sauts réversibles dans le cas multivarié
par maximum de vraisemblance dans le cas univarié
1/42
Les mélanges gaussiens par l’exemple
Etudes cliniques :Dosage de globules blancs dans le sang des patients
Pour des individus sains, la distribution est gaussiennede moyenne 0 connue
Pour certaines maladies, le nombre de globules blancs augmente
La variance des observations est commune et connue
Deux hypothèses :
H1H0
Les individus analysés sont sains Certains individus sont malades
Le nombre de globule blancsuit une loi normale
Le nombre de globules blancssuit une loi de mélange
2/42
Problématique
Ayant observé un échantillon
Comment faire un choix entre les deux hypothèses ?Quelle confiance dans le résultat ?
Comment repérer les individus malades ?
Théorie des tests statistiques
Approche classificatrice
Pour d’autres maladies, le taux de globules diminuePeut on caractériser les maladies ?Les repérer, les compter ?
Détection du nombre de composants
3/42
Et en multivarié ?
Images d’étoile double prises au pic du midiQuelle est la probabilité d’avoir observé une étoile double ?
4/42
On souhaite analyser des données supposées Indépendantes, provenant d’un mélange gaussien à k composants de
densité :
Nombre de composants
Estimation des paramètresObjectifs de l’inférence :
Première utilisation d’un modèle de mélange : Karl Pearson (1894)
Utilisation de plus en plus large : 50% des publications postérieures à 1995
Très nombreuses applications pratiques, en univarié comme en multivarié
Thème général : Les mélanges gaussiens5/42
Notion d’identifiabilité
Le mélange est invariant sous les k! permutations des paramètres
La vraisemblance possède donc k! modes
Solution classique :
imposer une condition d’ordre comme
ou
Conditions non utilisées dans cette thèse
6/42
PLAN
PARTIE 1 : Test d’homogéneité contre mélange simple dans le cas général
PARTIE 2 : Méthodes de Monte Carlo par chaînes de Markov
• Test du rapport des maximums de vraisemblance• Log-vraisemblance modifiée• Application aux mélanges sur les variances• Tabulations
• Méthodes de Monte Carlo par chaînes de Markov• Illustrations• Le problème du « label switching »
• Modélisation bayésienne des modèles à dimension variable• Choix des lois a priori• La méthode MCMC à sauts réversibles• L’algorithme• Le mouvement de séparation• Simulations
PARTIE 3 : RJMCMC appliqué au mélanges gaussiens multivariés
7/42
PARTIE 1
Test d’homogéneité contre mélange simpledans le cas général
8/42
Ce type de problème a été étudié par de nombreux auteurs :
Approche adoptée :Résoudre ce problème dans le cas général de manière simpleen recherchant des hypothèses minimales sur la densité g
Chen & Chen (2001) Garel (2001) Lemdani & Pons (1999) Dacunha- Castelle & Gassiat (1997)
Retour à l’exemple introductif
Homogéneité : Mélange simple :
H1H0
9/42
La statistique de test est :
Avec :
Test du rapport des maximums de vraisemblance
on peut écrire la Log-vraisemblance de la façon suivante
Avec : et
10/42
On utilise une Log vraisemblance modifiée
Le sup de :
est atteint pour
c’est-à-dire sur des ensemblesde la forme :
: Zone où la vraisemblance est maximale
11/42
p1
0
+
-
-a
a
Retour à la Log-vraisemblance originale
Selon Redner(1981), la vraisemblance atteint son maximum sur un voisinage de l’hypothèse nulle, c’est-à-dire :
On se ramène à des ensembles de la forme
sur lesquels on montre que :
On peut donc utiliser le maximum de la vraisemblance modifiée
qui s’écrit :
12/42
En faisant certaines hypothèses simples sur la loi g (régularité, intégrabilité)on obtient le résultat suivant :
13/42
Application aux mélanges gaussiens sur les variances
Le théorème précédents’applique avec :
et :
Poursuite d’un travail initié par Goussanou (2001)On montre que les hypothèses nécessaires sont vérifiées
H1
H0
14/42
converge vers De plus,
où est un processus gaussien centré de variance 1 et de même fonctiond’autocovariance que
avec
et
On est donc en mesure d’effectuer les tabulations de ce testdans ce cas particulier
15/42
Davies (1977) :
Tabulations
Connaissant , on souhaite calculer u tel que :
On ne dispose que de
avecoù est la fonction d’autocovariancedu processus.
Delmas (2001) :
16/42
Les valeurs critiques pour un niveau fixé seront solutions de
Le terme est très complexe (Delmas (2001))et conduit à de nombreuses instabilités numériques
DL de
17/42
PARTIE 2
Méthodes de Monte Carlo par Chaînes de Markovet « label switching »
18/42
De plus, les méthodes classiques de maximisation ne réussissent
généralement pas à trouver le maximum global de la vraisemblance à cause de la multimodalité (identifiabilité).
Même des modèles simples peuvent mener à des calculs très complexes
La vraisemblance d’un mélange gaussien à k composants
possède kn termes, ce qui rend son calcul prohibitifpour de grands échantillons
Permettent de résoudre des problèmes d’optimisation (liés à la vraisemblance)comme des problèmes d’intégration (fréquents en statistique bayesienne)
Méthodes de Monte Carlo par chaînes de Markov
19/42
Méthodes de Monte Carlo par Chaînes de Markov
Objectif de l’intégration par MCMC :générer un échantillon distribué selon , la loi de Y
et approximer
par : On a
Un exemple, l’algorithme de Metropolis Hastings
20/42
MCMC et méthodes bayesiennes
Dans un cadre bayésien, l’information apportée par les données y1,…,yn
réalisations d’une v.a. , combinée avec une informationa priori sur le paramètre (donnée par la densité )est résumée par la loi a posteriori
avec
Les méthodes MCMC sont ici utilisées pour simuler des lois a posteriori
21/42
Le problème du « label switching »
0 1
0 1
0 0.5
0 0.5
0 1
0
1
0 0.5
0
0.5
22/42
Un exemple
On génère un échantillon de densité :
4000 itérations de l’algorithme de Gibbs nous donnent le résultat suivant :
23/42
Des solutions existentStephens (2000) : Un algorithme de type k-means avec k! classescorrespondant aux k! façons d’ordonner les composants du mélange
Celeux (1998) : Comparable à une version séquentielle de l’algorithme des k-means dont les centres sont déterminés par les m premières itérations.
24/42
PARTIE 3
Méthode de Monte Carlo par chaînes de Markovà sauts réversibles
appliquée aux mélanges gaussiens multivariés
Généralisation multidimensionnelle de Richardson & Green (1997)
25/42
Choix de modèles
Le nombre de composants k représente la dimension du modèle
associés
La densité d’un mélange gaussien multivarié s’écrit
avec :
choisir parmi
Objectif :
26/42
Modélisation bayésiennedes modèles à dimension variable
On s’intéresse à la loi a posteriori de
« One of the things we do not know is the number of things we do not know »Peter Green
27/42
Loi a priori sur
Loi a priori sur
Vraisemblance
Second problème :K! modes dans la vraisemblanceET DONC dans
Phénomène de « label switching » dans les simulations
Premier problème : ne peut être obtenue analytiquement
Utilisation de méthodes de type MCMC
Modèle hiérarchique
On introduit le modèle à données manquantes
Chaque donnée yi provient d’un des composants du mélange
yi est associée à une variable indicatrice telle que
28/42
Choix des lois a priori
Inspirés par Richardson & Green (1997) et Stephens (2000)
A priori sur le nombre de composants :
A priori sur les moyennes et les variances :
Attention ! Les lois a priori impropres sont prohibées
Risque de composants vides Loi a posteriori impropre
indépendants et faiblement informatifs{
loi de Poisson tronquée à
29/42
Richardson & Green (1997) Stephens (2000)
R = amplitude de variation des données
30/42
Graphe acyclique ordonné
y
zμ
k
hg
31/42
La méthode MCMC à sauts réversibles
Soit la variable aléatoire de réalisation
Sauts réversibles entre espaces différents
32/42
On génère une chaîne de Markov sur
se déplaçant de vers
Si : mouvement de Gibbs classique
Si : changement de dimension !
On définit un difféomorphisme avec (réversibilité)
Transition de vers Transition de vers
Pour se déplacer de vers , nous devons compléter ces espacespour se ramener à une dimension commune
nnnn kkkkkk '''
33/42
Applications permettant de changer de dimension
est généré selon la densité est généré selon la densité
R kn
R 'kn k R k' n k
R ' n k
k ' k
u 'u
gkk'
gkk'2
gkk'1
gkk'1
gkk'2
gkk'
34/42
Le nouvel état proposé est
Il est alors accepté avec la probabilité :
c’est-à-dire
: la probabilité de tenter un déplacement de vers
: la probabilité de tenter un déplacement de vers
Rapport des lois a prioridu nombre de composants
Rapport des lois a priorisur les paramètres
Rapportdes vraisemblances
: jacobien de la transformation
35/42
L’algorithme
1.
2. Mise à jour de
3. Mise à jour des
4. Mise à jour des allocations
5. Mise à jour de l’hyperparamètre
6.
Avec probabilité ½ essayer de séparer un composantAvec probabilité ½ essayer de combiner deux composants
Avec probabilité ½ essayer de faire naître un composantAvec probabilité ½ essayer de tuer un composant
{
{
36/42
Le mouvement de Séparation
Proposer un nouveau jeu de paramètres aussi bien supporté par les donnéesque le précédent
Garantir la définie positivité des nouvelles matrices de variance
Conserver les moments jusqu’à l’ordre 2
Utiliser la décomposition de Cholesky
37/42
Le changement de variable proposé est le suivant :
de jacobien : J =
Pour r = 1
J =à comparer avec celui
de Richardson & Green (1997)
38/42
Simulations
Nous avons généré l’échantillon bivarié suivant :
Estimation à noyau de la densité
Données générées
39/42
=1 =2
=3 =4
Evolution du nombre de composants au cours des itérations
Loi a posteriori associée
Nombre de composants a posteriori
Paramètre a priori pour le nombre de composants :
40/42
=1 =2
=3 =4
Evolution du nombre de composants au cours des itérations
Loi a posteriori associée
Nombre de composants a posterioripour les données réelles « geyser »
41/42
Conclusion
Algorithme complexe Nécessitant un très grand nombre d’itérations Estimation du nombre de composants prometteuse
Nécessité d’une étude plus approfondie (convergence, « label switching » …)
Programmer avec un langage compilé et effectuer un très grand nombre d’itérations
Envisager d’autres solutions au « label switching » (fonctions de coûts « label free »)
Envisager d’autres types de mouvements (condition sur les moments non nécessaire)
Utiliser une paramétrisation des matrices de variance