julien diard lpnc-cnrs cours m2r sciences cognitives, « cognition bayésienne » 2009 comparaison...

Julien Diard — LPNC-CNRSCours M2R Sciences Cognitives, « Cognition bayésienne » — 2009

Comparaison et sélection Bayésienne de modèles

Julien DiardLaboratoire de Psychologie et NeuroCognition – CNRS

UE Cognition bayésienne24/02/2009

http://julien.diard.free.fr Julien.Diard@upmf-grenoble.fr

Correctif Ernst & Banks

Cas mono-modal

0%67%133%200%

Integration visuo-haptique

Plan• Modélisation : choix des variables

• Comparaison et sélection de modèles– Cadre général : fit, complexité, capacité de généralisation– Méthodes de validation croisée– Apparté : mesures de distance entre distribution de probabilités

• Sélection bayésienne de modèles– Sélection probabiliste vs. Bayésienne– Tel monsieur Jourdain… un exemple– Apparté : vocabulaire– Sélection « bayésienne » de modèles : AIC, BIC, MDL, BMS– Sélection bayésienne de modèles

• Questions ouvertes

Importance des variables cachées

Modélisation d’une série temporelle

t y delta_y dy seuillé81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

-1 7,00 0,290 6,00 0,251 11,00 0,46

Variable cachée V1 = {Bleu, Rouge}

V1=R V1=B

-1 2,00 0,140 4,00 0,291 8,00 0,57

P(y | [V1=R])

-1 5,00 0,500 2,00 0,201 3,00 0,30

P(y | [V1=B])

V2 = {Bleu, Rouge}t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

P(y | [V1=R] [V2=R])

P(y | [V1=R] [V2=B])

P(y | [V1=B] [V2=R])

P(y | [V1=B] [V2=B])

Digression : entropie

• Déf :

• Exemple :

[Shannon, 1948]

• Exemple 2 : P(X), X = {-1, 0, 1}

Variables cachées, connaissance et entropie

• Théorème :Les variables cachées apportent de l’information

P(y | [V1=B] [V2=B])P(y)

Prédiction de la prochaine valeur ?

P(y | [V1=B] [V2=B])t y delta_y dy seuillé

81 1,982 1,98 0,08 183 2,01 0,03 184 2,1 0,09 185 2,15 0,05 186 2,14 -0,01 087 2,18 0,04 188 2,18 0 089 2,24 0,06 190 2,33 0,09 191 2,33 0 092 2,33 0 093 2,38 0,05 194 2,32 -0,06 -195 2,28 -0,04 -196 2,26 -0,02 -197 2,19 -0,07 -198 2,14 -0,05 -199 2,16 0,02 1100 2,19 0,03 1101 2,2 0,01 0102 2,23 0,03 1103 2,17 -0,06 -1104 2,14 -0,03 -1105 2,13 -0,01 0

Pour 2007, [V1=B] et [V2=B]

Sources

Devinettes

• Quel est le suivant ?– {1, 3, 5, 7, 9, 11, ?}– {1, 1, 2, 3, 5, 8, 13, ?}– {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?}

Réponses

– {1, 3, 5, 7, 9, 11, ?} 42– {1, 1, 2, 3, 5, 8, 13, ?} 42– {0, 4, 7, 6, 8, 2, 5, 8, 9, 3, ?} 42

Devinette n° 2

• Combien de méthodes pour définir une relation mathématique ?

– Par fonction analytique f• E F• x | f(x)

– Par extension• Ensemble de points• (pas pratique pour un ensemble infini)

Quelle méthode pour la devinette ?

• Passage de points à une fonction• Utilisation de la fonction pour prédire

le point suivant

• Modélisation– Passage de points à un modèle– Utilisation du modèle pour prédire le point

Modélisation• Définition d’une classe de modèles• Sélection du modèle

– Qui maximise une mesure donnée

• Méthode très générale !– Machine learning

• Réseau de neurone• Algorithmes génétiques• Apprentissage bayésien

– Curve fitting– Optimisation

Mesures de qualité de modèles• Falsifiability

– Existe-t-il des observations incompatibles ?

• Explanatory adequacy– Make sense of the data but also established findings

• Interpretability– Réifiabilité : les paramètres sont liés à d’autres processus

• Faithfulness– La qualité du modèle vient de sa structure, pas de

propriétés du calcul, de la simulation

• Goodness of fit• Complexity (or simplicity)• Generalizability

(Myung 03)

(Léna Soler, Introduction à l’épistémologie, Ellipses,

Fit vs complexity

• Fit to regularity– Intéressant à

modéliser

• Fit to experimental noise– Pas intéressant

Théorème

• Par n points passe un unique polynôme de degré n-1– n points (ou contraintes)– Polynôme degré n-1 a n paramètres

• f(x) = ax2 + bx + c

• Par deux points passe une unique droite• Par trois points passe une unique

parabole

Théorème

• Par n points passe un unique polynôme de degré n-1

• Idem développement limité de Taylor

• Idem Transformée de Fourier– avec assez de paramètres, on

approxime tout

Fit vs complexity

Complexité d’un modèle = Nombre de paramètres + Forme

fonctionnelle

– M1 : y = sin(cos(ax))aexp(-bx)/xb

– M2 : y = axb

– M3 : y = ax + b

a=12b=1

Fonctionnelle de Tikhonov

• Mesure à minimiser– R(M, Δ) = GM(Δ) + λ H(M)

– GM(Δ) mesure de fit

– H(M) mesure de complexité (indépendante de Δ)

– λ : poids relatif• Tradeoff a résoudre : complexity

regularization (idem en machine learning)

Generalizability

Mesure de generalisation

– Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

– Mesure de divergence entre distribution de probabilité D

– D(f,g) > D(f,f)=0 si f ≠ g

E D(M, MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫

Mesure de generalisation

• Mesure de la divergence moyenne (discrepancy) entre un modèle M et le vrai modèle MT

• MT est évidemment inconnu

E D(M,MT )[ ] = D(P(Δ ˆ θ M),P(Δ MT ))P(Δ MT )dy∫

Cross-validation (CV)

• Estimer la généralisation du modèle sans connaître le vrai modèle– Partitionner les données Δ– Identification de

paramètres sur la partie calibration

– Estimation de la capacité de généralisation sur la partie validation

Méthodes de CV

• Split-sample, hold-out method• Split-half cross-validation

– Coupe en deux Δ = Δ1, Δ2

– Estime les paramètres sur Δ1

– Calcule l’erreur de prédiction sur Δ2 e1

– Intervertir Δ1, Δ2, recommencer e2

• Validation croisée

– Erreur de prédiction finale : moyenne des erreurs de prédiction (e1 + e2) / 2

Méthodes de CV

• Leave-one-out cross-validation– Découper en n-1 données pour

l’identification, et 1 donnée pour l’erreur de prédiction

– Répéter n fois– Erreur de prédiction moyenne sur les

n étapes

Méthodes de CV

• K-fold cross-validation– K blocs de taille n/K– Données pour l’identification : K-1

blocs (taille n-n/K)– Données pour la prédiction : 1 bloc

(taille n/K)– Idem leave-n/K-out– Choix de K change le résultat

Méthode de CV

• Bootstrapping– Tirage avec replacement

subsamples au lieu de subsets des données

– .632+ bootstrap method• 63,2 % de Δ pour l’identification

Critique de la CV

• Large training set overfitting• Small training set underfitting• Trouver le bon découpage

– même problème que trouver la bonne pondération dans la fonctionnelle de Tikhonov

• Rien résolu (mais facile à coder)

Mesures de distances entre distributions de

probabilités• Kullback-Leibler

– Distance / divergence de Kullback-Leibler

– KL divergence– Information gain– Relative entropy

• Cross entropy• Mutual information

KL divergence

• Pas une mesure de distance– D(p,q) ≠ D(q,p)– D(p,q) > 0 pour tout p,q

– D(p,q) = 0 ssi pk = qk pour tout k

D( p,q) = DKL ( p q) = pk log2

Cross entropy

• Entropie H(p), cross-entropie H(p,q)

• Relation avec la KL divergence

D( p,q) = H( p,q) = − pk logqk

DKL ( p q) = pk log2

DKL ( p q) = H(p,q) − H(p)

Mutual information

• mesurée en bits• I(X,Y) = I(Y,X)• I(X,Y) ≥ 0•

I(X,Y ) = P(xy)log2

P(x)P(y)y∈Y

∑x∈X

I(X,Y ) = DKL (P(XY ) P(X)P(Y ))

En modélisation probabiliste

• Un modèle– Point expérimental δ = {x,y}– P(δ) = P(y | x) P(x)

– P(δ | θ1) = P(y | x θ1) P(x | θ1)

– P(δ | θ1 m1) = P(y | x θ1 m1) P(x | θ1 m1)

En modélisation probabiliste

• Plusieurs modèles– Espace de paramètres Θ = {θ1, θ2, …}

– Classe des modèles M = {m1, m2, …}

– Un modèle : P(y | x [Θ = θ1] [M = m1])

• Méta-modèle, modèle hiérarchique– P(Δ Θ M)

= P(δi Θ M) = P(x y Θ M)

= P(y | x Θ M) P(x | Θ M) P(Θ | M) P(M)

Mesure de comparaison des modèles

• Probabilité d’un modèle m1, au vu de données expérimentales Δ – P(Δ Θ M)

= P(δi Θ M) = P(x y Θ M)

• Soient– Un seul modèle M

– D = {d1, …, dn}, un ensemble de données expérimentales

un ensemble de paramètres de M

• Quel est le modèle le plus probable, au vu des données ?

P Θ | D( )∝ P Θ( )P D | Θ( )

∝ P Θ( ) P di | Θ( )i=1

(Règle de Bayes)

(Hyp i.i.d.)

• Si P() = uniforme–

• Modèle de maximum de vraisemblance• Maximum Likelihood (MLE)

• Si P() uniforme– Modèle = prior vraisemblance

• Modèle de maximum a posteriori (MAP)• Modèle bayésien

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

Posterior Prior Vraisemblance

P Θ | D( )∝ P di | Θ( )i=1

Goodness of fit en probabilités

• Maximiser la vraisemblance P(Δ | Θ M)

• P(Δ | Θ M) = Πi P(δi | Θ M)

• max P(Δ | Θ M)= max log P(Δ | Θ M)= max log Πi P(δi | Θ M)

= max Σi log P(δi | Θ M)57

Tel monsieur Jourdain…

• Un phénomène génère des couples x,y• Un modèle

– prédit y = F(x), F linéaire, F = ax + b– autorise du « bruit » dans les mesures

• On observe D = {dx1, …, dxn}• Question

– Quels sont les paramètres a, b les plus probables ?

p(di Θ) =1

2πσexp −

(di − F(Θ))2

⎝ ⎜

⎠ ⎟

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

p(di Θ) =1

2πσexp −

(di − F(Θ))2

⎝ ⎜

⎠ ⎟

* = argmaxP Θ | D( )

= argmaxP Θ( )P D | Θ( )

= argmax P di | Θ( )i=1

= argmax log P di | Θ( )( )i=1

∑ ⎡

⎣ ⎢

⎦ ⎥

= argmin(di − F(Θ))2

2σ i2

∑ ⎡

⎣ ⎢

⎦ ⎥

= argmin (di − F(Θ))2

∑ ⎡

⎣ ⎢

⎦ ⎥

P Θ | D( )∝ P Θ( ) P di | Θ( )i=1

p(di Θ) =1

2π σexp −

(di − F(Θ))2

⎝ ⎜

⎠ ⎟

Moindre carrés de l’erreur

• Comme – un Réseau de Neurones &

Backpropagation• (Mitchell 95, p167)

– Une régression linéaire– …

Least square fitting sur Mathworldhttp://mathworld.wolfram.com

Pour aller plus loin…

• Inférence dans les cas non-linéaires

• Moindres carrés Bayésien

• Espace de modèles = {3x+2, 4x3-

2x2+4}

• Priors hiérarchiques– P( | )

• Rasoir d’Occam automatique…

P Θ( ) =1

2π σ Θ

exp −(Θ − μ Θ )2

2σ Θ2

⎝ ⎜

⎠ ⎟

* = arg max P Θ | D( )

= arg max P Θ( )P D | Θ( )

= arg max P Θ( ) P di | Θ( )i =1

= arg max log P Θ( )( ) + log P di | Θ( )( )i =1

∑ ⎡

⎣ ⎢

⎦ ⎥

= arg min(Θ − μ Θ )2

2σ Θ2 +

(di − F(Θ))2

2σ i2

∑ ⎡

⎣ ⎢

⎦ ⎥

= arg min(Θ − μ Θ )2

σ Θ2 +

(di − F(Θ))2

∑ ⎡

⎣ ⎢

⎦ ⎥

Odds, posterior odds, evidence

• Une hypothèse H (modèle), et

• Odds , log odds (stats)

P(H Δ) =P(H)P(Δ H)

P(H Δ) =P(H )P(Δ H )

P(H Δ)

P(H Δ)=

P(Δ H)

P(Δ H )

O(H Δ) =P(H Δ)

P(H Δ)

• Posterior odds

• Evidence

O(H Δ) = O(H)P(Δ H)

P(Δ H )

Odds, posterior odds, evidence

e(H Δ) =10log10 O(H Δ)

e(H Δ) = e(H) +10log10

P(Δ H)

P(Δ H )

e(H Δ) = e(H) +10 log10

P(δ i H)

P(δi H )i

Identification de paramètres vs Sélection de modèles

• Identification de paramètres– P(θ | Δ)– P(θ | Δ M) learning

• Sélection de modèle– P(M θ | Δ)– P(M | Δ)

Comparaison de modèles

• Basés sur la vraisemblance– AIC Akaike Information Criterion– BIC Bayesian Information Criterion– MDL Minimum Description Length

– BMS Bayesian Model Selection

• avec k le nombre de paramètres

• Modèle M qui minimise la mesure AIC• Fonctionnelle de Tikhonov

– AIC = lack of fit + complexity

• Dérive de l’approximation pour de larges ensembles de données de la KL divergence

AIC = −2ln P(Δ ˆ θ M) + 2k

• avec – k le nombre de paramètres– n le nombre de données

• Dérive de l’approximation pour de larges ensembles de données de la Bayesian Model Selection

BIC = −2ln P(Δ ˆ θ M) + k ln(n)

• avec– k le nombre de paramètres– n le nombre de données– I(θ) la matrice d’information de Fisher– |.| le déterminant de la matrice

MDL = −lnP(Δ ˆ θ M) +k

2π) + ln I(θ)∫ dθ

• Mesure de complexité qui prend en compte la forme fonctionnelle

• Provient de la théorie de l’information– Compression des données Δ par

modèle + déviation

MDL = −lnP(Δ ˆ θ M) +k

2π) + ln I(θ)∫ dθ

• • Vraisemblance

– P(Δ | θ M)

• Vraisemblance marginale– P(Δ | M) = Σθ P(Δ | θ M) P(θ | M)

BMS = −ln P(ΔθM)P(θ M)∫ dθ

Bayesian model selection

• Attention– BMS Bayesian model selection– BMS Bootstrap model selection

« vraie » Bayesian model selection

• Prior sur M uniforme ou pas• Prior sur les paramètres θ

uniformes ou pas

P(M Δ) =P(MΔ)

P(M Δ)∝ P(MθΔ)θ

P(M Δ)∝ P(Δθ M)P(θ M)P(M)θ

Bayesian model selection • • Intégrale sur l’espace des paramètres

– MAP si on la fait– méthodes de Monte-Carlo (voire, méthode de

Gibbs (Mitchell 95)) si on tire aléatoirement dans θ pour approximer

• Gibbs sampling• Metropolis-Hastings• Random walk methods

– Approximation du log vraisemblance autour de• BMSL Bayesian Model Selection Laplace

approximation

P(M Δ)∝ P(Δθ M)P(θ M)P(M)∫ dθ

Bayes Factor

• Extension du odds

• Ratio de vraisemblances marginales si prior uniforme sur M– P(M1) = P(M2)

P(M1 Δ)

P(M2 Δ)=

P(Δ M1)

P(Δ M2)

Bayesian Model Selection

– n’a pas la forme d’une fonctionnelle de Tikhonov

– et pourtant, mesure la complexité des M

BMS et mesure de complexité

• « Occam automatique » : intuition

• Si • et P(Δ | θ) concentré autour de

– Alors P(θ2 | Δ) pénalisé par la normalisation sur Θ2 (espace plus grand)

P(M1 Δ)

P(M2 Δ)=

P(Δθ1M1)θ 1∫ P(θ1 M1)

P(Δθ2M2)θ 2

∫ P(θ2 M2)

1 ⊂Θ2

ˆ θ ∈ Θ1

Distinguabilité des modèles

• Sélectionner un modèle, ok• Boucle expérimentale :

– où prendre la prochaine donnée expérimentale ?

– Notion philosophique d’expérience cruciale (discriminante)• Distinguer les modèles

Distinguabilité des modèles

• Modèle de distinguabilité en PBR– Extension du méta-modèle de fit

Question ouverte

• Deux problèmes inverses– Perception

• Phénomène = f -1 (stimuli)

– Modélisation• Modèle = f -1 (observations)

• Doit-on conclure que le cerveau construit des modèles comme un scientifique le fait ?

• Le cerveau est-il bayésien ?

Question ouverte

• Pourquoi 42 ?

Merci de votre attention !

Questions ?

julien diard lpnc-cnrs cours m2r sciences cognitives, « cognition bayésienne » 2009 comparaison...

Documents

julien damon

optimisation bayésienne par méthodes smc

julien lambert

julien sansonnens

julien champagne et la v...rale - julien champagne

julien didier robin jean jean-luc julien blondel poli

julien couard

julien lahaut.pdf

julien & wargadalam

equilibre et handicap locomoteur jp diard c corbe

diapo julien

julien racca

modélisation bayésienne par chaines de markov monte carlo

julien allard

imputation multiple bayésienne pour des données ... ·...

julien rey

eléments de théorie bayésienne de la...

l'échantillonnage de gibbs pour l'estimation bayésienne...

université de montréal régression logistique bayésienne

optimisation bayésienne du portefeuille un premier exemple...