dea perception et traitement de linformation reconnaissance des formes règle de bayes s. canu...
TRANSCRIPT
DEA Perception et Traitement de l’Information
Reconnaissance des formes
Règle de Bayes
S. Canu
http://psichaud.insa-rouen.fr/~scanu/RdF
Buts de la RdFD : Algorithme
de Reconnaissance
des Formes
Une forme x(vecteur forme
des caractéristiques)
C’est la forme
« y=D(x) »
classe" vraiela" ,
)( ,...,,...,1 : RdF
décisions des ensemble ,...,2,1tiquescaractéris des espace
D(x)Rx
xDxLlRD
LyRx
d
d
d
Nous voulons un algorithme de RdF performant
K
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJD
1 ,)(,)(,)(
)(min décision de règle uned'Cout D
K
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJD
1 ,)(,)(,)(
)(min décision de règle uned'Cout D
Théorème de Bayes (et non la règle)
)(
),( : ème théor
),(,
)(,
, jointe loi
),()( ns"observatio" des loi
à (analogue ),( ncevraisembla
posteriori à loi
priori à loi
xf
sSPkxfxsSP
sSPkxfxsSP
xfxsSPxsSP
xsSP
sSPkxfxf
sSxPkxf
xsSP
sSP
X
kXk
kXk
Xkk
k
kk
XX
kX
k
k
Ex : en français P(e) = 0,12
On choisi la source, et on émet
On choisi une observation, et on décide
Ex : après avoir observé x quelle est P(e|x) ?
Attention à la confusion source - action
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
illustration
source 1
source 2
sans autre informationon décide toujours qu’un pixel vient de la zone (source 1)
car P(S1) > P(S2)
A PRIORI
que se passe t’il si l’on connaît un caratéristique : xl’intensité
-50 0 50 1000
500
1000
1500
2000
10 20 30 40 50 60 70 80 90 100
10
20
30
40
50
60
70
80
90
100
illustration
source 1
source 2
Caractéristique : xl’intensité
on décidel’action qui « coûte »
le moins cher
en cout 0-1c’est la classe maxA POSTERIORI
x
f(x|s1)
f(x|s2)
Les vraisemblances
111 , SPSxfxaP
-8 -6 -4 -2 0 2 4 6 8 10 120
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
illustration
f(x|s1)
f(x|s2)
111 , SPSxfxaP
222 , SPSxfxaP
Règle de décision
notations
xaP
sPkxfxf
sxPkxf
xaP
sP
l
kk
XX
kX
l
k
, jointe loi
),()( ns"observatio" des loi
à (analogue ),( ncevraisembla
posteriori à loi
priori à loi
espace des sources Kk sss ,...,,...,1S
)( ,...,,...,1 : RdF
autres)(classes actions des ensemble ,...,2,1tiquescaractéris des espace
xDyxLlRD
LR
d
d
A
lklk asCasRC
,, :Cout
AS J coût d ’une règle de décision
(erreur de prédiction)
Cas particulier des 2 classes et coûts 0-1
0et 1et erreur
action l' décideon lesquelspour soit
0
0
SCXPSCXPP
axC
O
O
xPxPxSP
pxfpxf
SPxfSPxfxf
SxPxfxf
xrxSPxSPxSPxSE
xSPxrxSPxSP
xSPxSPxsPxsP
SPpSPsPsP
ssS
XX
XXX
XX
,1 deet ,0 de composée , jointes lois
)1,(1)0,(
1)1,(0)0,()( ns"observatio" des lois
à (analogue )1,( ),0,( ncesvraisembla
)(11*10*0 : cas ce dans
1)( 110
1,0ou , posteriori à lois
1,0ou , i)(Bernouill priori à lois
1et 0 valeurs2 prendrepeut qui aléatoire variableuneest source la ,
10
10
10
Cas particulier des 2 classes et coûts 0-1
0)(1)(
0)(1)(
10
1100
10
1 0
1, 0,1
1, )(, 0,)(,1
011101 )(sinon 1
110000 si 0,CCout
) source laest c'( et ) source laest c'( actions 2 rejet, de pas
éprobabilit de Bernouilli de loi unesuit 1,et 0 sources 2
xDX
xDX
xDX
xDX
XX
lk
dxxfxSP dxxfxSP
dxxfp dxxfp
dxxfxDsCp dxxfxDsCp
), ; C(),C(lk
), ; C(),C(lkas
sas a
pSs s
Minimiser J(D) c’est minimiser la probabilité d’erreur
2
1 ,)(,)(,)(
)(min décision de règle uned'Cout
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJDD
erreur 1et 0et 0 PSCXPSCXP O
0
0.5
1
loi à
pos
terio
ri
on dé cide la classe 0 on dé cide la classe 1
Théorème : - D* est la règle de Bayes (celle qui minimise la probabilité d’erreur)
- J*=J(D*)=P(D*(x)=S) est la plus petite erreur possible (et donc de coût minimal dans le cadre deux classes 0-1)
Théorème fondamental
sinon 0
2/1)(1P si 1)(*
xrxSxD
Définition : règle de décision du maximum « a posteriori »
x
r(x)
x*tel que
r(x*)=1/2
Définition fondamentaleCoût minimum = maximum à posteriori = minimum d’erreur
Définitions : - D* est appelée règle de Bayes c’est la règle qui donne la plus petite probabilité d’erreur
- le problème qui consiste à rechercher D* est le problème de Bayes
- J*=J(D*) est appelée l’erreur de Bayes
)(minarg )(minarg : possibler classifieumeilleur le
)( )( :ur)(classifiedécision de règle uned'erreur d' éprobabilit
*
*
DJsXDPDD
SXDPDJ
DD DD
Pour donnés et ),( kX sPkxf
espace des sources
Résumé : problème de RdF
kX
ksxPkxf
sP à (analogue ),( ncevraisembla
priori à loi
Kk sss ,...,,...,1S
)( ,...,,...,1 : RdF
autres)(classes actions des ensemble ,...,2,1tiquescaractéris des espace
xDyxLlRD
LR
d
d
A
lklk asCasRC
,, :Cout
AS
(erreur de prédiction)
K
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJD
1 ,)(,)(,)(
)(min décision de règle uned'Cout D
)(minarg )(minarg Bayes de règle : possibler classifieumeilleur le
)( )( :ur)(classifiedécision de règle uned'erreur d' éprobabilit cout
1-0cout - classes 2
*
*
DJsXDPDDSXDPDJ
DD DD
dens
itée
et lo
i à p
oste
riori
classe 0classe 1classe 0classe 1
illustration
Illustration 1dpour deux classes
f X(x,0) ~ N(0,1)
f X(x,1) ~ N(1,1)
r(x) = P(S=1|x)
P(S=0|x) = 1-r(x)
Démonstration du théorème fondamental(maximum a posteriori)
1)(
0)(1)(
0)(1)(
1 )(21
)(11)(11
011 11
0et 0)(1et 1)(1
)(1 )(
XD
XDXD
XDXD
xr
xrxr
xXSPxXSP
xXSXDPxXSXDP
xXSXDP
xXSXDP
0111)(2* 1)(1)(* xDxDxrDJDJ
négatifssont sdeux terme les 21
)(0* si
positifssont sdeux terme les 21
)(1* si
xrD
xrD
Il est difficile de minimiser J(D) (démonstration constructive)car la fonction coût n’est pas dérivable
Interprétation en terme de moindres carrés
xXSPxXSExr
xrXD
xXSxrExrXDxXSxrxrXDE
xXSxrExrXD
xXSxrxrXDE
xXSXDEDJ
x
D
D
D
D
DD
1)(
)()(min
)()()(min )()()(2
)()()(min
)()()(min
)(min)(min
fixé à
2
22
22
2
2
La minimisation de l’erreur quadratique mène à la règle de Bayès
)(
)(min)(min
xr
xXSXDEDJDD
La minimisation de l’erreur absolue aussi !
dens
itée
et lo
i à p
oste
riori
classe 0classe 1classe 0classe 1
Rejet : règle de Chow
Rejet d’ambiguité
sinon rejet
2/1)(10P si 02/1)(1P si 1
)(* A
AxrxS
xrxSxD
Définition : règle de décision du maximum « a posteriori »
1/2
1
A
x
classe 0 rejet classe 1
Rejet de distance (Dubuisson)
dens
itée
et lo
i à p
oste
riori
classe 0classe 1classe 0classe 1
1/2
1
A
x
rejet de distance classe 0 rejet classe 1 rejet de distance
D = 0 et A = .5 :
règle du MAP (bayes pour le coût 0-1)
ambiguïtéd'rejet sinon 0 classe 2/1)(10P si 1 classe 2/1)(1P si
:sinon distance derejet P si
)(*
D
A
AxrxS
xrxS
x
xD
D
-4 -2 0 2 4 6 8-6
-4
-2
0
2
4
6
0.7
0.7
0.7
0.7
??????
C0
C1
illustration
Illustration 2dpour deux classes
f X(x,0) ~ N(0,1)
f X(x,1) ~ N(1,1)
r(x) = P(S=1|x)
P(S=0|x) = 1-r(x)
P(x) = f X(x,0) + f X(x,1)
rejet d’ambiguïté
-4 -2 0 2 4 6 8-6
-4
-2
0
2
4
6Discrimination de Parzen
illustration
Un exemple simpleS=0 vous ratez votre DEA, S=1 vous l’avezX : le nombre d’heures de travail par semaine
...3,0
,min41
* alors
4,0uniforme~X si
)! nul prédictif(pouvoir 21
* alors
heures) étudier d' obligés êtes ou vous militaire (école si
,min)(1),(min*
21
si rateon
21
si al'on Bayes de règle
1 posons
4
0
dxxc
xcc
DJ
c
DJ
ccXXc
XcExrxrEDJ
cxcx
x
cxcx
xcx
xxXSP
c
Un exemple simpleS=0 vous ratez votre DEA, S=1 vous l’avezX : le nombre d’heures de travail par semaine
...3,0
,min41
* alors
4,0uniforme~X si
)! nul prédictif(pouvoir 21
* alors
heures) étudier d' obligés êtes ou vous militaire (école si
,min)(1),(min*
21
si rateon
21
si al'on Bayes de règle
1 posons
4
0
dxxc
xcc
DJ
c
DJ
ccXXc
XcExrxrEDJ
cxcx
x
cxcx
xcx
xxXSP
c
espace des sources
Résumé : problème de RdF
kX
ksxPkxf
sP à (analogue ),( ncevraisembla
priori à loi
Kk sss ,...,,...,1S
)( ,...,,...,1 : RdF
autres)(classes actions des ensemble ,...,2,1tiquescaractéris des espace
xDyxLlRD
LR
d
d
A
lklk asCasRC
,, :Cout
AS
(erreur de prédiction)
K
kkXk
D
sSPdxkxfxDsCXDSCEDJ
DJD
1 ,)(,)(,)(
)(min décision de règle uned'Cout D
Bayes de règle la à ressemble"" ,1,,
: que tel algorithmeun trouver
,,
*Dniyx
kxfsP
ii
Xk
A
A
RdF : stratégie de Base1. Estimer
2. Retrouver la règle de BayesAlternative
minimiser directement la probabilité d’erreur(estimer une densité est un problème très difficile)
et ),( kX sPkxf
nniinn
nn
n
nnii
YXYXYXYXSXDPJ
xDJJ
xD
YXYXYXYX
,,...,,,...,,,,)(
)(:tion classifica deerreur une
)( :r classifieuun
,,...,,,...,,,, )étiquettes - stiques(caractéri couples de ensemble néchantillol' geaprentissad' base la
2211
2211
Comment comparer deux algorithmesSoit D1 et D2 deux algorithmes (kppv et arbres de décision)Soit J1 = J(D1) l ’erreur de classification de D1 et J2 = J(D2)
Imaginons que nous connaissions J1 et J2
Sur un échantillon D1 est meilleur, sur un autre c’est D2
comment les comparer ?
En moyenne : E(J) (l’espérance sur tous les échantillons possibles)
un algorithme est dit consistant si
la probabilité d’erreur tend vers son minimum
si c’est vrai quelle que soit la distribution des exemples, l’algorithme est dit universellement consistant
*)(lim JDJE nn
Définition
Théorème (Stone 1977)
L’algorithme des kppv est un algorithme universellement consistant
k YxD
,...,Y,YY
xistiquesk caractér,...,X,XX
xnk
nk
n
k
k
nn
des emajoritair vote)(
antescorrespond étiquettes les soient
de proches plus les les soient
tiquecaractéris un vecteurpour
0et )(
21
21
Attention : un bon algorithme peut donner un mauvais classifieur (on peu aussi gagner au loto)
A savoirVariable aléatoire
• cas discret (un exemple)• cas continu (un exemple)
Probabilité, probabilité conditionnelle
fonction de répartition et densité
loi usuelles : bernouilli, binomiale, poisson, normale
Espérance, •cas discret (un exemple)•cas continu (un exemple)
Variance
Quiz de 5 minutes maintenant
ConclusionUn problème de reconnaissance des formes se caractérisepar une loi à priori, une vraisemblance (souvent inconnues),une fonction coût et un échantillon (souvent connus).
La meilleure solution possible (souvent inconnue) la règle de Bayes c’est le MAP qui minimise la probabilité d’erreur
Il faut en plus faire du rejet
Reste à savoir comment approcher la règle de Bayes à partir de l’échantillon
deux stratégies sont possibles : 1. Approcher les lois inconnues puis appliquer le principe du MAP (la « règle de bayes » sur une approximation des lois)2. Minimiser directement une estimation de la probabilité d’erreur