apprendimento bayesiano metodi di apprendimento di concetti basati sul calcolo delle probabilità
TRANSCRIPT
![Page 1: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/1.jpg)
Apprendimento Bayesiano
Metodi di apprendimento di concetti basati sul calcolo delle probabilità
![Page 2: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/2.jpg)
http://infocom.uniroma1.it/alef/libro/html/libro/node99.html
http://www.deis.unibo.it/Staff/Research/CCaini/teoriaprob_file/v3_document.htm
(corsi on-line di nozioni base sul calcolo delle probabilità)
![Page 3: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/3.jpg)
Probability Primer
![Page 4: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/4.jpg)
Variabili aleatorie e probabilità• Una variabile aleatoria X descrive un evento non predicibile in
anticipo (lancio di un dado, infatti alea=dado in latino )• Lo spazio di campionamento (sample space) S di X è l’insieme
dei possibili valori della variabile (per il dado, S={1,2,3,4,5,6}• Un evento è un subset di S, es: e ={1}• La massa di probabilità o probability mass è definita come
P(X=x) o P(x) o Px
• La distribuzione di probabilità per una variabile discreta è la lista di probabilità associate a tutti i possibili eventi di S
• ASSIOMA 1 : Se X è una variabile discreta, allora
0 P(x) 1,x S, e P(x)1xS
![Page 5: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/5.jpg)
Funzione densità di probabilità
• Se X può assumere infiniti valori, la somma di questi valori non può essere 1
• Si definisce la funzione densità di probabilità come:
• p(x) è il limite per di 1/ volte la probabilità che X assuma un valore nell’intervallo x0,x0+
• In tal modo si ha, per una variabile aleatoria continua:
p(x )P(x)
x
p(x)dx1
p(x0 ) lim 0
1
P(x0 X x0 )
![Page 6: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/6.jpg)
densità della probabilità di affitto di un’automobile in funzione dell’età
![Page 7: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/7.jpg)
Densità e Distribuzione
Cosí come un oggetto non omogeneo è piú o meno denso in regioni differenti del suo volume complessivo, cosí la densità di probabilità mostra su quali valori della variabile aleatoria si concentra la probabilità.
Mentre la funzione distribuzione di probabilità per la v.a. X è definita come:
FX (x) px x ()d Pr X x
X continua
X discreta
![Page 8: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/8.jpg)
Esempi
Distribuzione diprobabilità per pD
Probability massper X discreta(es. lancio deldado)
Densità di prob.per X continua
Distribuzione diprob. per pX
![Page 9: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/9.jpg)
Assiomi del calcolo delle probabilità
• Indichiamo con P(A) la probabilità (probability mass) di un evento A (es: x=1, o x “pari”)
• Per ogni coppia di eventi A,B:
0 P( A) 1
P(true) 1
P(A B) P(A) P(B) P( A B) P(A B)
dove P(A B) P( A B) 0 se P(A), P(B) mutuamente esclusive
es (lanci dado) A (1,3,5) B(2,4,6)
![Page 10: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/10.jpg)
Probabilità condizionali P(A/B):probabilità di un evento A supponendo verificato l’evento B
P(A / B)P(A B)
P(B)P( B)0
P(B / A)P(A B)
P(A)
P(A B) P(A / B)P(B) P(B / A)P(A)
Es: A= Pr(studente segue IUM)B= Pr(studente segue AA)
A BAB
![Page 11: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/11.jpg)
Teorema di Bayes
• Una formulazione alternativa della regola vista prima:
P(A / B)P(B / A)P(A)
P(B)
Esempio lancio di un dado:
– A numeri pari, P(A)=1/2 – B numero 2, P(B)=1/6 – AB=(2), P(AB)=1/6
P(B / A) P(A B)/ P(A) 1 /6
1 /21 / 3
![Page 12: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/12.jpg)
Proprietà derivate:Se due eventi A e B sono disgiunti (AB=Ø)segue P(B|A)=0 e P(A|B)=0 poiché il verificarsi di un evento esclude il verificarsi dell’altro. Se b1, b2,…bm sono mutuamente disgiunti ed esaustivi:
Es:
P(A) P(A / bii )P(bi )
)Pr()/Pr(
)_Pr()_/Pr(
)Pr()/Pr()Pr(
sfortunasfortunapromosso
studiarenonstudiarenonpromosso
studiarestudiarepromossopromosso
P(A) P(A / B)P(B) P(A /B)P(B)
![Page 13: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/13.jpg)
Medie e statistiche• La media statistica (o valor medio, o valore atteso) di una
v.a. aleatoria X è la somma dei suoi possibili valori pesati per le rispettive probabilità. E’ indicata con mX, o E(X) o E[X] o
• Per variabili discrete:
• Per variabili continue: E(X ) xi
i1
k PX (xi )
E(X ) xpX (x)dx
![Page 14: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/14.jpg)
Esempi
• Se X è uniformemente distribuita in [a,b], E(X)=(b-a)/2
![Page 15: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/15.jpg)
Esempio (continua)
• Nel discreto, supponiamo che X assuma i valori 1,2,3,4,5 e 6 con probabilità uniforme, P(X)=1/6 X
• Allora:
E( X)116 21
6 31
6 41
6 51
6 61
6
1
6i
i1
6
21
6
7
2
1 6
2
a b
2
in
2i1
n (n 1)
In generale: 1
n( n
2(n 1) n 1
2
![Page 16: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/16.jpg)
Varianza•Varianza di una distribuzione di probabilità pX(x):
v.a. continua
v.a. discreta• La varianza indica la dispersione della v.a. rispetto al suo valore medio
– Esempio 1: X può assumere i due valori -1 e 1 con uguale probabilità E[X]=X=0, p(-1)=p(+1)=0,5
•Lo scarto quadratico medio o deviazione standard è definito come:
X2 E((X X )2) (x X )2
pX (x)dx
(xii X )2 pX (xi )
2 ( 1 0 )2 0,5 (1 0)2 0,5 1
![Page 17: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/17.jpg)
Esempi
Stesso valore medio, ma scarto quadratico assai diverso!!!
![Page 18: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/18.jpg)
Funzione densità normale o gaussiana
![Page 19: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/19.jpg)
Probabilità, stima di probabilità e probabilità a priori
• Stima di una probabilità PX(xk) dato un campione di N eventi (e1,.. eN) (ei: X=xk xk S)
• Probabiltà a priori: STIMA di una probabilità PX(A) prima di considerare l’evidenza
• Probabilità a posteriori: STIMA di PX(A) dopo aver preso in considerazione l’evidenza
E P( xk ) ˆ P (xk ) 1N
ki1
N (ei )
k (ei ) 1 ei: Xxk
0 ei: Xxk
![Page 20: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/20.jpg)
Riassunto dei concetti esposti
• Definizione di v.a. discreta e continua• Definizione di massa di probabilità, densità di probabilità (per
v.a. continue) e distribuzione di probabilità• Media, scarto quadratico e varianza• Gaussiana• Probabilità condizionata, somma i probabilità, probabilità
congiunte, proprietà fondamentali• Teorema di Bayes• Stima di una probabilità, probabilità a priori , a posteriori
![Page 21: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/21.jpg)
Apprendimento probabilistico
![Page 22: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/22.jpg)
Il teorema di Bayes nell’apprendimento di concetti
• Sia h un’ipotesi in H e D sia il set di dati di apprendimento
(xi, c(xi)):
Dove: P(h) è la probabilità a priori dell’ipotesi h (precedente all’apprendimento)P(D) è la probabilità a priori di D (la probabilità di estrarre un campione D:xiX dallo spazio delle istanze X)
Obiettivo: scegliere l’ipotesi h più probabile (che massimizzi P(h/D)
P(h / D)P(D / h)P(h)
P(D)
![Page 23: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/23.jpg)
Maximum A Posteriori hypothesis (MAP)
• Algoritmo: scegli l’ipotesi
• Richiede la stima di P(h/D) per ogni h di H!
hMAP argmaxP(h / D)hH
hHargmax
P(D / h)P(h)P(D)
Prob dell’ipotesi hstante l’osservazione di D
![Page 24: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/24.jpg)
MAP learning in un caso semplice(2)
• Ipotesi:
– D non contiene errori
– c è consistente con H
– a priori, le ipotesi h in H sono equiprobabili: P(h)=1/H hH
• P(D/h) è la probabilità di osservare certi valori (d1,d2,..dm) per le istanze di D (x1,x2,..xm), condizionata alla veridicità dell’ipotesi h (di=c(xi)=h(xi) in D), Dunque, P(D/h)=1 se h è consistente con D, 0 altrimenti.
• Dunque:
DHDHDHVSih DHVSih
iconsistentipotesiihii
VSHVS
H
HH
H
hPhDP
H
DP
hPhDPDhP
DconeconsistentnonhseDP
H
DP
hPhDPDhP
,,, ,
1
/
/1
/10/11
/1
)()/(
11
)(
)()/()/(
0)(
10
)(
)()/()/(
hMAP argmaxP(h / D)hH
hHargmax
P(D / h)P(h)P(D)
![Page 25: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/25.jpg)
DHDH
DHVSih DHVSih
ii
VSHVS
H
HH
H
hPhDP
H
DP
hPhDPDhP
DP
H
DP
hPhDPDhP
,,
, ,
1
/
/1
/10/11
/1
)()/(
11
)(
)()/()/(
0)(
10
)(
)()/()/(
Per ogni h non consistente con D
Per ogni h consistente con D
Se h è consistente,appartiene allo spaziodelle versioni
![Page 26: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/26.jpg)
MAP learning (3)• Cosa si può concludere?• Un apprendista consistente è un apprendista che impara ipotesi
consistenti con D• Ogni apprendista consistente produce ipotesi MAP, se assumiamo
una distribuzione di probabilità uniforme su H (ovvero P(hi)=P(hj) i,j), e se assumiamo che i dati di addestramento siano privi di errori (cioè P(D/h)=1 se D e h sono consistenti, 0 altrimenti)
• Il teorema di Bayes ci aiuta a caratterizzare le assunzioni implicite in un modello di apprendimento (ad es. Version Space), sotto le quali il modello si comporta in maniera ottima.
![Page 27: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/27.jpg)
Maximum Likelyhood learning
• Supponiamo di trovarci in una situazione più complessa, e più realistica:– Dobbiamo apprendere una funzione obiettivo c che assume valori in
, nel continuo– Il campione di addestramento produce errori, cioè: D: <xi,di>
di=c(xi)+ei, dove ei è una variabile aleatoria estratta indipendentemente per ogni xi secondo una distribuzione gaussiana con media zero (errore)
• Quale è l’ipotesi massimamente probabile (ML)??• Questa situazione è tipica di molti metodi di apprendimento, come i
metodi basati su reti neurali, regressioni lineari, interpolazione di polinomi (metodi algebrici)
![Page 28: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/28.jpg)
Distribuzione gaussiana dell’errore
• L’errore agisce sulla funzione di classificazione generalmente casuale
• La distribuzione gaussiana (introdotta precedentemente) ci aiuta a rappresentare la densità di probabilità della variabile aleatoria e
![Page 29: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/29.jpg)
Cosa è una distribuzione gaussiana?• Quando molti fattori casuali ed indipendenti agiscono in modo
additivo per creare fattori di variabilità, i dati seguono un andamento “a campana” chiamato distribuzione gaussiana, o anche distribuzione Normale. Molti dati seguono una distribuzione che approssima la distribuzione Gaussiana ( e le sue proprietà matematiche)
p( X) 1
2 2e
(X )2
22
media
2 ( Xi ) 2
i1
N
N
standard deviation
![Page 30: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/30.jpg)
Ipotesi ML con rumore Gaussiano
hML arg maxhH
p(D/h)arg maxhH
p(di /h)i1
m
arg maxhH
1
2 2i1
m e
1
2
di h(xi )
2
=c(xi)
densità di probabilità (variabile aleatoria continua!!)
Dato che gli esempisono estrattiin modo indipendente,p(didj)=p(di)p(dj)
L’errore segue una distribuzione gaussiana, quindi anche i valori di si distribuiscono secondo una gaussiana, con scostamenti centrati attorno al valore “reale” c(xi) ieixcid )(
Poiché stiamo esprimendo la probabilità di di condizionata all’essereh(x) una ipotesi corretta, avremo =c(x)=h(x)
![Page 31: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/31.jpg)
ML(2) • Anziché massimizzare l’espressione precedente, massimizziamone il
logaritmo
2)(1
minarg2)(1
maxarg
2)(
2
1
1maxarg
2)(
2
1
22
1ln
1maxarg))
2)(
2
1
1 22
1ln(((maxarg
ixhidm
iHhixhid
m
iHh
ixhidm
iHh
ixhidm
iHh
ixhid
em
iHhMLh
questi fattorisono uguali per tuttele hi non influenza argmax
![Page 32: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/32.jpg)
ML(3)
• Dunque, l’ipotesi massimamente probabile hML è quella che minimizza la somma degli errori quadratici (dell’ipotesi stessa):
• di=c(xi)+ei
• L’ipotesi sottostante è: esempi in D estratti indipendentemente, distribuzione gaussiana dell’errore
• Problema: considera solo errori di classificazione (c(xi)), non errori nei valori degli attributi degli xi in D
hML arg minhH i1
m di h(xi ) 2 arg min
hH i1
m ei
2
![Page 33: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/33.jpg)
c(x) è la funzione da apprendere, gli esempi di(x) sono rumorosi con distribuzione del rumore ei gaussiana (uniformemente distribuio attorno al valore reale).
hML è l’ipotesi che minimizza l’errore quadratico medio
e
c
hML
Una spiegazione intuitiva
![Page 34: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/34.jpg)
ML e MAP servono acaratterizzare in termini di
probabilità il problema dell’apprendimento
di una ipotesi.Ora trattiamo il problema di
imparare a predire delleprobabilità
![Page 35: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/35.jpg)
Optimal Bayes classifier• Supponiamo che c(x) sia una funzione obiettivo discreta ed assuma valori in V:
{v1,v2..vm}• Supponiamo che H sia lo spazio corrente delle ipotesi, D sia il set di
apprendimento, e P(hi/D) siano le probabilità a posteriori delle hi dato D (calcolato come % dei casi in cui hi(xj)=c(xj)) quindi non si richiede consistenza)
• Supponiamo che xk sia una nuova istanza. Quale è la classificazione ottima vopt V per xk ?
vopt=
• Si combinano le predizioni di tutte le ipotesi, pesate rispetto alla loro probabilità a posteriori.
arg maxv jV
P(vj / hihiH )P(hi / D)
![Page 36: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/36.jpg)
Esempio
P( / h1)0 P( /h1) 1
P( / h2)0,3,P( /h2) 0,7
P( / h3)0,5, P( / h3)0,5
P( /hihiH )P(hi / D)0,24
P( / hihiH )P(hi / D)0,76
arg maxvj V
P(vj /hihi H )P(hi / D)
V , , H h1 , h2, h3 P(h1 / D) 0, 4 P(h2 /D) 0,3 P(h3 / D)0, 3
(% degli esempi che sono consistenti con hi)
![Page 37: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/37.jpg)
Bayes Optimal classifier (conclusioni)
• Ottiene le migliori prestazioni ottenibili, assegnati i dati di apprendimento D, e uno spazio di ipotesi H
• Costoso: calcola la probabilità a posteriori per ogni ipotesi, e combina le predizioni per classificare ogni nuova istanza
• Assegna la stessa classificazione a tutti gli esempi non visti!!
![Page 38: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/38.jpg)
Naive Bayes Classifier• Si applica al caso in cui le ipotesi in H sono rappresentabili
mediante una congiunzione di valori di attributi (k-monomi), e f(x) può assumere valori da un set finito V. Le istanze x in X sono descritte mediante tuple di valori <val1,val2..valn> associati agli n attributi a1..an
• Il classificatore “naive” si basa sull’assunzione semplificativa che i valori degli attributi siano condizionalmente indipendenti, assegnato un valore della funzione obiettivo, cioè:
• NBC:P(xk /c j ) P(ai vali / cji )
cNB arg maxc j V
P(c j / val1,val2 ,...valn )arg maxc j V
P(val1,val2 ,...valn / c j )P(c j )
P(val1,val2 ,...valn )
arg maxc j V
P(c j ) P(vali / c ji )
un nuovo xda classificare
![Page 39: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/39.jpg)
Stima delle probabilità
• Le probabilità P(vali/cj) vengono stimate osservando le frequenze nei dati di addestramento D
• Se D include ni esempi classificati ci, e nij di questi ni esempi contengono l’attributo aj=valj, allora:
ˆ P (aj valj | ci )nij
ni
![Page 40: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/40.jpg)
Naïve Bayes Esempio• C = {allergia, raffreddore, in_salute}(valori f(x))
• a1 = starnuti (si,no) ; a2 = tosse (si,no) ; a3 = febbre (si,no) (attributi booleani)
• x = {a1, a2, a3} come lo classifico??Prob In
saluteraffreddore
allergia
P(ci) 0.9 0.05 0.05
P(a1 |ci) 0.027 1.0 1.0
P(a2 |ci) 0.027 0.5 0.5
P(a3 |ci) 0.027 0.5 0.5{
Dal set D stimo le prob. a priorie condizionate es:
![Page 41: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/41.jpg)
Esempio (continua)
• 40 esempi, 36 classificati “in salute”, 2 raffreddore, 2 allergia• Per stimare, ad esempio, P(a1=1/in-salute), contare sui 36
esempi nei quali c(x)= “in-salute” quanti hanno a1=1
se 1 su 36, E( P(a1=1/in-salute))=1/36=0,027Analogamente avrò, ad es:
E( P(a1=1/raffreddore))=2/2=1,0
E( P(a1=1/allergia))=2/2=1,0ecc.
![Page 42: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/42.jpg)
Esempio (continua)
• Devo calcolare il massimo al variare di c di:
• Quindi ad esempio per c=raffreddore
• Analogamente, troverò:
P(c j ) P(vali / c ji )
ˆ P (raffreddore) ˆ P (a1 si / raffr) ˆ P (a2 si / raffr) ˆ P (a3 no / raffr) 0,05 10,50,5 0,0125
ˆ P (in _ salute) ˆ P (a1 si / sal) ˆ P (a2 si / sal) ˆ P (a3 no / sal) 0,9 0.0270,0270,027 0,000017
ˆ P (allergia ) ˆ P (a1 si / all) ˆ P (a2 si / all) ˆ P (a3 no / all) 0,05 10,50,5 0,0125
![Page 43: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/43.jpg)
Problemi con il NBC
• Se D è piccolo, le stime sono inaffidabili (nell’esempio precedente alcune stime sono=1!!).
• Un valore raro ak=valk può non capitare mai in D e dunque: cj : (ak=valk | cj) = 0.• Analogamente, se ho un solo esempio di una classe cj, valk : (vali | cj) = 1 o (valk | cj) = 0.• Se ak=valk capita in un test set, T, il risultato è che
ci: (T | ci) = 0 and ci: (ci | T) = 0
ˆ P
ˆ P ˆ P
ˆ P ˆ P
![Page 44: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/44.jpg)
Smoothing
• Per tener conto di eventi rari, si operano degli aggiustamenti sulle probabilità detti smoothing.
• Laplace smoothing con una m-stima assume che ogni evento ej abbia una probabilità a priori P, che si assume essere stata osservata in un campione virtuale di dimensione m>del campione reale
• Nell’esempio precedente, ad es
• Per attributi binari, m=0,5
P(e j | ci) nij mP
ni m
ˆ P (a1 0 / raff )0m0,05
2m
![Page 45: Apprendimento Bayesiano Metodi di apprendimento di concetti basati sul calcolo delle probabilità](https://reader035.vdocuments.pub/reader035/viewer/2022062404/5542eb4f497959361e8beeea/html5/thumbnails/45.jpg)
Un esempio
• Classificazione automatica di documenti• Un documento rappresentato come un elenco di termini
tj (j=1….|V|) • Se V è il vocabolario, aj=1 se il termine tj è presente
x:<a1,a2…a|V|>
• D: <xi,c(xi)> c: XC : (sport, politica, scienze..)• Stimare, sulla base di D, le P(tj/ck)