probabilisztikus modellek ii - david...

Probabilisztikus modellek II: Inferencia

Statisztikai tanulás az idegrendszerben, 2015

Nagy Dávid

előző előadás

előző előadás

• az agy modellt épít a világról

előző előadás

• az agy modellt épít a világról • tudás formális reprezentációja: logika

előző előadás

• az agy modellt épít a világról • tudás formális reprezentációja: logika • kiterjesztés bizonytalanságra: valószínűségszámítás

előző előadás

• az agy modellt épít a világról • tudás formális reprezentációja: logika • kiterjesztés bizonytalanságra: valószínűségszámítás • mai előadás: hogyan lehet ezt a tudást használni?

probléma

mi az amit megfigyelünk?

mi az amit megfigyelünk?• fotonok becsapódása • levegő gyors rezgései • hőmérséklet ingadozása • bizonyos molekulák


mire vagyunk kíváncsiak?


mire vagyunk kíváncsiak?• milyen tárgyak vannak körülöttem • milyen messze • kik vannak körülöttem • mire gondolnak • miért köhögök • mik a fizika törvényei



inferencia



inferencia (következtetés)

ff } generatív folyamat

ff

} generatív folyamat

f

f-1

}}inverz

inferencia

generatív folyamat

P (o|h)

P (h|o)

P (o|h)

P (h|o)

ha ilyen lenne a világ akkor mit figyelnénk meg?

P (o|h)

P (h|o)


ha ezt figyeljük meg akkor milyen a világ?

P (o|h)

P (h|o)

• forward probability • generatív irány • prediktív irány • “szimulátor”



P (o|h)

P (h|o)

• forward probability • generatív irány • prediktív irány • “szimulátor”

• inverse probability • Bayes-i inferencia • modell inverzió



P (h|o) = P (o|h)P (h)

P (o)

P (o|h)

P (h|o) = P (o|h)P (h)

P (o)

}prior

P (h|o) = P (o|h)P (h)

P (o)

likelihood} }prior

P (h|o) = P (o|h)P (h)

P (o)

likelihood} }prior}posterior

P (h|o) = P (o|h)P (h)

P (o)


}evidence


P (h|o) = P (o|h)P (h)RP (o|h)P (h)dh


P (h|o) / P (o|h)P (h)


P (h|o) / P (o|h)P (h)

megfordítottuk a generatív modellt


P (h|o) / P (o|h)P (h)

megfordítottuk a generatív modellt

miért kell a prior?

f = bPXY

X

Y

Z

f = bPXY

X

Y

Z

nem injektív

f = bPXY nem injektív

f�1

X

Y

Z

nem egyértelmű

hipotézis tér: minden lehetséges 3D drótváz

image data

hipotézisek amelyekre magas a prior


image data


hipotézisek amelyekre nem 0 a likelihood


image data


hipotézisek amelyekre nem 0 a likelihood

posterior


színek

hány foton?

szén v. hó

megvilágítás elnyelési görbe (anyag)

spektrális eloszlás


spektrális eloszláslátósejtek érzékenysége

3 szám


spektrális eloszláslátósejtek érzékenysége

3 szám

anyag?

beszédfelismerés

mondatok értelmezése

történet 1Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, látta hogy szénné van égve. A férfi dühösen kirohant anélkül, hogy fizetett vagy borravalót hagyott volna.

Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, látta hogy szénné van égve. A férfi dühösen kirohant anélkül, hogy fizetett vagy borravalót hagyott volna.

Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, nagyon elégedett volt vele és mielőtt elhagyta az éttermet nagy borravalót hagyott a pincérnek.

történet 2

történet 1

Megette a férfi a hamburgert?

Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, nagyon elégedett volt vele és mielőtt elhagyta az éttermet nagy borravalót hagyott a pincérnek.

történet 2

történet 1Egy férfi bement egy étterembe és rendelt egy hamburgert. Mikor a hamburgert kihozták, látta hogy szénné van égve. A férfi dühösen kirohant anélkül, hogy fizetett vagy borravalót hagyott volna.

-“Elnézést, kártyával lehet fizetni?” -“Persze”

-“Elnézést, kártyával lehet fizetni?” -“Persze” -“Egy ászból és királyból tud visszaadni?”

-“Elnézést, kártyával lehet fizetni?” -“Persze” -“Egy ászból és királyból tud visszaadni?”

humor = téves inferencia felfedezése?

pontbecslés

P(x | )

x

0.5

P(x | )

x

0.5 *

H. v. Helmholtz: “perception is unconscious inference”

eloszlás -> egy pontpontbecslés

post

erio

r

post

erio

r

MAPmaximum a posteriori

becslés

*

post

erio

r


becslés

*

post

erio

r


becslés

0.7

*

post

erio

r

*


becslés

0.7

0.5

tünet

betegség

f

f-1

betegség

miért köhögök? tünet

betegség

f

f-1

betegség

miért köhögök?

P (illness|symptom) / P (symptom|illness)P (illness)

miért köhögök?


meg

fázá

s

tüdő

rák

kézt

örés

meg

fázá

s

tüdő

rák

kézt

örés

milyen gyakori a ?

megfázás

tüdőrák

kéztörés


meg

fázá

s

tüdő

rák

kézt

örés

ha lenne a betegség attól köhögnék?

megfázás

tüdőrák

kéztörés


meg

fázá

s

tüdő

rák

kézt

örés

meg

fázá

s

tüdő

rák

kézt

örés

meg

fázá

s

tüdő

rák

kézt

örés

mi a MAP becslés?


meg

fázá

s

tüdő

rák

kézt

örés

meg

fázá

s

tüdő

rák

kézt

örés

meg

fázá

s

tüdő

rák

kézt

örés

valószínűleg megfáztam


meg

fázá

s

tüdő

rák

kézt

örés

összefoglalás

láttuk, hogy

• ami érdekel az közvetlenül nem megfigyelhető

láttuk, hogy


• a rejtett állapotok kikövetkeztetésében segít a generatív folyamat ismerete

láttuk, hogy



• ennek megfordítása: melyek azok a rejtett állapotok amelyek összeegyeztethetőek a megfigyelésekkel?

láttuk, hogy




• de ez még nem elég, kell prior is

láttuk, hogy




• de ez még nem elég, kell prior is

• (az idegrendszerben a percepció eredménye gyakran csak pontbecslés)

de honnan vesszük a modellt (prior)?

de honnan vesszük a modellt (prior)?• az objektumok léteznek akkor is mikor nem látjuk őket • a hét napjai és az évszakok ciklikusak • a puli lehet kutya is és állat is, de nem lehet kutya is és

macska is • anyanyelv nyelvtana • a baráti körök klikkek

de honnan vesszük a modellt (prior)?• az objektumok léteznek akkor is mikor nem látjuk őket • a hét napjai és az évszakok ciklikusak • a puli lehet kutya is és állat is, de nem lehet kutya is és

macska is • anyanyelv nyelvtana • a baráti körök klikkek

• Linnaeus: a fajokat fa-gráffal lehet leírni • Mengyelejev: az elemek periódusos rendszerbe

helyezhetőek

de honnan vesszük a modellt (prior)?• innátizmus/nativizmus vs tabula rasa • úgy tűnik, hogy nagyrészt fel lehet építeni

tapasztalatok alapján


mi a környezet állapota?

• innátizmus/nativizmus vs tabula rasa • úgy tűnik, hogy nagyrészt fel lehet építeni



mi a környezet állapota? percepció• inferencia



hogyan működik a környezet?


mi a környezet állapota? percepció• inferencia



hogyan működik a környezet?


mi a környezet állapota? percepció

tanulás

• inferencia

• paraméterbecslés • struktúra tanulás • modell szelekció




tapasztalatok alapján• hogyan?

Hierarchikus Bayesi Modellek

ha ez lenne a környezet állapota,

akkor mit figyelnék meg?

f

ha ez lenne a környezet állapota,


f

✓

x

és ez lenne a környezet állapota,


ha így működne a környezet,

f

g

M

✓

x

megfigyelt állapotváltozóx

✓ paraméterek

M modell


rejtett állapotváltozóy

✓ paraméterek

M modell


rejtett állapotváltozóy

modell struktúraS

modell formaF

✓ paraméterek

miért kell modell prior?

(indukció problémája)miért kell modell prior?

minden hattyú fehér ?

a kutyának négy lába van


a macskának négy lába van



minden állatnak négy lába van?



minden emlősnek négy lába van?minden állatnak négy lába van?

a lovaknak négy lába van?



minden emlősnek négy lába van?minden állatnak négy lába van?

ez egy nagyon régi, megold(hat)atlan filozófiai probléma

ez egy nagyon régi, megold(hat)atlan filozófiai probléma

az emberek napi jelleggel megoldják

objects of planet Gazoob

eloszlások becslése

valószínűségi modell

valószínűségi eloszlás

x

D

P (x|truth)

x

D

P (x|truth) P (x|D)predictive

x

P (x|truth)true

x

P (x|truth)true

feltételezett generatív valószínűségi modell:

x

P (x|truth)true

σ

μ true

x

µ

P (µ)prior

x

P (x|truth)true

σ

μ true

x

µ

P (µ)prior

x

P (x|truth)true

σ0

μ0

σ

μ true

x

µ

P (µ)prior

x

P (x|truth)true

predictive(0)P (x)

x

µ

P (µ)prior

x

P (x|truth)true

predictive(0)P (x)

σ0+σ

x

µ

P (µ)

P (x1|µ)likelihood(1)

prior

x

P (x|truth)true

predictive(0)P (x)

x

µ

P (µ)


prior

posterior(1)P (µ|x1)

x

P (x|truth)true

predictive(0)P (x)

x

P (µ|D)

µ

P (µ)

P (x|truth)


posterior

prior

true


predictive(0)P (x)

x

P (x|D)

P (µ|D)

µ

P (µ)

P (x|truth)


posterior

prior

predictive

true


predictive(0)P (x)

P (µ|x) = P (x|µ)P (µ)R1�1 P (x|µ)P (µ)dµ


x


= x


P (x|µ) = N (x|µ,�) = e

� (x�µ)2

2�2

p2⇡�


P (x|µ) = N (x|µ,�) = e

� (x�µ)2

2�2

p2⇡� P (µ) = N (µ|µ0,�0)


P (x|µ) = N (x|µ,�) = e

� (x�µ)2

2�2

p2⇡� P (µ) = N (µ|µ0,�0)

P (µ|x) = N (x|µ,�)N (µ|µ0,�0)R1�1 N (x|µ,�)N (µ|µ0,�0)dµ


P (x|µ) = N (x|µ,�) = e

� (x�µ)2

2�2

p2⇡� P (µ) = N (µ|µ0,�0)


P (µ|x) = N (µ|x,�)N (µ|µ0,�0)R1�1 N (µ|x,�)N (µ|µ0,�0)dµ

μ <-> x




μ <-> x

N (x|µ,�)N (µ|u0,�0) = c · N (µ|µ0,�

0)

c = N (x|µ0,

q�

2 + �

20); µ

0 =µ0�

2 + x�

20

�

2 + �

20

; �0 =��0p�

2 + �

20

konjugált prior!

P (µ|x) = N (µ|µ0,�

0)

eredmény 1 pontraP (µ|x) = P (x|µ)P (µ)R1

�1 P (x|µ)P (µ)dµ

P (µ|x) = N (µ|µ0,�

0)



terjesszük ki T pontra

P (µ|x) = N (µ|µ0,�

0)



P (µ|x) = P (x1, x2, ...xT |µ,�)N (µ|µ0,�0)R1�1 P (x1, x2, ...xT |µ,�)N (µ|µ0,�0)dµ


Dx

P (µ|x) = N (µ|µ0,�

0)





P (A,B) = P (A)P (B)

P (µ|x) = N (µ|µ0,�

0)



P (µ|x) =QT

t=1 N (xt|µ,�)N (µ|µ0,�0)R1�1

QTt=1 N (xt|µ,�)N (µ|µ0,�0)dµ



P (A,B) = P (A)P (B)

P (µ|x) = N (µ|µ0,�

0)



P (µ|x) =QT

t=1 N (xt|µ,�)N (µ|µ0,�0)R1�1




P (A,B) = P (A)P (B)

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

P (µ|x) = N (µ|µ0,�

0)



P (µ|x) =QT

t=1 N (xt|µ,�)N (µ|µ0,�0)R1�1




P (A,B) = P (A)P (B)

P (µ|x) = N (µ|µ(T ),�

(T ))

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

eredmény T pontra

P (µ|x) = N (µ|µ(T ),�

(T ))

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

eredmény T pontra

P (µ|x) = N (µ|µ(T ),�

(T ))

limT!1 végtelen adat limit

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

eredmény T pontra

P (µ|x) = N (µ|µ(T ),�

(T ))


µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

PTt=0 xt

T

eredmény T pontra

P (µ|x) = N (µ|µ(T ),�

(T ))


0

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

PTt=0 xt

T

eredmény T pontra

P (µ|x) = N (µ|µ(T ),�

(T ))


0

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

PTt=0 xt

T

P (µ|x) = N (µ|µ(T ),�

(T )) �(µ� µ(T ))

eredmény T pontra

P (µ|x) = N (µ|µ(T ),�

(T ))


0

µ

(T ) =µ0�

2 + �

20

PTt=0 xt

�

2 + T�

20

�(T ) =

s1

T�2 + 1

�20

PTt=0 xt

T

P (µ|x) = N (µ|µ(T ),�

(T )) �(µ� µ(T ))

P (x|D)P (x|true)

P (µ|x) = N (µ|µ(T ),�

(T )) �(µ� µ(T ))

P (x|D)P (x|true)

µ

P (µ|x) = N (µ|µ(T ),�

(T )) �(µ� µ(T ))

P (x|D)P (x|true)

µ

xxμxxμ

=

-4 -2 2 4 6 8 10

0.05

0.10

0.15

0.20

-4 -2 2 4 6 8 10

0.05

0.10

0.15

0.20

-4 -2 2 4 6 8 10

0.05

0.10

0.15

0.20

-5 5 10

0.05

0.10

0.15

0.20

-4 -2 2 4 6 8 10

0.05

0.10

0.15

0.20

T=1 T=2 T=3

T=10 T=100

prior(μ)predictive(x)true(x)

közelítő inferencia• sztochasztikus közelítő módszerek

• pl: Markov chain Monte Carlo (MCMC) • aszimptotikusan (végtelen sok ideig futtatva) egzaktak

• determinisztikus közelítő módszerek • pl: variational Bayes / variational inference • pl: pontbecslések • nem kell végtelen sok idő, de sosem egzakt eredmény

online learning batch learning

datasetprior


datasetprior

posterior


stimulus(t-1)prior(t-1) datasetprior

posterior


stimulus(t-1)prior(t-1)

posterior(t-1)

datasetprior

posterior


stimulus(t-1)

prior(t)

prior(t-1)

stimulus(t)

posterior(t-1)

datasetprior

posterior


stimulus(t-1)

prior(t)

prior(t-1)

stimulus(t)

posterior(t-1)

posterior(t)

datasetprior

posterior


stimulus(t-1)

prior(t)

prior(t-1)

prior(t+1)

stimulus(t)

posterior(t-1)

posterior(t)

datasetprior

posterior

stimulus(t+1)


maximum likelihood= MAP with flat prior

Házi Feladat

N (x|µ,�)N (µ|u0,�0) = c · N (µ|µ0,�

0)

c = N (x|µ0,

q�

2 + �

20); µ

0 =µ0�

2 + x�

20

�

2 + �

20

; �0 =��0p�

2 + �

20

konjugált prior

“Ha elimináltuk a lehetetlent, ami marad, bármilyen valószínűtlenül is hangzik, az igazság.” - Sherlock Holmes

A. Mutasd meg, hogy S.H. következtetési módszere konzisztens a Bayes-i inferenciával! (azaz diszkrét hipotézisekre, ha a megfigyeléseknek egyet kivéve mindegyik ellentmond, akkor a fennmaradónak posterior valószínűsége mindenképpen 1.)

B. Mutasd meg hogy a normál eloszlás tanulásakor az átlagra vonatkozó normál eloszlás tényleg konjugált prior (azaz a likelihood a priorral beszorozva ugyan formájú marad csak más paraméterekkel), és számold ki az új paramétereket!

probabilisztikus modellek ii - david...

Documents