független komponens analízis
DESCRIPTION
Független Komponens Analízis. Póczos Barnabás NIPG ELTE-IK. Tartalom. ICA alkalmazások ICA információ elmélet Nemlineáris korreláció ICA ML ICA Fast ICA Nemlineáris keresztkorreláció minimalizáció. A Független Komponens Analízis (ICA). - PowerPoint PPT PresentationTRANSCRIPT
1
Független Komponens Analízis
Póczos Barnabás
NIPG
ELTE-IK
2
Tartalom
ICA alkalmazásokICA információ elméletNemlineáris korreláció ICAML ICAFast ICANemlineáris keresztkorreláció
minimalizáció
3
A Független Komponens Analízis (ICA)
Vak Forrás Szeparáció (BSS) más néven Független Komponens Analízis (ICA) független forrásokból kevert jelek újra szétválasztására szolgál.
Amíg PCA olyan irányokat keres, melyre |x0 - x|2 minimális, addig ICA olyan irányokat választ, melyben az adatok a lehető legfüggetlenebbek.
4
ICA alkalmazási lehetőségek
Blind source separation (Bell&Sejnowski, Te won Lee, Girolami, Hyvarinen, etc.)
Image denoising (Hyvarinen) Medical signal processing – fMRI, ECG, EEG (Mackeig) Modelling of the hippocampus and visual cortex (Lorincz,
Hyvarinen) Feature extraction (feature extraction), arcfelismerés (Marni
Bartlett) Compression, redundancy reduction clustering (Girolami, Kolenda) Time series analysis (Back, Valpola) Pénzügyi alkalmazások
5
AA “ “Koktél PartiKoktél Parti” ” pproblrobléémmaa
Források Megfigyelések
x = As
Becslések
sA
y=Wx
6
Független Komponens Analízis
2221212
2121111
)(
)(
sasatx
sasatx
Két független jel A két jel keveréke
aIJ ... Jelentése a mikrofonoktól való távolság
A becslés ICA alkalmazása után
7
Független komponens analízis természetből vett képeken
8
Főkomponens Analízis bázisok természetből vett képeken
9
ICA bázisok természetből vett képeken
10
ICA mozgó képeken
11
PCA vs ICA, Mixture of Probabilistic PCA
PCA ICA
MPPCA
12
ICA-PCA bázisok öröm arckifejezésekből
13
ICA-PCA bázisok megelpetés arckifejezésekből
14
ICA-PCA bázisok undor arckifejezésekből
23.04.21.
ICA activity for classification, novelty detection
ICA activity for classification, novelty detection
Activity distributions of within-category test
movies are much narrower
Activity distributions of within-category test
movies are much narrower
Supervised dataSupervised dataT
est
da
taT
est
da
ta
16
ICA elméleti kérdések
17
Alapfogalmak
EntrópiaEgyüttes entrópiaNegentrópiaKölcsönös InformációKullback-Leibler távolság
18
Higher order moment and cumulants [Comon 94, Hyvarinen 97]
Nonlinear PCA [Karhunen 94; Oja 97] Maximalization of information transfer [Bell & Sejnowski 95;
Amari 96; Lee 97-98] Maximum likelihood [MacKay 96; Pearlmutter & Parra 96;
Cardoso 97] Negentropy maximalization [Girolami & Fyfe 97] Nemlineáris kersztkorreláció minimalizáció [Jutten-Herault,
Cardoso]
Különböző ICA megközelítések
19
ICA alapprobléma
x1, x2, … xn,
s1, s2, … sn,
x=As
x = i aisi
ICA = generatív modell: leírja, hogyan generálódik az input
ICA feladat: s=Wx ?eredeti jelek?
20
Bizonytalanságok
Nem tudjuk megmondani – a változók szórását– a változók sorrendjét
WP is jó, ha P permutáló mátrix
21
Feltételek a legegyszerűbb esetben
Ugyanannyi mikrofon van, mint hangszóró.A keverő mátrix teljes rangú.A források minden időpontban statisztikailag függetlenek.A források idősora stacionárius.Legfeljebb egy forrás lehet normális eloszlású.
Ekkor a források permutációtól, skálázástól és előjeltől eltekintve visszaállíthatóak.
22
Statisztikai függetlenség
Def y1,y2 val. változók függetlnek, ha
p(y1,y2) = p1(y1) p2(y2)
Állítás: Ekkor bármely h függvényre:
E[h1(y1)h2(y2)] = E[h1(y1)) E(h2(y2)]
Biz:
E[h1(y1)h2(y2)] = p(y1,y2) h1(y1)h2(y2) dy1dy2 =
= h1(y1) p1(y1) dy1 p2(y2) h2(y2) dy2 =
= E[h1(y1)] E[h2(y2)]
23
Korrelálatlanság, fehér adatok
Def y1,y2 val. változók korrelálatlanok (fehérek), ha
E[y1y2] = E[y1] E [y2]
Speciálisan, ha y1,y2 függetlenek, akkor korrelálatlanok.
Ha y1,y2 korrelálatlanok, abból nem következik,hogy függetlenek.
24
korrelálatlanság függetlenség
y1 y2 prob0 1 ¼0 -1 ¼1 0 ¼-1 0 ¼
y1
y2
1/4
1/4
1/4
1/4
Ezekre E[y1y2] = E[y1] E [y2]=0De E[y1
2y22] =0 1=E[y1
2] E [y22]
25
26
Gauss eloszlás nem jó
A standard többdimenziós eloszlás minden ortogonális transzformáltja ugyanúgy néz ki
p(x,y) ~ exp(-0.5*(x2+y2))
27
ICA algoritmusok
Távolodjunk a normális eloszlástól megközelítés:– Kurtózis alapján– Negentrópia alapján
Kölcsönös információ minimalizálásMaximum likelihood becslésNemlineáris keresztkorreláció
minimalizálásFastICA algoritmus
28
Maximum Likelihood ICA becslés
29
Zajmentes Maximum Likelihood ICA
x(t) = As(t), t=1,2,...,
s(t) Rn, t=1,2..., eredeti, ismeretlen forrásokx(t) Rm, t=1,2.. a megfigyelt keverékekA Rn x m, az ismeretlen keverő mátrixFeltesszük, hogy a források fi sűrűség
függvénye ismert pl Cauchy eloszlású
30
ML derivation of squared ICA
WssIW
xsWW
xwW
Wxw
sW
Asx
AWWxsAsx
W
})({
)())((1
][
)())((
))((
]))((log[|)det(|log
max|)det(|log))((log
))}((log|)det(|{log
))((log))((log
ahol (t),(t) ),()(
1
1
1
'1
1
1 1
1
11
-1
T
T
t
TT
T
tj
ii
iiij
T
t
Tii
ijijij
T
t
M
i
Tii
T
t
T
t
T
t
g
ttgT
txtsf
tsfTW
tfw
Tww
L
Ttf
tp
tptpL
tt
David J.C. MacKay (97)
31
Távolodjunk a normális eloszlástól megközelítés
32
Távolodjunk a normális eloszlástól megközelítés
Az ML módszernél kellett a sűrűség függvények ismerete, pedig az gyakran ismeretlen.
Centrális Határeloszlás Tétel : A független források keveréke közelebb kerül a normális eloszláshoz.
ICA célja: Úgy keverjük az adatokat, hogy a normális eloszlástól minél távolabb kerüljünk.– Kell egy normális eloszlástól való távolság mérték:
• Negentrópia maximalizálás• Kurtózis abszolút értékének maximalizálása
33
Cél: Normális eloszlástól minél távolabb kerülni
Kétféle módon lehet– Gauss-nál élesebben
tart nullához• ‘sub-gaussian’
– Gauss-nál lassabban tart nullához (nagy eltérések valószínűsége viszonylag nagy)
• ‘super-gaussian’
34
Normális eloszlástól való távolság mérése
Kurtózis
w
Txw
max}){(3}{)kurt( 224
yEyEy
y
Független x,y változókra:kurt(x+y)=kurt(x)+kurt(y)kurt(x) = 4 kurt(x)
35
3)]([
][)kurtosis(
22
4
i
ii sE
sEs
.
Kükönbözõ kurtosis elõjelû, azonos varianciájú eloszlásokat szemléltetõ hisztogrammok
36
NegentrópiaEntrópia:
H(y) = - f(y) log f(y) dy
Negentrópia:
J(y) = H(yGauss) – H(y) 0 azonos varianciájú eloszlásokra
A feladat tehát: (y)J maxw
Állítás: J(y) invariáns lineáris transzformációkra nézve
J(y) = J(Ay)
37
Negentrópia közelítései
J(y) ≈ (E[y3])2 /12 + (kurt(y))2/48
Kurtózis problémája az „outlier” (kiugró kivétel)
Általánosabb közelítés:
J(y) ≈ i ki (E[Gi(y)] – E[Gi(Gauss)])2
ahol ki >0 konstans
Gi(y) függvények
Gauss standard normális
38
Speciálisan 1 db k-ra
J(y) ≈ (E[G (y)] – E[G(yGauss)])2
Állítás:
G(y)= y4 választással
J(y) ≈ E[y3]2 /12 + kurt(y)2/48
mert a várható érték számításakor integrálni kell a sűrűségfüggvényt.
39
Egyéb gyakran alkalmazott nemlinearitások
G(y) = a-1 log cosh (ay) 1 a 2
G(y) = exp(-y2)
Azért, hogy a becsléseink robosztusak legyenek fontos, hogy G ne nőjön túl gyorsan.
40
A Kölcsönös Információ minimalizálásán alapuló ICA
algoritmusok
41
Kölcsönös Információ Minimalizációja
I(y1,…,ym) = i H(yi) – H(y1,…,ym) 0
Áll I(y1,…,ym) = 0 y1,…,ym függetlenek
A feladat: minW I(y1,…,ym)
Ha y=Wx, akkor
I(y1,…,ym) = i H(yi) – H(x1,…,xm) + +log |detW|
42
Kölcsönös Információ Minimalizációja
Ha yk-k közül csak a korrelálatlan és az egységnyi varianciájúak érdekelnek, akkor
1 = E[yyT] = E[ WxxTWT] = detW E[xxT] detWT
Tehát, detW konstans
43
Kölcsönös Információ Minimalizációja
A feladat: minW I(y1,…,ym)
y=Wx
I(y1,…,ym) = i H(yi) – H(x1,…,xm) + log |detW|
detW, H(x1,…,xm) konstans
A feladat: minW i H(yi)
Az outputok egyenkénti entrópia összege legyen minél kisebb.
44
Kölcsönös Információ Minimalizációja
Tehát detW konstans.
No de rögzített variancia esetén az entrópia és negentrópia csak konstansban különböznek:
H(yi)=C’-J(yi)
I(y1,…,ym) = i H(yi) – H(y1,…,ym) =
= i H(yi) – H(x1,…,xm) + log |detW|
= C - i J(yi)
Tehát a feladat: maxW i J(yi)
45
KIM
I(y1,…,ym) = C - i J(yi) 0
KIM-en alapuló ICA eljárás ekvivalens az egyes komponensek összegzett nem-Gauss jellegének maximalizációjával úgy, hogy az egyes komponensek dekorreláltak.
46
Független Komponens AnalízisKölcsönös Információ minimalizálása
WyyIΔW
xWxWΔW
WWx
WxyAsx
))(2(
)(2
:algoritmus azután sszámolgatá Kis
...)24/)()(6/)()(1)(()(
detlog)()(),...,(
, , )(
1
4433
min1
1
T
TT
iim
n
tanh
tanh
hyhyf
HyHyyI
))...P(sP(sP(s)n
47
Fast ICA algoritmus
48
Fast ICA algoritmus
Állítás:
Az ICA feladat megoldása megkapható
bizonyos G függvényekre a
min vagy maxw E[G(wTx)]
feladat megoldásaként az
E[(wTx)2] = ||w||2 kényszer mellett
0 = E[xG’(wTx)] – w = F(w)
w F(w) = E[xxTG’’(wTx)] – I
49
Fast ICA algoritmus
Közelítés:
E[xxTG’’(wTx)] ≈ E[xxT]E[G’’(wTx)] =E[G’’(wTx)]
Oldjuk meg az előbbi feladatot Newton módszerrel:
w+ = w – (E[xG’(wTx)] – w )(E[G’’(wTx)] – )-1
Ez tovább egyszerüsíthető:w+ = E[xG’(wTx)] – E[G’’(wTx)]ww+ w+ / ||w+||