statystyczne systemy uczace - drizzt.home.amu.edu.pldrizzt.home.amu.edu.pl/images/dssu/w9.pdf ·...

21
Analiza składowych głównych Wprowadzenie Analiza składowych głównych (zwana również dekompozycją według wartości osobliwych (SVD) lub dekompozycją spektralną), jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona (1901), a następnie rozwinięte przez Hotellinga (1933). Analiza składowych głównych jest zaliczana do metod uczących się bez nadzoru, a więc każdy element zbioru uczącego składa się jedynie z wektora cech. Zadaniem systemu uczącego się bez nadzoru jest opisanie obserwowanych danych na podstawie wyłącznie nich samych. Można je określić jako zadanie wykrycia wewnętrznej struktury zbioru danych lub współzależności między tymi danymi. Tomasz Górecki Statystyczne systemy uczące (W4)

Upload: lykien

Post on 01-Mar-2019

212 views

Category:

Documents


0 download

TRANSCRIPT

Analiza składowych głównych

Wprowadzenie

Analiza składowych głównych (zwana równieżdekompozycją według wartości osobliwych (SVD) lubdekompozycją spektralną), jest techniką redukcji wymiaru.Składowe główne zostały po raz pierwszy zaproponowane przezPearsona (1901), a następnie rozwinięte przez Hotellinga(1933). Analiza składowych głównych jest zaliczana do metoduczących się bez nadzoru, a więc każdy element zbioru uczącegoskłada się jedynie z wektora cech. Zadaniem systemu uczącego siębez nadzoru jest opisanie obserwowanych danych na podstawiewyłącznie nich samych. Można je określić jako zadanie wykryciawewnętrznej struktury zbioru danych lub współzależności międzytymi danymi.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Wprowadzenie

Karl Pearson (1857-1936) Harold Hotelling (1895-1973)

Hotelling, H. (1933). Analysis of a complex of statistical variables intoprincipal components. Journal of Educational Psychology 24:417–441 and498–520.

Hotelling, H. (1936). Relations between two sets of variates. Biometrika28:321–377

Pearson, K. (1901). On lines and planes of closest fit to systems of pointsin space. Philosophical Magazine 2(11):559–572.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Wprowadzenie

Celem badacza może być redukcja danych, a dokładniej – liczbyzmiennych. Polega ona na poszukiwaniu takiego zbioru zmiennych,mniej licznego od zbioru zmiennych oryginalnych, na którychpodstawie można z pewnym, ale możliwie najmniejszym błędem,odtworzyć wartości zmiennych oryginalnych. Aby taka redukcjabyła możliwa między zmiennymi oryginalnymi muszą zachodzićzależności statystyczne. Nowe zmienne — składowe główne — sąliniowymi funkcjami zmiennych oryginalnych.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Wprowadzenie

Metoda składowych głównych ma głównie charakter ekploracyjny iumożliwia redukcję danych w przypadku zbioru skorelowanych zesobą zmiennych. Zmienne te są traktowane w jednakowy sposób,tj. nie są one dzielone – tak jak w przypadku analizy regresji – nazmienne zależne i niezależne. Metoda ta przekształca oryginalne,skorelowane zmienne w nowe, nieskorelowane zmienne, tzw.składowe główne, które wyjaśniają w maksymalnym stopniucałkowitą wariancję z próby.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Wprowadzenie

Każda nowa zmienna jest liniową funkcją oryginalnych zmiennych.Składowe główne są uporządkowane według udziału w redukcjiwspólnego zróżnicowania oryginalnych zmiennych (wielkościcałkowitej wariancji). Pierwsza składowa główna redukujenajwiększą część tego zróżnicowania. Druga – kolejną największączęść tego zróżnicowania, którego nie redukowała pierwszaskładowa główna, itd. Badacz może więc zredukować liczbęzmiennych – ograniczając się do kilku pierwszych składowychgłównych – z możliwie małą stratą informacji. Oceną ograniczeniasię tylko do kilku składowych głównych jest udział zredukowanejprzez nie wariancji w wielkości całkowitej wariancji. W sytuacji gdyoryginalne zmienne nie są skorelowane, zastosowanie metodyskładowych głównych nie zapewnia możliwości redukcji danychprzy ograniczonej stracie informacji.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Konstrukcja

Pierwsza składowa główna jest definiowana jako unormowanakombinacja liniowa mająca maksymalną wariancję z próby spośródwszystkich unormowanych kombinacji liniowych zmiennychpierwotnych x1, x2, . . . , xp. Dokładniej, dla wektora obserwacjix = (x1, x2, . . . , xp)

′ w próbie poszukujemy kombinacji liniowej

z1 = a11x1 + a12x2 + · · ·+ a1pxp = a′

1x ,

której wariancja z próby

s2z1 = a′

1Sa1

jest maksymalna, gdzie S jest macierzą kowariancji z próby,natomiast wektor a1 spełnia warunek a′

1a1 = 1, tj. kwadrat jego

długości jest równy jeden. Warunek ten wprowadzony jest po to,by zapewnić jednoznaczność (z wyjątkiem znaku) składowejgłównej.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Konstrukcja

Wektor a1, który maksymalizuje wariancję s2z1, przy dodatkowym

warunku a′

1a1 = 1, jest wektorem charakterystycznym

odpowiadającym największej wartości własnej λ1 macierzy S , lubinaczej największemu pierwiastkowi równania

|S − λI | = 0.

Wariancja składowej głównej z1 jest zatem największympierwiastkiem tego równania.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Konstrukcja

W celu wyznaczenia drugiej składowej głównej, konstruujemykombinację liniową

z2 = a′

2x

taką, że jest ona nieskorelowana z z1, ma maksymalną wariancję ispełnia warunek a′

2a2 = 1. Wariancja z próby z2 jest równa

s2z2 = a′

2Sa2.

Stąd poszukujemy wektora a2 maksymalizującego s2z2przy

dodatkowym warunkach a′

2a2 = 1 i a

2a1 = 0.

Wektor a2 jest wektorem własnym macierzy S odpowiadającymdrugiej wartości własnej λ2 < λ1 ortogonalnym do wektora a1 iunormowanym tak, by kwadrat jego długości był równy jedności(a′

2a2 = 1).

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Konstrukcja

Ponieważ macierz S ma p wartości własnych, to otrzymujemy pskładowych głównych:

z1 = a′

1x ,

z2 = a′

2x ,

. . . . . . . . .

zp = a′

px .

Składowe główne z1, z2, . . . , zp można zapisać w postaci

z = Ax ,

gdzie

z =

z1z2...zp

, A =

a′

1

a′

2

...a′

p

.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Konstrukcja

−3

−2

−1

01

23

−2−10123

X

Y

PC

1 (

89

.27

%)

PC

2 (

10

.73

%)

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Ładunki i wyniki

W rezultacie otrzymujemy tyle składowych ile było zmiennychwejściowych, ale najczęściej jedynie kilka z nich wyjaśnia prawiecałą zmienność oryginalnych danych. Jako wynik otrzymujemynajczęściej dwa typy parametrów: ładunki oraz wyniki. Ładunki towspółczynniki pokazujące wkład poszczególnych zmiennychbazowych w tworzeniu składowych głównych. Im wartośćbezwzględna z ładunku większa tym zmienna ma większy wkład wbudowę składowej głównej. Wyniki nie są niczym innym jakwspółrzędnymi obserwacji w nowym układzie współrzędnychutworzonym przez składowe główne, to one najczęściej podlegająwizualizacji. Niestety przy większej liczbie pierwotnych zmiennychwystępują problemy z interpretacją ładunków.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Wizualizacja

Na koniec możemy zwizualizować nowe dane na jednym wykresie,na którym jako punkty będą przedstawione poszczególneobserwacje w nowym układzie dwóch pierwszych składowychgłównych, natomiast wektory oznaczać będą cechy. Kierunekwektorów pokazuje wpływ tych cech odpowiednio na pierwszą idrugą składową. Kąt przecięcia strzałek jest proporcjonalny dozależności pomiędzy cechami (dokładnie iloczyn skalarnyodpowiednich wektorów wyznacza korelację), a ich długośćodzwierciedla odchylenie standardowe. Tego typu wykres nazywasię biplotem.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Własności

Jeżeli wektor własny a1 macierzy kowariancji z próby S jestwyskalowany tak, by a′

1a1 = 1, to wariancja z próby pierwszej

składowej głównej z1 jest równa

s2z1 = a′

1Sa1 = λ1.

Stąd wartość własna λ1 macierzy S jest równa wariancji zpróby pierwszej składowej głównej z1 = a′

1x . Podobnie,

wariancja z próby każdej innej składowej głównej jest równaodpowiedniej wartości własnej:

s2zj = a′

jSaj = λj , j = 2, 3, . . . , p.

Składowa główna z1 ma maksymalną wariancję λ1, natomiastskładowa główna zp ma najmniejszą wariancję λp, gdzieλ1 > λ2 > · · · > λp są wartościami własnymi macierzykowariancji z próby S .

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Własności

Składowe główne są wzajemnie ortogonalne, tj. a′

jak = 0, dlawszystkich j 6= k . Ortogonalność składowych głównychpociąga za sobą własność ich nieskorelowania.

Suma wariancji z próby składowych głównych jest równasumie wariancji z próby zmiennych pierwotnych:

p∑

j=1

s2zj =

p∑

j=1

λj = tr(S).

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Własności

W analizie składowych głównych oczekujemy, że dla pewnegomałego k , suma λ1 + λ2 + · · · + λk będzie bliskatr(S) = λ1 + λ2 + · · · + λp. Jeśli tak jest, to k pierwszychskładowych głównych wyjaśnia dobrze zmienność i pozostałep − k składowe główne wnoszą niewiele, ponieważ mają onemałe wariancje z próby. Wskaźnik:

λ1 + · · ·+ λk

λ1 + · · ·+ λp

100%

jest procentową miarą wyjaśniania zmienności wektora x przezpierwszych k składowych głównych.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Własności

Składowe główne nie są niezmiennicze ze względu naskalowanie danych. Oznacza to, że przeskalowanie danychzmienia wyniki. Z tego względu składowe główne uzyskane zmacierzy kowariancji oraz korelacji różnią się. Zaleca sięwykorzystywać te uzyskane z macierzy kowariancji. Wprzypadku jednak dużych różnic w wariancjach lub cechmierzonych na różnych skalach należy wpierw przeskalowaćdane.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Metody pomijania składowych głównych

Jeśli chcemy zredukować wymiar danych musimy się zastanowić ileskładowych wybrać do dalszej analizy.

1 Najczęściej decyzję tę podejmuje się bazując na wykresieosypiska, zwanym też wykresem piargowym. Wartości własnenumerujemy w porządku malejącym. Na osi odciętychzaznaczamy numer wartości własnych, na osi rzędnychzaznaczamy wielkości wartości własnych i wielkości te łączymyodcinkami. Jako optymalną liczbę czynników wybieramy tę,gdzie wykres się znacząco spłaszcza. Kryterium osypiskaprowadzi niekiedy do odrzucenia zbyt wielu czynników, ale wtypowych sytuacjach (niezbyt dużo czynników i sporoobserwacji) radzi sobie całkiem dobrze.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Metody pomijania składowych głównych

2 Drugim popularnym kryterium jest ustalenie pewnegopoziomu wariancji jaki muszą wyjaśnić składowe główne(najczęściej 90%).

3 Pomijamy te składowe główne, których wartości własne sąmniejsze od średniej

λ̄ =1

p

p∑

j=1

λj .

Jest to zarazem średnia wariancja zmiennych pierwotnych,ponieważ

∑pj=1 λj = tr(S).

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Zastosowania

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Zastosowania

Analiza składowych głównych ma szerokie zastosowanie. Jej dwapopularne zastosowania to regresja składowych głównych (PCR) iregresja częściowych najmniejszych kwadratów (PLSR). Pierwsza znich polega na zastąpieniu oryginalnych zmiennych przez pewnąliczbę składowych głównych. Metoda PLSR jest wariantem metodyskładowych głównych, w której szukamy pewnej liczbyortogonalnych do siebie kombinacji liniowych predyktorów dobrzeprognozujących zmienną objaśnianą. Przewaga PCR/PLSR nadmetodą najmniejszych kwadratów jest najczęściej widoczna wsytuacji, gdy liczba zmiennych objaśniających jest duża w stosunkudo liczby obserwacji.

Tomasz Górecki Statystyczne systemy uczące (W4)

Analiza składowych głównych

Zastosowania

Jolliffe, I.T. (1982). A note on the use of principal componentsin regression. Journal of the Royal Statistical Society, Series C31(3):300–303.

Wold, S., Ruhe, A. Wold, H. Dunn, W.J. (1984). Thecollinearity problem in linear regression. The partial leastsquares (PLS) approach to generalized inverses. SIAM Journalon Scientific and Statistical Computing 5(3):735–743.

Tomasz Górecki Statystyczne systemy uczące (W4)