zastosowanie metod eksploracji danych data mining w...

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznychSAS Enterprise Miner

rok akademicki 2018/2019

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Sieci Kohonena


Grupowanie

Grupowanie (clustering) oznacza podział obiektów na grupy, zwane skupieniami.

Skupienie (cluster) jest zbiorem obiektów, które są podobne do siebie i niepodobne do obiektów z innych grup


Zanim zaczniemy analizę

4

● Techniki analizy skupień z reguły są nieodporne na występowanie obserwacji odstających

● Jeśli naszym celem jest znalezienie outlierów – z reguły stworzą jeden klaster, ale pozostałe będzie cechować niższa jakość

● Jeśli interesuje nas interpretacja ogólnych współzależności – trzeba sprawdzić, czy (i jakie) w próbie występują obserwacje odstające i (opcjonalnie) je usunąć


5

Jakie zmienne wybrać?

Zmienne powinny:● mieć znaczenie w wyjaśnianiu zachowania się obiektów, co ułatwia

późniejszą interpretację skupień,● być możliwie nieskorelowane, co polepsza stabilność budowanych

modeli,● mieć niedużą asymetrię i kurtozę (w ten sposób unika się tworzenia

jednoelementowych skupień)

● Z reguły zastosowanie zmiennych cechujących się różnymi skalami może zaburzyć wyniki grupowania – proszę porównać ilość informacji zawartej w zmiennej binarnej (np. płeć) z ilością informacji zawartej w zmiennej ciągłej (np. dochód)


6

Przekształcenia liniowe zmiennych

B

Axxf

)( 0B, gdzie

Współczynnik A nie wpływa na odległości między obiektamiWspółczynnik B pełni rolę czynnika skalującego.

Szczególnie ważnymi rodzajami przekształcenia są:standaryzacja

normalizacja

xsB xA

)min(XA )min()max( XXB


7

Normalizacja

Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta).

Przykład Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł. Czy obiekt B jest bardziej podobny do obiektu A czy do obiektu C?

Zmienna -> X Y1 Y2 Wiek Dochód Dochód

Osoba (w latach) (w zł) ( w tys. zł) A 35 12000 12,0 B 37 6700 6,7 C 45 7000 7,0


8

Metryka przestrzeni

Odległość euklidesowa

Odległość Minkowskiego Jej szczególnymi przypadkami są:

odległość miejska (p=1)

odległość euklidesowa (p=2)

odległość Czebyszewa (p= ∞ )

ponadto kwadrat odległości euklidesowej

m

ijj xxOOd

1

22121 ,

p

m

j

p

jj xxOOd

/1

12121 ,

jjmj

xxOOd 21,...,1

21 max,

m

ijj xxOOd

1

22121,


9

Sieci Kohonena

Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego badacza Tenvo Kohonena.

Sa przykładem samoorganizujacych się sieci (self-organizing maps – SOMs).

Uczenie odbywa się bez nadzoru (unsupervised learning), tzn. dla podawanych przykładów (faktów) nie jest przedstawiana poprawna odpowiedź. Trenowanie sieci odbywa się w procesie samouczenia.


10

Grupowanie

SOM może być użyte do grupowania obiektów. SOM stara się znaleźć skupienia, żeby każde dwa skupienia, które są blisko siebie w przestrzeni krat (grid space) były blisko siebie w przestrzeni obiektów. Odwrotna sytuacja nie musi być prawdziwa, tzn. skupienia są blisko siebie w przestrzeni obiektów, to nie muszą odpowiadać skupieniom, które są blisko siebie w przestrzeni krat.

SOM stara się wbudować kraty w przestrzeń obiektów w ten sposób, że każda obserwacja jest blisko pewnego środka ciężkości skupienia, ale krata jest wygięta lub ściśnięta możliwie mało.


11

Etapy grupowania z wykorzystaniem SOM

Przygotowanie danych (wybór zmiennych, przekształcenia zmiennych, analiza obserwacji odstających)

Wybór topologii i metryki przestrzeni (jak definiujemy sąsiedztwo) Algorytm Kohonena:➔ Etap rywalizacji (gdzie skierować obserwację)➔ Etap adaptacji (specjalizacja otoczenia)• Wizualizacja wyników


12

Wybór topologii

Grupowanie z wykorzystaniem SOM wykorzystuje fakt, że podobne obiekty będą umieszczone blisko siebie.

Nasze płaszczyzny będą pokryte takimi samymi wielokątami (kafelkami) Możemy wybrać różne rodzaje parkietaży (ang. tiling) Wybór różnych kafelków redefiniuje sąsiedztwo – możemy kontrolować, np.

w ilu kierunkach będzie odbywać się adaptacja


13

Wybór topologii

Wybrana topologia/parkietaż wiąże się z późniejszymi możliwościami interpretacyjnymi:

➔ Parkietaże płaszczyzny Euklidesowej są z reguły intuicyjne i większość dostępnego oprogramowania umożliwia ich zastosowanie

➔ Parkietaże płaszczyzny sferycznej pozwalają na zbadanie polaryzacji (grupy będą rozlokowane w antypodach). Jeśli potrzebujemy badać więcej grup niż to oferowane jest przez wielościany platońskie, będzie trzeba użyc konstrukcji Goldberga-Coxetera

➔ Parkietaże płaszczyzny hiperbolicznej dzięki wykładniczemu rozszerzaniu się pozwalają łatwo umieścić więcej podobnych obiektów blisko siebie


14

Wybór topologii – problem z obrzeżem

Dla praktycznych zastosowań może się okazać, że będziemy woleli obiekty ograniczone (przestrzenie ilorazowe) niż dyski

Przykładami przestrzeni ilorazowych dla płaszczyzny Euklidesowej są torus i butelka Kleina

Przykładem przestrzeni ilorazowej dla płaszczyzny sferycznej jest płaszczyzna eliptyczna

Przykładami przestrzeni ilorazowych dla płaszczyzny hiperbolicznej są kwartyka Kleina, powierzchnia Bolzy, powierzchnia Macbeatha...


15

Algorytm Kohonena

xt = [xt1,xt2,…,xtm] oznacza wektor wejściowy,

m – liczba zmiennych

w.j = [w1j,w2j,…,wmj] – wagi połączeń neuronów wejściowych z j-tym neuronem wyjściowym. Początkowe wagi są ustalone, np. wybrane losowo.

Ustalmy neuron wejściowy x. Dla każdego neuronu wyjściowego w oblicza się wartość funkcji decyzyjnej (scoring function). Jest to odległość d(w,x)=||w-x||. Najczęściej bierze się odległość euklidesową.

d ( w. i ,x t )=√∑i=1

m

(wij−x ti )2


16

Algorytm Kohonena

Neuron wyjściowy, dla którego funkcja decyzyjna ma najmniejszą wartość staje się neuronem wygrywającym (J). Jego wagi są najbardziej podobne do współrzędnych x.

Identyfikuje się wszystkie neurony j z otoczenia neuronu wygrywającego, określone przez rozmiar sąsiedztwa R(t), gdzie t - oznacza numer epoki trenowania.

Modyfikuje się wagi neuronów z otoczenia neuronu J według wzoru:

w ij' =w ij+η( t )⋅( x i−wij )

η(t) – nazywamy współczynnikiem uczenia (learning rate)


17

Algorytm Kohonena

w ij' =w ij+η( t )⋅( x i−wij )

0< η(t) < 1 Początkowe wartości η(t) są ustalane (blisko 1) i są zmniejszane

(liniowo lub geometrycznie) po każdej epoce.

Również wartość rozmiaru sąsiedztwa R(t) jest zmniejszana po każdej epoce.

Proces iteracyjny zatrzymuje się, gdy są spełnione warunku „stopu”.


18

Algorytm Kohonena - przykład

Zbiór danych zawiera dwie zmienne: wiek i dochód. Są one normalizowane do przedziału [0; 1]

Rozważmy cztery rekordy: x11=0.8 x12=0.8 osoba starsza z dużym dochodem

x21=0.8 x22=0.1 osoba starsza z małym dochodem

x31=0.2 x32=0.8 osoba młodsza z dużym dochodem

x41=0.1 x42=0.1 osoba młodsza z małym dochodem

Niech topologia sieci ma rozmiar 2 x 2 (4 neurony wyjściowe) Ustalmy początkowe wagi: Ustalmy:

Neuron 1: w11=0.9 w21=0.8 η(0) = 0.5

Neuron 2: w12=0.9 w22=0.2 R(0) = 0, tzn. tylko dla

Neuron 3: w13=0.1 w23=0.8 neuronu wygrywającego

Neuron 4: w14=0.1 w24=0.2 są zmieniane wagi.


19


Rywalizacja Obliczamy odległość między pierwszym wektorem (x11, x12) = (0.8, 0.8) a neuronami:

1: (w11, w21) = (0.9, 0.8)

2: (w12, w22) = (0.9, 0.2)

3: (w13, w23) = (0.1, 0.8)

4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x1)=√(0 .9−0 . 8 )2+(0 . 8−0 .8 )2=0 . 1

d ( w2 ,x 1)=√(0 .9−0 . 8 )2+(0 . 2−0 .8 )2=0 . 61

d ( w3 ,x1)=√(0 .1−0 . 8)2+(0 . 8−0 .8 )2=0 . 7

d ( w4 ,x1 )=√(0 .1−0 . 8 )2+(0 . 2−0 .8 )2=0 . 92Rywalizację wygrał neuron 1, gdyż jego wagi są najbardziej podobne do pierwszego rekordu wejściowego


20


Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 1.

Dla wiek:

w ij' =w i1+0 . 5⋅( x1−w i1 )

w11' =w11+0 . 5⋅( x11−w11 )=0 . 9+0. 5⋅(0 . 8−0. 9 )=0 . 85

Dla dochód:

w21' =w21+0 .5⋅( x12−w21)=0 .8+0 . 5⋅(0 . 8−0 . 8 )=0 . 8

Wagi są kierowane w kierunku rekordu wejściowego. Pozostałe wagi nie są tu zmieniane. To pozwoli neuronowi 1 jeszcze bardziej przyciągać rekordy osób starszych o dużych dochodach.


21


Rywalizacja Obliczamy odległość między drugim wektorem (x21, x22) = (0.8, 0.1) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.9, 0.2)

3: (w13, w23) = (0.1, 0.8) 4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x 2 )=√(0 . 85−0 . 8 )2+(0 . 8−0 . 1)2=0. 78

d ( w2 ,x 2 )=√(0 . 9−0 .8 )2+(0 . 2−0 .1 )2=0 . 14

d ( w3 ,x 2 )=√(0 . 1−0. 8 )2+( 0 .8−0 .1 )2=0 . 99

d ( w4 ,x2 )=√( 0 .1−0 .8 )2+(0 . 2−0 .1 )2=0 . 71Dla drugiego rekordu rywalizację wygrał neuron 2.


22



Dla wiek:

w ij' =w i2+0 .5⋅( x2−wi 2 )

w12' =w12+0 .5⋅( x21−w12)=0. 9+0 . 5⋅(0 . 8−0 . 9)=0 .85

Dla dochód:

w22' =w22+0 . 5⋅( x22−w22)=0 . 8+0 .5⋅(0 .1−0 . 2)=0 .15

Wagi połączeń z neuronem 2 są kierowane w kierunku drugiego rekordu wejściowego. Waga w22 jest zmniejszana.


23


Rywalizacja Obliczamy odległość między trzecim wektorem (x31, x32) = (0.2, 0.9) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.85, 0.15)

3: (w13, w23) = (0.1, 0.8)

4: (w14, w24) = (0.1, 0.2) .d ( w1 ,x 3 )=√(0 .85−0 . 2)2+( 0 .8−0 . 9)2=0 .66

d ( w2 ,x 3 )=√(0 .85−0 . 2)2+(0 .15−0 .9 )2=0.99

d ( w3 ,x 3 )=√(0 .1−0. 2 )2+(0 . 8−0 . 9 )2=0 . 14

d ( w4 ,x3 )=√( 0 .1−0 .2)2+( 0 .2−0 . 9 )2=0 . 71

Dla trzeciego rekordu rywalizację wygrał neuron 3.


24



Dla wiek:

w ij' =w i3+0 . 5⋅( x3−wi3 )

w13' =w13+0 .5⋅( x31−w13 )=0 . 1+0 . 5⋅(0 . 2−0 . 1)=0 .15

Dla dochód:

w23' =w23+0 . 5⋅( x32−w23)=0 .8+0 .5⋅(0 . 9−0 .8)=0 . 85

Wagi połączeń z neuronem 3 są kierowane w kierunku trzeciego rekordu wejściowego.


25


Rywalizacja Obliczamy odległość między czwartym wektorem (x41, x42) = (0.1, 0.1) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.85, 0.15)

3: (w13, w23) = (0.15, 0.85)

4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x 4 )=√(0 . 85−0 . 1)2+(0 .8−0 . 1)2=1. 03

d ( w2 ,x 4 )=√(0 . 85−0 . 1)2+( 0 .15−0 .1)2=0 .75

d ( w3 ,x 4 )=√(0 . 1−0. 15 )2+(0 .85−0 .1)2=0 .75

d ( w4 ,x4 )=√( 0 .1−0 . 1)2+(0 . 2−0 . 1)2=0 . 1Dla czwartego rekordu rywalizację wygrał neuron 4.


26



Dla wiek:

w ij' =w i4+0 .5⋅( x 4−w i4 )

w14' =w 14+0 .5⋅( x41−w14)=0 .1+0 . 5⋅(0 . 1−0 .1 )=0 . 1

Dla dochód:

w24' =w 24+0 .5⋅( x42−w24)=0 . 2+0 . 5⋅(0 . 1−0 .2 )=0 .15

Wagi połączeń z neuronem 4 są kierowane w kierunku czwartego rekordu wejściowego.


27


Po zakończeniu pierwszej epoki: Początkowe wagi:

Neuron 1: w11=0.9 w21=0.8 Można zmniejszyć η(t)

Neuron 2: w12=0.9 w22=0.2

Neuron 3: w13=0.1 w23=0.8

Neuron 4: w14=0.1 w24=0.2

Końcowe wagi: rozpoznaje: Neuron 1: w11=0.85 w21=0.8 osoby starsze o dużych dochodach

Neuron 2: w12=0.85 w22=0.15 osoby starsze o małych dochodach

Neuron 3: w13=0.15 w23=0.85 osoby młodsze o dużych dochodach

Neuron 4: w14=0.1 w24=0.15 osoby młodsze o małych dochodach


28

Wizualizacja


29

Wizualizacja – U-Matrix

Unified distance matrix – reprezentacja SOM, która koloruje w skali szarości kafelki. Ilustruje różnice w odległości Euklidesowej pomiędzy reprezentantami klastrów a ich sąsiedztwem.

Jaśniejsze kolory symbolizują większą homogeniczność między klastrami Inverted U-Matrix – konstruowany na tej samej zasadzie co U-Matrix, z różnicą,

że im ciemniejszy kolor, to grupa klastrów jest bardziej homogeniczna. Jasne kolory mogą być intepretowane jak granice


30

Przykład CHURN

plan międzynarodowy

plan poczty głosowej

czas współpracy

liczba wiadomości

dzień minuty

wieczór minuty

noc minuty

międzynarodowe minuty

liczba rozmów z BOK

Zmienne do analizy


31

Diagram projektu

W projekcie An_Clus tworzymy diagram Kohonen. Diagram zawiera trzy węzły:

Input Data (CHURN)ReplacementSOM/Kohonen


32

Ustalenie roli zmiennych


33

Zastępowanie zmiennych

Dla zmiennych przedziałowych zmienimy domyślną opcję na No. Wybierzmy Replacement Editor.


34

Zastępowanie zmiennych

Ograniczymy wartości zmiennej L_WIAD do zakresu <=20. Wartości większe przyjmą wartość 20.

Należy wybrać Limit Method = User Specified oraz Upper Limit = 20.


35

Węzeł SOM/Kohonen – wybór zmiennych

Zmienna churn nie bierze udziału w grupowaniu, więc nadajemy jej status Use = No.

Nowe zmienne utworzone w węźle Replacement otrzymują nazwy REP_zmienna.

Zmienna L_WIAD nie będzie już używana i otrzymuje rolę Rejected.


36

Węzeł SOM/Kohonen – wybór zmiennych

Zaznaczając zmienną i klikając na przycisk Explore możemy zobaczyć rozkład danej zmiennej, np. zmiennej REP_L_WIAD (liczba wiadomości).


37

Węzeł SOM/Kohonen – parametry węzła

Ustalamy: Metoda SOM Kohonen

(domyślnie Batch SOM) Normalizacja do przedziału [0; 1]

Range (domyslnie None). Topologia sieci 2 x 2

(domyślnie 10 x 10) Promień 0 Maksymalna liczba iteracji 10


38

Węzeł SOM/Kohonen – wyniki

Domyślnie ukazują się dwa okna z wynikami: Map i Output.


39


Okno Map pokazuje liczebności obiektów na mapie ułożonej w dwóch wymiarach (wierszowy i kolumnowy). Tutaj liczebności wynoszą (1,1)=830, (1,2)=2411, (2,1)=92, (2,2)=0.

Można wybrać też inne statystyki, np. największa odległość od środka ciężkości skupienia, odległość od najbliższego skupienia


40


Klikając na przycisk i wybierając daną zmienną można zobaczyć jej średnią wartość w skupieniach.

10,15325

10,23957

10,93587


41


Dla zmiennych binarnych wyświetla się ich udział. Na przykład PLAN_M=1 ma udział 0,095811w skupieniu (1,2), 1 w skupieniu (2,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=1 i nie występuje w skupieniu (1,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=0.


42


Skupienie (1,1) jest najbardziej jednorodne: Maximum Distance from Cluster Seed = 0,813873.

0,92376

1,39443


43


Wyniki te możemy zobaczyć w formie tabelarycznej wybierając View | Model | Mean Statistics albo View | Model | Analysis Statistics.


44

Węzeł SOM/Kohonen – parametry węzła

Analogicznie można przeprowadzić grupowanie z innymi parametrami węzła

Metoda Batch SOM

Standaryzacja zmiennych Standardization

Topologia sieci 4 x 4


45

Węzeł SOM/Kohonen – przykładowe wyniki

Najliczniejsze skupienie (2,4) zawiera 1064 elementy. Skupienie (2,3) zawiera tylko 5 elementów.

zastosowanie metod eksploracji danych data mining w...

Documents