zastosowanie metod eksploracji danych data mining w...

45
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2018/2019

Upload: others

Post on 12-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznychSAS Enterprise Miner

rok akademicki 2018/2019

Page 2: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Sieci Kohonena

Page 3: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Grupowanie

Grupowanie (clustering) oznacza podział obiektów na grupy, zwane skupieniami.

Skupienie (cluster) jest zbiorem obiektów, które są podobne do siebie i niepodobne do obiektów z innych grup

Page 4: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Zanim zaczniemy analizę

4

● Techniki analizy skupień z reguły są nieodporne na występowanie obserwacji odstających

● Jeśli naszym celem jest znalezienie outlierów – z reguły stworzą jeden klaster, ale pozostałe będzie cechować niższa jakość

● Jeśli interesuje nas interpretacja ogólnych współzależności – trzeba sprawdzić, czy (i jakie) w próbie występują obserwacje odstające i (opcjonalnie) je usunąć

Page 5: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

5

Jakie zmienne wybrać?

Zmienne powinny:● mieć znaczenie w wyjaśnianiu zachowania się obiektów, co ułatwia

późniejszą interpretację skupień,● być możliwie nieskorelowane, co polepsza stabilność budowanych

modeli,● mieć niedużą asymetrię i kurtozę (w ten sposób unika się tworzenia

jednoelementowych skupień)

● Z reguły zastosowanie zmiennych cechujących się różnymi skalami może zaburzyć wyniki grupowania – proszę porównać ilość informacji zawartej w zmiennej binarnej (np. płeć) z ilością informacji zawartej w zmiennej ciągłej (np. dochód)

Page 6: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

6

Przekształcenia liniowe zmiennych

B

Axxf

)( 0B, gdzie

Współczynnik A nie wpływa na odległości między obiektamiWspółczynnik B pełni rolę czynnika skalującego.

Szczególnie ważnymi rodzajami przekształcenia są:standaryzacja

normalizacja

xsB xA

)min(XA )min()max( XXB

Page 7: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

7

Normalizacja

Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta).

Przykład Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł. Czy obiekt B jest bardziej podobny do obiektu A czy do obiektu C?

Zmienna -> X Y1 Y2 Wiek Dochód Dochód

Osoba (w latach) (w zł) ( w tys. zł) A 35 12000 12,0 B 37 6700 6,7 C 45 7000 7,0

Page 8: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

8

Metryka przestrzeni

Odległość euklidesowa

Odległość Minkowskiego Jej szczególnymi przypadkami są:

odległość miejska (p=1)

odległość euklidesowa (p=2)

odległość Czebyszewa (p= ∞ )

ponadto kwadrat odległości euklidesowej

m

ijj xxOOd

1

22121 ,

p

m

j

p

jj xxOOd

/1

12121 ,

jjmj

xxOOd 21,...,1

21 max,

m

ijj xxOOd

1

22121,

Page 9: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

9

Sieci Kohonena

Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego badacza Tenvo Kohonena.

Sa przykładem samoorganizujacych się sieci (self-organizing maps – SOMs).

Uczenie odbywa się bez nadzoru (unsupervised learning), tzn. dla podawanych przykładów (faktów) nie jest przedstawiana poprawna odpowiedź. Trenowanie sieci odbywa się w procesie samouczenia.

Page 10: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

10

Grupowanie

SOM może być użyte do grupowania obiektów. SOM stara się znaleźć skupienia, żeby każde dwa skupienia, które są blisko siebie w przestrzeni krat (grid space) były blisko siebie w przestrzeni obiektów. Odwrotna sytuacja nie musi być prawdziwa, tzn. skupienia są blisko siebie w przestrzeni obiektów, to nie muszą odpowiadać skupieniom, które są blisko siebie w przestrzeni krat.

SOM stara się wbudować kraty w przestrzeń obiektów w ten sposób, że każda obserwacja jest blisko pewnego środka ciężkości skupienia, ale krata jest wygięta lub ściśnięta możliwie mało.

Page 11: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

11

Etapy grupowania z wykorzystaniem SOM

Przygotowanie danych (wybór zmiennych, przekształcenia zmiennych, analiza obserwacji odstających)

Wybór topologii i metryki przestrzeni (jak definiujemy sąsiedztwo) Algorytm Kohonena:➔ Etap rywalizacji (gdzie skierować obserwację)➔ Etap adaptacji (specjalizacja otoczenia)• Wizualizacja wyników

Page 12: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

12

Wybór topologii

Grupowanie z wykorzystaniem SOM wykorzystuje fakt, że podobne obiekty będą umieszczone blisko siebie.

Nasze płaszczyzny będą pokryte takimi samymi wielokątami (kafelkami) Możemy wybrać różne rodzaje parkietaży (ang. tiling) Wybór różnych kafelków redefiniuje sąsiedztwo – możemy kontrolować, np.

w ilu kierunkach będzie odbywać się adaptacja

Page 13: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

13

Wybór topologii

Wybrana topologia/parkietaż wiąże się z późniejszymi możliwościami interpretacyjnymi:

➔ Parkietaże płaszczyzny Euklidesowej są z reguły intuicyjne i większość dostępnego oprogramowania umożliwia ich zastosowanie

➔ Parkietaże płaszczyzny sferycznej pozwalają na zbadanie polaryzacji (grupy będą rozlokowane w antypodach). Jeśli potrzebujemy badać więcej grup niż to oferowane jest przez wielościany platońskie, będzie trzeba użyc konstrukcji Goldberga-Coxetera

➔ Parkietaże płaszczyzny hiperbolicznej dzięki wykładniczemu rozszerzaniu się pozwalają łatwo umieścić więcej podobnych obiektów blisko siebie

Page 14: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

14

Wybór topologii – problem z obrzeżem

Dla praktycznych zastosowań może się okazać, że będziemy woleli obiekty ograniczone (przestrzenie ilorazowe) niż dyski

Przykładami przestrzeni ilorazowych dla płaszczyzny Euklidesowej są torus i butelka Kleina

Przykładem przestrzeni ilorazowej dla płaszczyzny sferycznej jest płaszczyzna eliptyczna

Przykładami przestrzeni ilorazowych dla płaszczyzny hiperbolicznej są kwartyka Kleina, powierzchnia Bolzy, powierzchnia Macbeatha...

Page 15: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

15

Algorytm Kohonena

xt = [xt1,xt2,…,xtm] oznacza wektor wejściowy,

m – liczba zmiennych

w.j = [w1j,w2j,…,wmj] – wagi połączeń neuronów wejściowych z j-tym neuronem wyjściowym. Początkowe wagi są ustalone, np. wybrane losowo.

Ustalmy neuron wejściowy x. Dla każdego neuronu wyjściowego w oblicza się wartość funkcji decyzyjnej (scoring function). Jest to odległość d(w,x)=||w-x||. Najczęściej bierze się odległość euklidesową.

d ( w. i ,x t )=√∑i=1

m

(wij−x ti )2

Page 16: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

16

Algorytm Kohonena

Neuron wyjściowy, dla którego funkcja decyzyjna ma najmniejszą wartość staje się neuronem wygrywającym (J). Jego wagi są najbardziej podobne do współrzędnych x.

Identyfikuje się wszystkie neurony j z otoczenia neuronu wygrywającego, określone przez rozmiar sąsiedztwa R(t), gdzie t - oznacza numer epoki trenowania.

Modyfikuje się wagi neuronów z otoczenia neuronu J według wzoru:

w ij' =w ij+η( t )⋅( x i−wij )

η(t) – nazywamy współczynnikiem uczenia (learning rate)

Page 17: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

17

Algorytm Kohonena

w ij' =w ij+η( t )⋅( x i−wij )

0< η(t) < 1 Początkowe wartości η(t) są ustalane (blisko 1) i są zmniejszane

(liniowo lub geometrycznie) po każdej epoce.

Również wartość rozmiaru sąsiedztwa R(t) jest zmniejszana po każdej epoce.

Proces iteracyjny zatrzymuje się, gdy są spełnione warunku „stopu”.

Page 18: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

18

Algorytm Kohonena - przykład

Zbiór danych zawiera dwie zmienne: wiek i dochód. Są one normalizowane do przedziału [0; 1]

Rozważmy cztery rekordy: x11=0.8 x12=0.8 osoba starsza z dużym dochodem

x21=0.8 x22=0.1 osoba starsza z małym dochodem

x31=0.2 x32=0.8 osoba młodsza z dużym dochodem

x41=0.1 x42=0.1 osoba młodsza z małym dochodem

Niech topologia sieci ma rozmiar 2 x 2 (4 neurony wyjściowe) Ustalmy początkowe wagi: Ustalmy:

Neuron 1: w11=0.9 w21=0.8 η(0) = 0.5

Neuron 2: w12=0.9 w22=0.2 R(0) = 0, tzn. tylko dla

Neuron 3: w13=0.1 w23=0.8 neuronu wygrywającego

Neuron 4: w14=0.1 w24=0.2 są zmieniane wagi.

Page 19: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

19

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między pierwszym wektorem (x11, x12) = (0.8, 0.8) a neuronami:

1: (w11, w21) = (0.9, 0.8)

2: (w12, w22) = (0.9, 0.2)

3: (w13, w23) = (0.1, 0.8)

4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x1)=√(0 .9−0 . 8 )2+(0 . 8−0 .8 )2=0 . 1

d ( w2 ,x 1)=√(0 .9−0 . 8 )2+(0 . 2−0 .8 )2=0 . 61

d ( w3 ,x1)=√(0 .1−0 . 8)2+(0 . 8−0 .8 )2=0 . 7

d ( w4 ,x1 )=√(0 .1−0 . 8 )2+(0 . 2−0 .8 )2=0 . 92Rywalizację wygrał neuron 1, gdyż jego wagi są najbardziej podobne do pierwszego rekordu wejściowego

Page 20: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

20

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 1.

Dla wiek:

w ij' =w i1+0 . 5⋅( x1−w i1 )

w11' =w11+0 . 5⋅( x11−w11 )=0 . 9+0. 5⋅(0 . 8−0. 9 )=0 . 85

Dla dochód:

w21' =w21+0 .5⋅( x12−w21)=0 .8+0 . 5⋅(0 . 8−0 . 8 )=0 . 8

Wagi są kierowane w kierunku rekordu wejściowego. Pozostałe wagi nie są tu zmieniane. To pozwoli neuronowi 1 jeszcze bardziej przyciągać rekordy osób starszych o dużych dochodach.

Page 21: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

21

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między drugim wektorem (x21, x22) = (0.8, 0.1) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.9, 0.2)

3: (w13, w23) = (0.1, 0.8) 4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x 2 )=√(0 . 85−0 . 8 )2+(0 . 8−0 . 1)2=0. 78

d ( w2 ,x 2 )=√(0 . 9−0 .8 )2+(0 . 2−0 .1 )2=0 . 14

d ( w3 ,x 2 )=√(0 . 1−0. 8 )2+( 0 .8−0 .1 )2=0 . 99

d ( w4 ,x2 )=√( 0 .1−0 .8 )2+(0 . 2−0 .1 )2=0 . 71Dla drugiego rekordu rywalizację wygrał neuron 2.

Page 22: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

22

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 2.

Dla wiek:

w ij' =w i2+0 .5⋅( x2−wi 2 )

w12' =w12+0 .5⋅( x21−w12)=0. 9+0 . 5⋅(0 . 8−0 . 9)=0 .85

Dla dochód:

w22' =w22+0 . 5⋅( x22−w22)=0 . 8+0 .5⋅(0 .1−0 . 2)=0 .15

Wagi połączeń z neuronem 2 są kierowane w kierunku drugiego rekordu wejściowego. Waga w22 jest zmniejszana.

Page 23: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

23

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między trzecim wektorem (x31, x32) = (0.2, 0.9) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.85, 0.15)

3: (w13, w23) = (0.1, 0.8)

4: (w14, w24) = (0.1, 0.2) .d ( w1 ,x 3 )=√(0 .85−0 . 2)2+( 0 .8−0 . 9)2=0 .66

d ( w2 ,x 3 )=√(0 .85−0 . 2)2+(0 .15−0 .9 )2=0.99

d ( w3 ,x 3 )=√(0 .1−0. 2 )2+(0 . 8−0 . 9 )2=0 . 14

d ( w4 ,x3 )=√( 0 .1−0 .2)2+( 0 .2−0 . 9 )2=0 . 71

Dla trzeciego rekordu rywalizację wygrał neuron 3.

Page 24: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

24

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 3.

Dla wiek:

w ij' =w i3+0 . 5⋅( x3−wi3 )

w13' =w13+0 .5⋅( x31−w13 )=0 . 1+0 . 5⋅(0 . 2−0 . 1)=0 .15

Dla dochód:

w23' =w23+0 . 5⋅( x32−w23)=0 .8+0 .5⋅(0 . 9−0 .8)=0 . 85

Wagi połączeń z neuronem 3 są kierowane w kierunku trzeciego rekordu wejściowego.

Page 25: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

25

Algorytm Kohonena - przykład

Rywalizacja Obliczamy odległość między czwartym wektorem (x41, x42) = (0.1, 0.1) a neuronami:

1: (w11, w21) = (0.85, 0.8)

2: (w12, w22) = (0.85, 0.15)

3: (w13, w23) = (0.15, 0.85)

4: (w14, w24) = (0.1, 0.2) .

d ( w1 ,x 4 )=√(0 . 85−0 . 1)2+(0 .8−0 . 1)2=1. 03

d ( w2 ,x 4 )=√(0 . 85−0 . 1)2+( 0 .15−0 .1)2=0 .75

d ( w3 ,x 4 )=√(0 . 1−0. 15 )2+(0 .85−0 .1)2=0 .75

d ( w4 ,x4 )=√( 0 .1−0 . 1)2+(0 . 2−0 . 1)2=0 . 1Dla czwartego rekordu rywalizację wygrał neuron 4.

Page 26: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

26

Algorytm Kohonena - przykład

Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 4.

Dla wiek:

w ij' =w i4+0 .5⋅( x 4−w i4 )

w14' =w 14+0 .5⋅( x41−w14)=0 .1+0 . 5⋅(0 . 1−0 .1 )=0 . 1

Dla dochód:

w24' =w 24+0 .5⋅( x42−w24)=0 . 2+0 . 5⋅(0 . 1−0 .2 )=0 .15

Wagi połączeń z neuronem 4 są kierowane w kierunku czwartego rekordu wejściowego.

Page 27: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

27

Algorytm Kohonena - przykład

Po zakończeniu pierwszej epoki: Początkowe wagi:

Neuron 1: w11=0.9 w21=0.8 Można zmniejszyć η(t)

Neuron 2: w12=0.9 w22=0.2

Neuron 3: w13=0.1 w23=0.8

Neuron 4: w14=0.1 w24=0.2

Końcowe wagi: rozpoznaje: Neuron 1: w11=0.85 w21=0.8 osoby starsze o dużych dochodach

Neuron 2: w12=0.85 w22=0.15 osoby starsze o małych dochodach

Neuron 3: w13=0.15 w23=0.85 osoby młodsze o dużych dochodach

Neuron 4: w14=0.1 w24=0.15 osoby młodsze o małych dochodach

Page 28: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

28

Wizualizacja

Page 29: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

29

Wizualizacja – U-Matrix

Unified distance matrix – reprezentacja SOM, która koloruje w skali szarości kafelki. Ilustruje różnice w odległości Euklidesowej pomiędzy reprezentantami klastrów a ich sąsiedztwem.

Jaśniejsze kolory symbolizują większą homogeniczność między klastrami Inverted U-Matrix – konstruowany na tej samej zasadzie co U-Matrix, z różnicą,

że im ciemniejszy kolor, to grupa klastrów jest bardziej homogeniczna. Jasne kolory mogą być intepretowane jak granice

Page 30: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

30

Przykład CHURN

plan międzynarodowy

plan poczty głosowej

czas współpracy

liczba wiadomości

dzień minuty

wieczór minuty

noc minuty

międzynarodowe minuty

liczba rozmów z BOK

Zmienne do analizy

Page 31: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

31

Diagram projektu

W projekcie An_Clus tworzymy diagram Kohonen. Diagram zawiera trzy węzły:

Input Data (CHURN)ReplacementSOM/Kohonen

Page 32: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

32

Ustalenie roli zmiennych

Page 33: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

33

Zastępowanie zmiennych

Dla zmiennych przedziałowych zmienimy domyślną opcję na No. Wybierzmy Replacement Editor.

Page 34: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

34

Zastępowanie zmiennych

Ograniczymy wartości zmiennej L_WIAD do zakresu <=20. Wartości większe przyjmą wartość 20.

Należy wybrać Limit Method = User Specified oraz Upper Limit = 20.

Page 35: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

35

Węzeł SOM/Kohonen – wybór zmiennych

Zmienna churn nie bierze udziału w grupowaniu, więc nadajemy jej status Use = No.

Nowe zmienne utworzone w węźle Replacement otrzymują nazwy REP_zmienna.

Zmienna L_WIAD nie będzie już używana i otrzymuje rolę Rejected.

Page 36: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

36

Węzeł SOM/Kohonen – wybór zmiennych

Zaznaczając zmienną i klikając na przycisk Explore możemy zobaczyć rozkład danej zmiennej, np. zmiennej REP_L_WIAD (liczba wiadomości).

Page 37: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

37

Węzeł SOM/Kohonen – parametry węzła

Ustalamy: Metoda SOM Kohonen

(domyślnie Batch SOM) Normalizacja do przedziału [0; 1]

Range (domyslnie None). Topologia sieci 2 x 2

(domyślnie 10 x 10) Promień 0 Maksymalna liczba iteracji 10

Page 38: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

38

Węzeł SOM/Kohonen – wyniki

Domyślnie ukazują się dwa okna z wynikami: Map i Output.

Page 39: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

39

Węzeł SOM/Kohonen – wyniki

Okno Map pokazuje liczebności obiektów na mapie ułożonej w dwóch wymiarach (wierszowy i kolumnowy). Tutaj liczebności wynoszą (1,1)=830, (1,2)=2411, (2,1)=92, (2,2)=0.

Można wybrać też inne statystyki, np. największa odległość od środka ciężkości skupienia, odległość od najbliższego skupienia

Page 40: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

40

Węzeł SOM/Kohonen – wyniki

Klikając na przycisk i wybierając daną zmienną można zobaczyć jej średnią wartość w skupieniach.

10,15325

10,23957

10,93587

Page 41: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

41

Węzeł SOM/Kohonen – wyniki

Dla zmiennych binarnych wyświetla się ich udział. Na przykład PLAN_M=1 ma udział 0,095811w skupieniu (1,2), 1 w skupieniu (2,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=1 i nie występuje w skupieniu (1,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=0.

Page 42: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

42

Węzeł SOM/Kohonen – wyniki

Skupienie (1,1) jest najbardziej jednorodne: Maximum Distance from Cluster Seed = 0,813873.

0,92376

1,39443

Page 43: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

43

Węzeł SOM/Kohonen – wyniki

Wyniki te możemy zobaczyć w formie tabelarycznej wybierając View | Model | Mean Statistics albo View | Model | Analysis Statistics.

Page 44: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

44

Węzeł SOM/Kohonen – parametry węzła

Analogicznie można przeprowadzić grupowanie z innymi parametrami węzła

Metoda Batch SOM

Standaryzacja zmiennych Standardization

Topologia sieci 4 x 4

Page 45: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_03.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

45

Węzeł SOM/Kohonen – przykładowe wyniki

Najliczniejsze skupienie (2,4) zawiera 1064 elementy. Skupienie (2,3) zawiera tylko 5 elementów.