zastosowanie metod eksploracji danych data mining w...
TRANSCRIPT
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznychSAS Enterprise Miner
rok akademicki 2018/2019
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
Sieci Kohonena
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
Grupowanie
Grupowanie (clustering) oznacza podział obiektów na grupy, zwane skupieniami.
Skupienie (cluster) jest zbiorem obiektów, które są podobne do siebie i niepodobne do obiektów z innych grup
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
Zanim zaczniemy analizę
4
● Techniki analizy skupień z reguły są nieodporne na występowanie obserwacji odstających
● Jeśli naszym celem jest znalezienie outlierów – z reguły stworzą jeden klaster, ale pozostałe będzie cechować niższa jakość
● Jeśli interesuje nas interpretacja ogólnych współzależności – trzeba sprawdzić, czy (i jakie) w próbie występują obserwacje odstające i (opcjonalnie) je usunąć
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
5
Jakie zmienne wybrać?
Zmienne powinny:● mieć znaczenie w wyjaśnianiu zachowania się obiektów, co ułatwia
późniejszą interpretację skupień,● być możliwie nieskorelowane, co polepsza stabilność budowanych
modeli,● mieć niedużą asymetrię i kurtozę (w ten sposób unika się tworzenia
jednoelementowych skupień)
● Z reguły zastosowanie zmiennych cechujących się różnymi skalami może zaburzyć wyniki grupowania – proszę porównać ilość informacji zawartej w zmiennej binarnej (np. płeć) z ilością informacji zawartej w zmiennej ciągłej (np. dochód)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
6
Przekształcenia liniowe zmiennych
B
Axxf
)( 0B, gdzie
Współczynnik A nie wpływa na odległości między obiektamiWspółczynnik B pełni rolę czynnika skalującego.
Szczególnie ważnymi rodzajami przekształcenia są:standaryzacja
normalizacja
xsB xA
)min(XA )min()max( XXB
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
7
Normalizacja
Normalizacja ma na celu doprowadzenie obiektów lub zmiennych do porównywalnych wielkości. Problem ten dotyczy zmiennych mierzonych w różnych jednostkach (np. sztuki, czas, waluta).
Przykład Rozważmy 3 obiekty i dwie zmienne: wiek osoby mierzony w latach i jej dochód mierzony w złotych lub tys. zł. Czy obiekt B jest bardziej podobny do obiektu A czy do obiektu C?
Zmienna -> X Y1 Y2 Wiek Dochód Dochód
Osoba (w latach) (w zł) ( w tys. zł) A 35 12000 12,0 B 37 6700 6,7 C 45 7000 7,0
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
8
Metryka przestrzeni
Odległość euklidesowa
Odległość Minkowskiego Jej szczególnymi przypadkami są:
odległość miejska (p=1)
odległość euklidesowa (p=2)
odległość Czebyszewa (p= ∞ )
ponadto kwadrat odległości euklidesowej
m
ijj xxOOd
1
22121 ,
p
m
j
p
jj xxOOd
/1
12121 ,
jjmj
xxOOd 21,...,1
21 max,
m
ijj xxOOd
1
22121,
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
9
Sieci Kohonena
Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego badacza Tenvo Kohonena.
Sa przykładem samoorganizujacych się sieci (self-organizing maps – SOMs).
Uczenie odbywa się bez nadzoru (unsupervised learning), tzn. dla podawanych przykładów (faktów) nie jest przedstawiana poprawna odpowiedź. Trenowanie sieci odbywa się w procesie samouczenia.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
10
Grupowanie
SOM może być użyte do grupowania obiektów. SOM stara się znaleźć skupienia, żeby każde dwa skupienia, które są blisko siebie w przestrzeni krat (grid space) były blisko siebie w przestrzeni obiektów. Odwrotna sytuacja nie musi być prawdziwa, tzn. skupienia są blisko siebie w przestrzeni obiektów, to nie muszą odpowiadać skupieniom, które są blisko siebie w przestrzeni krat.
SOM stara się wbudować kraty w przestrzeń obiektów w ten sposób, że każda obserwacja jest blisko pewnego środka ciężkości skupienia, ale krata jest wygięta lub ściśnięta możliwie mało.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
11
Etapy grupowania z wykorzystaniem SOM
Przygotowanie danych (wybór zmiennych, przekształcenia zmiennych, analiza obserwacji odstających)
Wybór topologii i metryki przestrzeni (jak definiujemy sąsiedztwo) Algorytm Kohonena:➔ Etap rywalizacji (gdzie skierować obserwację)➔ Etap adaptacji (specjalizacja otoczenia)• Wizualizacja wyników
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
12
Wybór topologii
Grupowanie z wykorzystaniem SOM wykorzystuje fakt, że podobne obiekty będą umieszczone blisko siebie.
Nasze płaszczyzny będą pokryte takimi samymi wielokątami (kafelkami) Możemy wybrać różne rodzaje parkietaży (ang. tiling) Wybór różnych kafelków redefiniuje sąsiedztwo – możemy kontrolować, np.
w ilu kierunkach będzie odbywać się adaptacja
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
13
Wybór topologii
Wybrana topologia/parkietaż wiąże się z późniejszymi możliwościami interpretacyjnymi:
➔ Parkietaże płaszczyzny Euklidesowej są z reguły intuicyjne i większość dostępnego oprogramowania umożliwia ich zastosowanie
➔ Parkietaże płaszczyzny sferycznej pozwalają na zbadanie polaryzacji (grupy będą rozlokowane w antypodach). Jeśli potrzebujemy badać więcej grup niż to oferowane jest przez wielościany platońskie, będzie trzeba użyc konstrukcji Goldberga-Coxetera
➔ Parkietaże płaszczyzny hiperbolicznej dzięki wykładniczemu rozszerzaniu się pozwalają łatwo umieścić więcej podobnych obiektów blisko siebie
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
14
Wybór topologii – problem z obrzeżem
Dla praktycznych zastosowań może się okazać, że będziemy woleli obiekty ograniczone (przestrzenie ilorazowe) niż dyski
Przykładami przestrzeni ilorazowych dla płaszczyzny Euklidesowej są torus i butelka Kleina
Przykładem przestrzeni ilorazowej dla płaszczyzny sferycznej jest płaszczyzna eliptyczna
Przykładami przestrzeni ilorazowych dla płaszczyzny hiperbolicznej są kwartyka Kleina, powierzchnia Bolzy, powierzchnia Macbeatha...
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
15
Algorytm Kohonena
xt = [xt1,xt2,…,xtm] oznacza wektor wejściowy,
m – liczba zmiennych
w.j = [w1j,w2j,…,wmj] – wagi połączeń neuronów wejściowych z j-tym neuronem wyjściowym. Początkowe wagi są ustalone, np. wybrane losowo.
Ustalmy neuron wejściowy x. Dla każdego neuronu wyjściowego w oblicza się wartość funkcji decyzyjnej (scoring function). Jest to odległość d(w,x)=||w-x||. Najczęściej bierze się odległość euklidesową.
d ( w. i ,x t )=√∑i=1
m
(wij−x ti )2
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
16
Algorytm Kohonena
Neuron wyjściowy, dla którego funkcja decyzyjna ma najmniejszą wartość staje się neuronem wygrywającym (J). Jego wagi są najbardziej podobne do współrzędnych x.
Identyfikuje się wszystkie neurony j z otoczenia neuronu wygrywającego, określone przez rozmiar sąsiedztwa R(t), gdzie t - oznacza numer epoki trenowania.
Modyfikuje się wagi neuronów z otoczenia neuronu J według wzoru:
w ij' =w ij+η( t )⋅( x i−wij )
η(t) – nazywamy współczynnikiem uczenia (learning rate)
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
17
Algorytm Kohonena
w ij' =w ij+η( t )⋅( x i−wij )
0< η(t) < 1 Początkowe wartości η(t) są ustalane (blisko 1) i są zmniejszane
(liniowo lub geometrycznie) po każdej epoce.
Również wartość rozmiaru sąsiedztwa R(t) jest zmniejszana po każdej epoce.
Proces iteracyjny zatrzymuje się, gdy są spełnione warunku „stopu”.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
18
Algorytm Kohonena - przykład
Zbiór danych zawiera dwie zmienne: wiek i dochód. Są one normalizowane do przedziału [0; 1]
Rozważmy cztery rekordy: x11=0.8 x12=0.8 osoba starsza z dużym dochodem
x21=0.8 x22=0.1 osoba starsza z małym dochodem
x31=0.2 x32=0.8 osoba młodsza z dużym dochodem
x41=0.1 x42=0.1 osoba młodsza z małym dochodem
Niech topologia sieci ma rozmiar 2 x 2 (4 neurony wyjściowe) Ustalmy początkowe wagi: Ustalmy:
Neuron 1: w11=0.9 w21=0.8 η(0) = 0.5
Neuron 2: w12=0.9 w22=0.2 R(0) = 0, tzn. tylko dla
Neuron 3: w13=0.1 w23=0.8 neuronu wygrywającego
Neuron 4: w14=0.1 w24=0.2 są zmieniane wagi.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
19
Algorytm Kohonena - przykład
Rywalizacja Obliczamy odległość między pierwszym wektorem (x11, x12) = (0.8, 0.8) a neuronami:
1: (w11, w21) = (0.9, 0.8)
2: (w12, w22) = (0.9, 0.2)
3: (w13, w23) = (0.1, 0.8)
4: (w14, w24) = (0.1, 0.2) .
d ( w1 ,x1)=√(0 .9−0 . 8 )2+(0 . 8−0 .8 )2=0 . 1
d ( w2 ,x 1)=√(0 .9−0 . 8 )2+(0 . 2−0 .8 )2=0 . 61
d ( w3 ,x1)=√(0 .1−0 . 8)2+(0 . 8−0 .8 )2=0 . 7
d ( w4 ,x1 )=√(0 .1−0 . 8 )2+(0 . 2−0 .8 )2=0 . 92Rywalizację wygrał neuron 1, gdyż jego wagi są najbardziej podobne do pierwszego rekordu wejściowego
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
20
Algorytm Kohonena - przykład
Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 1.
Dla wiek:
w ij' =w i1+0 . 5⋅( x1−w i1 )
w11' =w11+0 . 5⋅( x11−w11 )=0 . 9+0. 5⋅(0 . 8−0. 9 )=0 . 85
Dla dochód:
w21' =w21+0 .5⋅( x12−w21)=0 .8+0 . 5⋅(0 . 8−0 . 8 )=0 . 8
Wagi są kierowane w kierunku rekordu wejściowego. Pozostałe wagi nie są tu zmieniane. To pozwoli neuronowi 1 jeszcze bardziej przyciągać rekordy osób starszych o dużych dochodach.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
21
Algorytm Kohonena - przykład
Rywalizacja Obliczamy odległość między drugim wektorem (x21, x22) = (0.8, 0.1) a neuronami:
1: (w11, w21) = (0.85, 0.8)
2: (w12, w22) = (0.9, 0.2)
3: (w13, w23) = (0.1, 0.8) 4: (w14, w24) = (0.1, 0.2) .
d ( w1 ,x 2 )=√(0 . 85−0 . 8 )2+(0 . 8−0 . 1)2=0. 78
d ( w2 ,x 2 )=√(0 . 9−0 .8 )2+(0 . 2−0 .1 )2=0 . 14
d ( w3 ,x 2 )=√(0 . 1−0. 8 )2+( 0 .8−0 .1 )2=0 . 99
d ( w4 ,x2 )=√( 0 .1−0 .8 )2+(0 . 2−0 .1 )2=0 . 71Dla drugiego rekordu rywalizację wygrał neuron 2.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
22
Algorytm Kohonena - przykład
Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 2.
Dla wiek:
w ij' =w i2+0 .5⋅( x2−wi 2 )
w12' =w12+0 .5⋅( x21−w12)=0. 9+0 . 5⋅(0 . 8−0 . 9)=0 .85
Dla dochód:
w22' =w22+0 . 5⋅( x22−w22)=0 . 8+0 .5⋅(0 .1−0 . 2)=0 .15
Wagi połączeń z neuronem 2 są kierowane w kierunku drugiego rekordu wejściowego. Waga w22 jest zmniejszana.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
23
Algorytm Kohonena - przykład
Rywalizacja Obliczamy odległość między trzecim wektorem (x31, x32) = (0.2, 0.9) a neuronami:
1: (w11, w21) = (0.85, 0.8)
2: (w12, w22) = (0.85, 0.15)
3: (w13, w23) = (0.1, 0.8)
4: (w14, w24) = (0.1, 0.2) .d ( w1 ,x 3 )=√(0 .85−0 . 2)2+( 0 .8−0 . 9)2=0 .66
d ( w2 ,x 3 )=√(0 .85−0 . 2)2+(0 .15−0 .9 )2=0.99
d ( w3 ,x 3 )=√(0 .1−0. 2 )2+(0 . 8−0 . 9 )2=0 . 14
d ( w4 ,x3 )=√( 0 .1−0 .2)2+( 0 .2−0 . 9 )2=0 . 71
Dla trzeciego rekordu rywalizację wygrał neuron 3.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
24
Algorytm Kohonena - przykład
Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 3.
Dla wiek:
w ij' =w i3+0 . 5⋅( x3−wi3 )
w13' =w13+0 .5⋅( x31−w13 )=0 . 1+0 . 5⋅(0 . 2−0 . 1)=0 .15
Dla dochód:
w23' =w23+0 . 5⋅( x32−w23)=0 .8+0 .5⋅(0 . 9−0 .8)=0 . 85
Wagi połączeń z neuronem 3 są kierowane w kierunku trzeciego rekordu wejściowego.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
25
Algorytm Kohonena - przykład
Rywalizacja Obliczamy odległość między czwartym wektorem (x41, x42) = (0.1, 0.1) a neuronami:
1: (w11, w21) = (0.85, 0.8)
2: (w12, w22) = (0.85, 0.15)
3: (w13, w23) = (0.15, 0.85)
4: (w14, w24) = (0.1, 0.2) .
d ( w1 ,x 4 )=√(0 . 85−0 . 1)2+(0 .8−0 . 1)2=1. 03
d ( w2 ,x 4 )=√(0 . 85−0 . 1)2+( 0 .15−0 .1)2=0 .75
d ( w3 ,x 4 )=√(0 . 1−0. 15 )2+(0 .85−0 .1)2=0 .75
d ( w4 ,x4 )=√( 0 .1−0 . 1)2+(0 . 2−0 . 1)2=0 . 1Dla czwartego rekordu rywalizację wygrał neuron 4.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
26
Algorytm Kohonena - przykład
Adaptacja Modyfikujemy wagi połączeń z neuronem wyjściowym 4.
Dla wiek:
w ij' =w i4+0 .5⋅( x 4−w i4 )
w14' =w 14+0 .5⋅( x41−w14)=0 .1+0 . 5⋅(0 . 1−0 .1 )=0 . 1
Dla dochód:
w24' =w 24+0 .5⋅( x42−w24)=0 . 2+0 . 5⋅(0 . 1−0 .2 )=0 .15
Wagi połączeń z neuronem 4 są kierowane w kierunku czwartego rekordu wejściowego.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
27
Algorytm Kohonena - przykład
Po zakończeniu pierwszej epoki: Początkowe wagi:
Neuron 1: w11=0.9 w21=0.8 Można zmniejszyć η(t)
Neuron 2: w12=0.9 w22=0.2
Neuron 3: w13=0.1 w23=0.8
Neuron 4: w14=0.1 w24=0.2
Końcowe wagi: rozpoznaje: Neuron 1: w11=0.85 w21=0.8 osoby starsze o dużych dochodach
Neuron 2: w12=0.85 w22=0.15 osoby starsze o małych dochodach
Neuron 3: w13=0.15 w23=0.85 osoby młodsze o dużych dochodach
Neuron 4: w14=0.1 w24=0.15 osoby młodsze o małych dochodach
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
28
Wizualizacja
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
29
Wizualizacja – U-Matrix
Unified distance matrix – reprezentacja SOM, która koloruje w skali szarości kafelki. Ilustruje różnice w odległości Euklidesowej pomiędzy reprezentantami klastrów a ich sąsiedztwem.
Jaśniejsze kolory symbolizują większą homogeniczność między klastrami Inverted U-Matrix – konstruowany na tej samej zasadzie co U-Matrix, z różnicą,
że im ciemniejszy kolor, to grupa klastrów jest bardziej homogeniczna. Jasne kolory mogą być intepretowane jak granice
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
30
Przykład CHURN
plan międzynarodowy
plan poczty głosowej
czas współpracy
liczba wiadomości
dzień minuty
wieczór minuty
noc minuty
międzynarodowe minuty
liczba rozmów z BOK
Zmienne do analizy
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
31
Diagram projektu
W projekcie An_Clus tworzymy diagram Kohonen. Diagram zawiera trzy węzły:
Input Data (CHURN)ReplacementSOM/Kohonen
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
32
Ustalenie roli zmiennych
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
33
Zastępowanie zmiennych
Dla zmiennych przedziałowych zmienimy domyślną opcję na No. Wybierzmy Replacement Editor.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
34
Zastępowanie zmiennych
Ograniczymy wartości zmiennej L_WIAD do zakresu <=20. Wartości większe przyjmą wartość 20.
Należy wybrać Limit Method = User Specified oraz Upper Limit = 20.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
35
Węzeł SOM/Kohonen – wybór zmiennych
Zmienna churn nie bierze udziału w grupowaniu, więc nadajemy jej status Use = No.
Nowe zmienne utworzone w węźle Replacement otrzymują nazwy REP_zmienna.
Zmienna L_WIAD nie będzie już używana i otrzymuje rolę Rejected.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
36
Węzeł SOM/Kohonen – wybór zmiennych
Zaznaczając zmienną i klikając na przycisk Explore możemy zobaczyć rozkład danej zmiennej, np. zmiennej REP_L_WIAD (liczba wiadomości).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
37
Węzeł SOM/Kohonen – parametry węzła
Ustalamy: Metoda SOM Kohonen
(domyślnie Batch SOM) Normalizacja do przedziału [0; 1]
Range (domyslnie None). Topologia sieci 2 x 2
(domyślnie 10 x 10) Promień 0 Maksymalna liczba iteracji 10
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
38
Węzeł SOM/Kohonen – wyniki
Domyślnie ukazują się dwa okna z wynikami: Map i Output.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
39
Węzeł SOM/Kohonen – wyniki
Okno Map pokazuje liczebności obiektów na mapie ułożonej w dwóch wymiarach (wierszowy i kolumnowy). Tutaj liczebności wynoszą (1,1)=830, (1,2)=2411, (2,1)=92, (2,2)=0.
Można wybrać też inne statystyki, np. największa odległość od środka ciężkości skupienia, odległość od najbliższego skupienia
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
40
Węzeł SOM/Kohonen – wyniki
Klikając na przycisk i wybierając daną zmienną można zobaczyć jej średnią wartość w skupieniach.
10,15325
10,23957
10,93587
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
41
Węzeł SOM/Kohonen – wyniki
Dla zmiennych binarnych wyświetla się ich udział. Na przykład PLAN_M=1 ma udział 0,095811w skupieniu (1,2), 1 w skupieniu (2,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=1 i nie występuje w skupieniu (1,1), tzn. wszystkie elementy w tym skupieniu mają wartość PLAN_M=0.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
42
Węzeł SOM/Kohonen – wyniki
Skupienie (1,1) jest najbardziej jednorodne: Maximum Distance from Cluster Seed = 0,813873.
0,92376
1,39443
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
43
Węzeł SOM/Kohonen – wyniki
Wyniki te możemy zobaczyć w formie tabelarycznej wybierając View | Model | Mean Statistics albo View | Model | Analysis Statistics.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
44
Węzeł SOM/Kohonen – parametry węzła
Analogicznie można przeprowadzić grupowanie z innymi parametrami węzła
Metoda Batch SOM
Standaryzacja zmiennych Standardization
Topologia sieci 4 x 4
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
45
Węzeł SOM/Kohonen – przykładowe wyniki
Najliczniejsze skupienie (2,4) zawiera 1064 elementy. Skupienie (2,3) zawiera tylko 5 elementów.