zastosowanie metod eksploracji danych data mining w...

42
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2018/2019

Upload: others

Post on 12-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznychSAS Enterprise Miner

rok akademicki 2018/2019

Page 2: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

Sieci neuronowe

Page 3: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

3

Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network

Do realizacji algorytmu sieci neuronowych służy węzeł Neural Network.

Możemy trenować sieć w trybie automatycznym albo interaktywnym.

Nie jest możliwe wykorzystanie obserwacji zawierających braki danych. Trzeba je uzupełnić we wcześniejszych węzłach (Impute).

Page 4: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

4

Przykład 1 – użycie komputera

Do analizy wykorzystamy zbiór F2011BD z biblioteki dmlib.

W projekcie dm1 utworzymy nowy diagram o nazwie Neuron.

Nadamy status Rejected wszystkim zmiennym z wyjątkiem: KOMPUTER Target DOCHG Input (Interval) LEDC Input (Interval) WYK Input (Ordinal) NR ID

Page 5: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

5

Przykład 1 – podział próby

Dołączmy węzeł Data Partition. Podzielimy zbiór danych na podzbiory: treningowy, walidacyjny

i testowy w proporcji: 60%, 30% i 10%. Następnie dołączmy węzeł Neural Network.

Page 6: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

6

Węzeł Neural Network

Węzeł Neural Network umożliwia: zdefiniowanie różnych topologii sieci z różnymi funkcjami

aktywacji, np. przyjęcie bezpośredniego połączenia warstwy wejściowej z warstwa wyjściową;

ustalenie kryterium doboru najlepszej sieci; określenie maksymalnej liczby iteracji i maksymalnego

czasu treningu; użycie opcji uczenia wstępnego (preliminary training).

Page 7: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

7

Węzeł Neural NetworkUstawienia domyślne

Startowe wartości wag nie będą brane z poprzedniego przebiegu.

Ziarno generatora liczb pseudolosowych dla ustalenia początkowych wag.

Domyślna metoda wyboru najlepszej sieci (Profit/Loss).

Page 8: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

8

Kryterium wyboru modelu

Model selection criteria Profit/Loss -- maksymalizuje

zysk (profit) i minimalizuje stratę (loss) dla obserwacji w zbiorze walidacyjnym.

Misclassification Rate -- minimalizuje funkcję błędnej klasyfikacji dla obserwacji w zbiorze walidacyjnym.

Average Error - minimalizuje błąd średni dla obserwacji w zbiorze walidacyjnym.

Page 9: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

9

Węzeł Neural Networkmenu Optimization

Metoda treningu: Default - wybór algorytmu jest automatyczny na podstawie liczby wag do oszacowania.

Maksymalna liczba iteracji. Maksymalny czas treningu

sieci.

Pozwala znaleźć punkty startowe do treningu sieci.

Page 10: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

10

Metody treningu sieci

Training technique

Dostępne są techniki minimalizacji funkcji nieliniowych, m. in.: Levenberg-Marquardt – polecana dla małych sieci, wymaga dużo

pamięci; Quasi-Newton – polecana dla sieci średniej wielkości, wymaga więcej

iteracji niż poprzednia; Conjugate Gradient – polecana dla dużych sieci, nie wymaga dużo

pamięci, ale na ogół dużo iteracji.

Używane dla sieci neuronowych: QProp (Quickprop) – podobna do metody Newtona, szybsza niż

standardowa metoda propagacji wstecznej; RProp – używa oddzielnych współczynników uczenia dla każdej wagi,

szybka, ale wymaga dużo iteracji, najbardziej stabilna z metod propagacji wstecznej.

Page 11: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

11

Model sieci menu Network

Domyślna architektura (MLP).

Czy są bezpośrednie połączenia między warstwą wejściową i wyjściową (No).

Liczba neuronów w warstwie ukrytej (3).

Początkowy rozkład wag (Normal, Cauchy, Uniform).

Funkcja kombinacji i funkcja aktywacji.

Page 12: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

12

Neural Network -- wyniki

Domyślnie ukazują się 4 okna: Score Ranking Overlay, Iteration Plot, Fit Statistics, Output.

Page 13: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

13

Score Ranking Overlay

Wykres Mean for Predicted ilustruje porównanie wartości średnich zmiennej objaśnianej (KOMPUTER) i jej prognozy po uporządkowaniu malejącym według prognozy dla zbioru treningowego i walidacyjnego.

Page 14: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

14

Iteration Plot

Wykres ilustruje porównanie błędu średniokwadratowego (Average Squared Error) dla danych treningowych i walidacyjnych w kolejnych iteracjach. Najmniejszy błąd dla danych walidacyjnych jest po 5 iteracjach.

Można otrzymać wykresy innych funkcji błędu względem numeru iteracji (na zbiorze treningowym i walidacyjnym lub tylko na zbiorze treningowym).

Page 15: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

15

Fit Statistics

Tablica pozwala porównać różne statystyki dopasowania dla zbioru treningowego, walidacyjnego i testowego. Np. dla błędu RMSE (Root Mean Square Error) mamy: Train = 0,399155, Validation = 0,396298, Test = 0,399789. Na podstawie porównania tych statystyk można wnioskować o przetrenowaniu lub niedotrenowaniu sieci.

Page 16: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

16

Neural Network -- Output

The NEURAL Procedure

Preliminary Starting Objective Number

Training Random Function of Terminating

Run Seed Value Iterations Criteria

1 12345 0.159785211425 10

2 463937847 0.15938506488 10

3 866987325 0.159691686745 10

4 998823970 0.159508764532 10

5 734635899 0.159969018919 10

Wykonano 5 przebiegów wstępnego treningu zmieniając zalążki punktu startowego generatora liczb pseudolosowych. Każdy przebieg miał maksymalnie 10 iteracji.

Page 17: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

17

Neural Network – osiąganie zbieżności algorytmu

• Początkowo nie osiągnięto punktu zbieżności (FCONV).

• Trening powtórzono, wybierając maksymalną liczbę iteracji 100.

• Po 37 iteracjach nastąpiła zbieżność.

LEVMAR needs more than 20 iterations or 2147483647 function calls.

WARNING: LEVMAR Optimization cannot be completed.

Page 18: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

18

Początkowe wagi

W oknie Output możemy odczytać początkowe wagi połączeń.

Zmienna porządkowa wyk została rozłożona na 3 poziomy: wyk1, wyk2, wyk3 (poziom wyk=4 jest poziomem referencyjnym).

H11, H12, H13 oznacza neurony warstwy ukrytej.

BIAS oznacza wyraz wolny w funkcji kombinacji.

Mamy 22 wagi.

Page 19: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

19

Końcowe wagi

W oknie Output możemy odczytać końcowe wagi połączeń.

Przykładowo:

dochg_H11 = 0.143104

dochg_H12 = 0.030881

dochg_H13 = -1.948289

oznaczają wagi połączeń DOCHG (z warstwy wejściowej) z neuronami warstwy ukrytej.

H11_komputer = 0.411843

H12_komputer = -0.246501

H13_komputer = -0.188495

oznaczają wagi połączeń neuronów warstwy ukrytej z neuronem warstwy wyjściowej (zmienna KOMPUTER).

Page 20: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

20

Porównanie rozkładów zmiennej w zbiorach

Po wybraniu z menu polecenia View | Assessment | Score Distribution widzimy porównanie rozkładu zmiennej objaśnianej w zbiorze treningowym i walidacyjnym.

Na osi poziomej mamy wartość prognozowaną, na osi pionowej średnią wartość zmiennej KOMPUTER.

Page 21: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

21

Przykład 2 -- zmiana parametrów sieci

Dodajmy do diagramu nowy węzeł Neural Network, w którym zmienimy parametry treningu, a następnie węzeł Model Comparison służący do porównania dwóch modeli sieci neuronowych.

Page 22: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

22

Przykład 2 -- zmiana parametrów

W modelu ustalimy, że: warstwa ukryta zawiera 6 neuronów; początkowe wagi są wybierane

z rozkładu jednostajnego;

wartości zmiennych wejściowych będą normalizowane (wartości są sprowadzane do przedziału [0; 1]); nie ma stałej w funkcji kombinacji

(Hidden Bias = No).

Page 23: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

23

Przykład 2 -- zmiana parametrów

Zmienimy ponadto: maksymalna liczba iteracji 100, metoda treningu - Quasi-Newton, nie ma etapu wstępnego treningu.

Page 24: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

24

Liczba iteracji dla metody Quasi-Newton

Zbieżność zostaje osiągnięta po 64 iteracjach.

Page 25: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

25

Porównanie dwóch modeli sieci neuronowej

Model Comparison -Result domyślnie podzielone jest na 4 okna.

Page 26: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

26

Statistics Comparison

Po wyborze View | Model | Statistics Comparison możemy porównać statystyki dopasowania dla modeli Neural i Neural 2.

Page 27: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

27

Przykład 3 – problem braków danych w zbiorze

W odróżnieniu od drzew decyzyjnych model sieci neuronowych nie może zawierać braków danych.

Jeżeli chcemy wykorzystać zmienne mające braki danych, należy przed uruchomieniem węzła Neural Network zastąpić brakujące dane przez imputowane wartości. Do tego celu służy węzeł Impute.

Page 28: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

28

Przykład 3 – problem braków danych

Zbudujemy model sieci neuronowych wykorzystując zbiór HMEQ. Niektóre zmienne w tym zbiorze zawierają braki danych.

Utwórzmy diagram Impute (w projekcie dmtrees), a nim węzły Input Data (HMEQ), Data Partition, Impute i Neural Network.

Page 29: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

29

Przykład 3 – wybrane zmienne

Podobnie jak w przypadku modelu drzew decyzyjnych przypiszmy zmiennej Default rolę Target. Zmieńmy odpowiednio skalę pomiaru pozostałych zmiennych, jeżeli potrzeba.

Page 30: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

30

Przykład 3 – podział próby

Podzielimy zbiór na część:

• treningową 67%,

• walidacyjną 33%.

Nie będziemy tworzyć zbioru testowego

Zostawimy domyślną metodę losowania

Page 31: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

31

Węzeł Impute – wartości domyślne

• Dla zmiennych dyskretnych domyślną metodą uzupełniania braków danych jest Count -- wartość najczęściej występująca

• Dla zmiennych ciągłych domyślną metodą uzupełniania braków danych jest Mean -- wartość średnia.

• Osobno możemy ustawiać imputowane wartości dla zmiennej objaśnianej (domyślnie None).

Page 32: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

32

Metody imputacji dla zmiennych dyskretnych

Count – dominanta;

Default constant value -- stała wartość ustawiona w polu Default Character Value albo Default Number Value;

Distribution -- wylosowana wartość zgodnie z rozkładem znanych wartości zmiennej;

Tree -- zbudowanie drzewa decyzyjnego objaśniającego zależność danej zmiennej od pozostałych i wstawienie prognozowanej wartości.

Page 33: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

33

Metody imputacji dla zmiennych ciągłych

Mean -- wartość średnia;

Median – mediana;

Mid-Range -- wartość środkowa: (max-min)/2;

Default constant value -- stała wartość ustawiona w polu Default Character Value albo Default Number Value;

Distribution -- wylosowana wartość zgodnie z rozkładem znanych wartości zmiennej;

Tree -- zbudowanie drzewa decyzyjnego objaśniającego zależność danej zmiennej od pozostałych i wstawienie prognozowanej wartości.

Możliwe jest zastosowanie M-estymatorów: Tukey’s Biweight, Huber, Andrew’s Wave.

Page 34: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

34

Indykatory brakujących danych

Można utworzyć indykatory brakujących danych. Są to nowe zmienne przyjmujące wartość 1, gdy w zmiennej występuje brak danych oraz 0 w przeciwnym wypadku (Indicator Variable = Unique, Indicator Variable Role = Input),

Przyjęcie Indicator Variable = Single spowoduje utworzenie pojedynczego indykatora dla całego zbioru,

Oryginalne zmienne można wtedy wyłączyć z analizy.

Page 35: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

35

Nowe zmienne utworzone w węźle Impute

Po uruchomieniu węzła Impute otrzymujemy tabelę (Imputation Summary) zawierającą nazwy nowych zmiennych oraz liczbę imputowanych wartości dla poszczególnych zmiennych w zbiorze treningowym.

Page 36: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

36

Nowe zmienne utworzone w węźle Impute

Po przejściu do węzła Neural Network widzimy nazwy nowych zmiennych.

Mają one prefiks:IMP_ - zmienne po imputacjiM_ - indykatory.

Page 37: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

37

Nowe zmienne utworzone w węźle Impute

Zaznaczając zmienną (tu: M_DEBTINC) i klikając na przycisk Explore można zobaczyć rozkład tej zmiennej.

Page 38: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

38

Objaśnianie sieci neuronowych przez drzewa decyzyjne

Modele sieci neuronowych są trudne do interpretacji. Po utworzeniu modelu sieci neuronowych można użyć drzew decyzyjnych do wygenerowania reguł prowadzących do klasyfikacji obiektów.

W tym celu należy:1. Zbudować model sieci neuronowych.2. Użyć węzła Metadata do zastąpienia dotychczasowej zmiennej

objaśnianej przez zmienną zawierającą wartości przewidywane przez sieć neuronową.

3. Zbudować drzewo decyzyjne, w którym ta nowa zmienna staje zmienną objaśnianą.

Page 39: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

39

Objaśnianie sieci neuronowych przez drzewa decyzyjne

Dodajemy do diagramu nowe węzły: Metadata (z grupy Ulility) i Decision Tree.

Page 40: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

40

Objaśnianie sieci neuronowych przez drzewa decyzyjne

W węźle Metadata wybieramy Train | Variables | Train i w oknie dialogowym Variables -- Meta zmieniamy rolę zmiennej Default na (New Role) Rejected, a rolę zmiennej I_Default na Target. Zmienna I_Default zawiera wartości przewidywane przez sieć.

Page 41: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

41

Objaśnianie sieci neuronowych przez drzewa decyzyjne

Po uruchomieniu węzła Metadata w oknie wynikowym Output widzimy, jakie parametry zmiennych zostały zmodyfikowane.

Page 42: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_02b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

42

Objaśnianie sieci neuronowych przez drzewa decyzyjne

W węźle Decision Tree wybieramy Update. Po uruchomieniu węzła z domyślnymi parametrami otrzymujemy drzewo decyzyjne, którego fragment jest pokazany:Reguły uzyskane za pomocą sieci neuronowej znajdują się na pogrubionej ścieżce.