zastosowanie metod eksploracji danych data mining w...
Post on 12-Jul-2020
2 Views
Preview:
TRANSCRIPT
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznychSAS Enterprise Miner
rok akademicki 2018/2019
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
Sieci neuronowe
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
3
Sieci neuronowe w SAS Enterprise Miner Węzeł Neural Network
Do realizacji algorytmu sieci neuronowych służy węzeł Neural Network.
Możemy trenować sieć w trybie automatycznym albo interaktywnym.
Nie jest możliwe wykorzystanie obserwacji zawierających braki danych. Trzeba je uzupełnić we wcześniejszych węzłach (Impute).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
4
Przykład 1 – użycie komputera
Do analizy wykorzystamy zbiór F2011BD z biblioteki dmlib.
W projekcie dm1 utworzymy nowy diagram o nazwie Neuron.
Nadamy status Rejected wszystkim zmiennym z wyjątkiem: KOMPUTER Target DOCHG Input (Interval) LEDC Input (Interval) WYK Input (Ordinal) NR ID
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
5
Przykład 1 – podział próby
Dołączmy węzeł Data Partition. Podzielimy zbiór danych na podzbiory: treningowy, walidacyjny
i testowy w proporcji: 60%, 30% i 10%. Następnie dołączmy węzeł Neural Network.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
6
Węzeł Neural Network
Węzeł Neural Network umożliwia: zdefiniowanie różnych topologii sieci z różnymi funkcjami
aktywacji, np. przyjęcie bezpośredniego połączenia warstwy wejściowej z warstwa wyjściową;
ustalenie kryterium doboru najlepszej sieci; określenie maksymalnej liczby iteracji i maksymalnego
czasu treningu; użycie opcji uczenia wstępnego (preliminary training).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
7
Węzeł Neural NetworkUstawienia domyślne
Startowe wartości wag nie będą brane z poprzedniego przebiegu.
Ziarno generatora liczb pseudolosowych dla ustalenia początkowych wag.
Domyślna metoda wyboru najlepszej sieci (Profit/Loss).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
8
Kryterium wyboru modelu
Model selection criteria Profit/Loss -- maksymalizuje
zysk (profit) i minimalizuje stratę (loss) dla obserwacji w zbiorze walidacyjnym.
Misclassification Rate -- minimalizuje funkcję błędnej klasyfikacji dla obserwacji w zbiorze walidacyjnym.
Average Error - minimalizuje błąd średni dla obserwacji w zbiorze walidacyjnym.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
9
Węzeł Neural Networkmenu Optimization
Metoda treningu: Default - wybór algorytmu jest automatyczny na podstawie liczby wag do oszacowania.
Maksymalna liczba iteracji. Maksymalny czas treningu
sieci.
Pozwala znaleźć punkty startowe do treningu sieci.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
10
Metody treningu sieci
Training technique
Dostępne są techniki minimalizacji funkcji nieliniowych, m. in.: Levenberg-Marquardt – polecana dla małych sieci, wymaga dużo
pamięci; Quasi-Newton – polecana dla sieci średniej wielkości, wymaga więcej
iteracji niż poprzednia; Conjugate Gradient – polecana dla dużych sieci, nie wymaga dużo
pamięci, ale na ogół dużo iteracji.
Używane dla sieci neuronowych: QProp (Quickprop) – podobna do metody Newtona, szybsza niż
standardowa metoda propagacji wstecznej; RProp – używa oddzielnych współczynników uczenia dla każdej wagi,
szybka, ale wymaga dużo iteracji, najbardziej stabilna z metod propagacji wstecznej.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
11
Model sieci menu Network
Domyślna architektura (MLP).
Czy są bezpośrednie połączenia między warstwą wejściową i wyjściową (No).
Liczba neuronów w warstwie ukrytej (3).
Początkowy rozkład wag (Normal, Cauchy, Uniform).
Funkcja kombinacji i funkcja aktywacji.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
12
Neural Network -- wyniki
Domyślnie ukazują się 4 okna: Score Ranking Overlay, Iteration Plot, Fit Statistics, Output.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
13
Score Ranking Overlay
Wykres Mean for Predicted ilustruje porównanie wartości średnich zmiennej objaśnianej (KOMPUTER) i jej prognozy po uporządkowaniu malejącym według prognozy dla zbioru treningowego i walidacyjnego.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
14
Iteration Plot
Wykres ilustruje porównanie błędu średniokwadratowego (Average Squared Error) dla danych treningowych i walidacyjnych w kolejnych iteracjach. Najmniejszy błąd dla danych walidacyjnych jest po 5 iteracjach.
Można otrzymać wykresy innych funkcji błędu względem numeru iteracji (na zbiorze treningowym i walidacyjnym lub tylko na zbiorze treningowym).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
15
Fit Statistics
Tablica pozwala porównać różne statystyki dopasowania dla zbioru treningowego, walidacyjnego i testowego. Np. dla błędu RMSE (Root Mean Square Error) mamy: Train = 0,399155, Validation = 0,396298, Test = 0,399789. Na podstawie porównania tych statystyk można wnioskować o przetrenowaniu lub niedotrenowaniu sieci.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
16
Neural Network -- Output
The NEURAL Procedure
Preliminary Starting Objective Number
Training Random Function of Terminating
Run Seed Value Iterations Criteria
1 12345 0.159785211425 10
2 463937847 0.15938506488 10
3 866987325 0.159691686745 10
4 998823970 0.159508764532 10
5 734635899 0.159969018919 10
Wykonano 5 przebiegów wstępnego treningu zmieniając zalążki punktu startowego generatora liczb pseudolosowych. Każdy przebieg miał maksymalnie 10 iteracji.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
17
Neural Network – osiąganie zbieżności algorytmu
• Początkowo nie osiągnięto punktu zbieżności (FCONV).
• Trening powtórzono, wybierając maksymalną liczbę iteracji 100.
• Po 37 iteracjach nastąpiła zbieżność.
LEVMAR needs more than 20 iterations or 2147483647 function calls.
WARNING: LEVMAR Optimization cannot be completed.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
18
Początkowe wagi
W oknie Output możemy odczytać początkowe wagi połączeń.
Zmienna porządkowa wyk została rozłożona na 3 poziomy: wyk1, wyk2, wyk3 (poziom wyk=4 jest poziomem referencyjnym).
H11, H12, H13 oznacza neurony warstwy ukrytej.
BIAS oznacza wyraz wolny w funkcji kombinacji.
Mamy 22 wagi.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
19
Końcowe wagi
W oknie Output możemy odczytać końcowe wagi połączeń.
Przykładowo:
dochg_H11 = 0.143104
dochg_H12 = 0.030881
dochg_H13 = -1.948289
oznaczają wagi połączeń DOCHG (z warstwy wejściowej) z neuronami warstwy ukrytej.
H11_komputer = 0.411843
H12_komputer = -0.246501
H13_komputer = -0.188495
oznaczają wagi połączeń neuronów warstwy ukrytej z neuronem warstwy wyjściowej (zmienna KOMPUTER).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
20
Porównanie rozkładów zmiennej w zbiorach
Po wybraniu z menu polecenia View | Assessment | Score Distribution widzimy porównanie rozkładu zmiennej objaśnianej w zbiorze treningowym i walidacyjnym.
Na osi poziomej mamy wartość prognozowaną, na osi pionowej średnią wartość zmiennej KOMPUTER.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
21
Przykład 2 -- zmiana parametrów sieci
Dodajmy do diagramu nowy węzeł Neural Network, w którym zmienimy parametry treningu, a następnie węzeł Model Comparison służący do porównania dwóch modeli sieci neuronowych.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
22
Przykład 2 -- zmiana parametrów
W modelu ustalimy, że: warstwa ukryta zawiera 6 neuronów; początkowe wagi są wybierane
z rozkładu jednostajnego;
wartości zmiennych wejściowych będą normalizowane (wartości są sprowadzane do przedziału [0; 1]); nie ma stałej w funkcji kombinacji
(Hidden Bias = No).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
23
Przykład 2 -- zmiana parametrów
Zmienimy ponadto: maksymalna liczba iteracji 100, metoda treningu - Quasi-Newton, nie ma etapu wstępnego treningu.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
24
Liczba iteracji dla metody Quasi-Newton
Zbieżność zostaje osiągnięta po 64 iteracjach.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
25
Porównanie dwóch modeli sieci neuronowej
Model Comparison -Result domyślnie podzielone jest na 4 okna.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
26
Statistics Comparison
Po wyborze View | Model | Statistics Comparison możemy porównać statystyki dopasowania dla modeli Neural i Neural 2.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
27
Przykład 3 – problem braków danych w zbiorze
W odróżnieniu od drzew decyzyjnych model sieci neuronowych nie może zawierać braków danych.
Jeżeli chcemy wykorzystać zmienne mające braki danych, należy przed uruchomieniem węzła Neural Network zastąpić brakujące dane przez imputowane wartości. Do tego celu służy węzeł Impute.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
28
Przykład 3 – problem braków danych
Zbudujemy model sieci neuronowych wykorzystując zbiór HMEQ. Niektóre zmienne w tym zbiorze zawierają braki danych.
Utwórzmy diagram Impute (w projekcie dmtrees), a nim węzły Input Data (HMEQ), Data Partition, Impute i Neural Network.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
29
Przykład 3 – wybrane zmienne
Podobnie jak w przypadku modelu drzew decyzyjnych przypiszmy zmiennej Default rolę Target. Zmieńmy odpowiednio skalę pomiaru pozostałych zmiennych, jeżeli potrzeba.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
30
Przykład 3 – podział próby
Podzielimy zbiór na część:
• treningową 67%,
• walidacyjną 33%.
Nie będziemy tworzyć zbioru testowego
Zostawimy domyślną metodę losowania
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
31
Węzeł Impute – wartości domyślne
• Dla zmiennych dyskretnych domyślną metodą uzupełniania braków danych jest Count -- wartość najczęściej występująca
• Dla zmiennych ciągłych domyślną metodą uzupełniania braków danych jest Mean -- wartość średnia.
• Osobno możemy ustawiać imputowane wartości dla zmiennej objaśnianej (domyślnie None).
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
32
Metody imputacji dla zmiennych dyskretnych
Count – dominanta;
Default constant value -- stała wartość ustawiona w polu Default Character Value albo Default Number Value;
Distribution -- wylosowana wartość zgodnie z rozkładem znanych wartości zmiennej;
Tree -- zbudowanie drzewa decyzyjnego objaśniającego zależność danej zmiennej od pozostałych i wstawienie prognozowanej wartości.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
33
Metody imputacji dla zmiennych ciągłych
Mean -- wartość średnia;
Median – mediana;
Mid-Range -- wartość środkowa: (max-min)/2;
Default constant value -- stała wartość ustawiona w polu Default Character Value albo Default Number Value;
Distribution -- wylosowana wartość zgodnie z rozkładem znanych wartości zmiennej;
Tree -- zbudowanie drzewa decyzyjnego objaśniającego zależność danej zmiennej od pozostałych i wstawienie prognozowanej wartości.
Możliwe jest zastosowanie M-estymatorów: Tukey’s Biweight, Huber, Andrew’s Wave.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
34
Indykatory brakujących danych
Można utworzyć indykatory brakujących danych. Są to nowe zmienne przyjmujące wartość 1, gdy w zmiennej występuje brak danych oraz 0 w przeciwnym wypadku (Indicator Variable = Unique, Indicator Variable Role = Input),
Przyjęcie Indicator Variable = Single spowoduje utworzenie pojedynczego indykatora dla całego zbioru,
Oryginalne zmienne można wtedy wyłączyć z analizy.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
35
Nowe zmienne utworzone w węźle Impute
Po uruchomieniu węzła Impute otrzymujemy tabelę (Imputation Summary) zawierającą nazwy nowych zmiennych oraz liczbę imputowanych wartości dla poszczególnych zmiennych w zbiorze treningowym.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
36
Nowe zmienne utworzone w węźle Impute
Po przejściu do węzła Neural Network widzimy nazwy nowych zmiennych.
Mają one prefiks:IMP_ - zmienne po imputacjiM_ - indykatory.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
37
Nowe zmienne utworzone w węźle Impute
Zaznaczając zmienną (tu: M_DEBTINC) i klikając na przycisk Explore można zobaczyć rozkład tej zmiennej.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
38
Objaśnianie sieci neuronowych przez drzewa decyzyjne
Modele sieci neuronowych są trudne do interpretacji. Po utworzeniu modelu sieci neuronowych można użyć drzew decyzyjnych do wygenerowania reguł prowadzących do klasyfikacji obiektów.
W tym celu należy:1. Zbudować model sieci neuronowych.2. Użyć węzła Metadata do zastąpienia dotychczasowej zmiennej
objaśnianej przez zmienną zawierającą wartości przewidywane przez sieć neuronową.
3. Zbudować drzewo decyzyjne, w którym ta nowa zmienna staje zmienną objaśnianą.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
39
Objaśnianie sieci neuronowych przez drzewa decyzyjne
Dodajemy do diagramu nowe węzły: Metadata (z grupy Ulility) i Decision Tree.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
40
Objaśnianie sieci neuronowych przez drzewa decyzyjne
W węźle Metadata wybieramy Train | Variables | Train i w oknie dialogowym Variables -- Meta zmieniamy rolę zmiennej Default na (New Role) Rejected, a rolę zmiennej I_Default na Target. Zmienna I_Default zawiera wartości przewidywane przez sieć.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
41
Objaśnianie sieci neuronowych przez drzewa decyzyjne
Po uruchomieniu węzła Metadata w oknie wynikowym Output widzimy, jakie parametry zmiennych zostały zmodyfikowane.
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych
42
Objaśnianie sieci neuronowych przez drzewa decyzyjne
W węźle Decision Tree wybieramy Update. Po uruchomieniu węzła z domyślnymi parametrami otrzymujemy drzewo decyzyjne, którego fragment jest pokazany:Reguły uzyskane za pomocą sieci neuronowej znajdują się na pogrubionej ścieżce.
top related