Data mining
Maciej Jędrzejczyk Paulina Konecka
Wydział Fizyki Technicznej i Matematyki StosowanejPolitechnika Gdańska
14 czerwca 2018
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 1 / 79
Spis treści
1 WstępDefinicjaSAS EnterpriseSEMMAOpis Danych
2 SampleWczytywanie danychPartycjonowanie
3 Explore
4 Modify
5 ModelDrzewa decyzyjneRegresjaSieci neuronowe
6 Assess
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 2 / 79
Czym jest Data Mining?
Data Mining (eksploracja danych) - jest to proces odkrywania wzorców wdużych zbiorach danych. Jeden z etapów procesu odkrywania wiedzy z bazdanych (ang. Knowledge Discovery in Databases, KDD).
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 3 / 79
Cel Data Mining’u
Ogólnym celem procesu eksploracji danych jest wydobycie informacji zzestawu danych i przekształcenie go w zrozumiałą strukturę. Termin jestmylący, ponieważ celem jest wydobywanie wzorców i wiedzy z dużych ilościdanych, a nie eksploracja (wydobywanie) samych danych.
Rzeczywiste zadanie eksploracji danych to półautomatyczna lubautomatyczna analiza dużych ilości danych w celu wyodrębnienia wcześniejnieznanych, interesujących wzorców, takich jak grupy rekordów danych(analiza skupień), nietypowe rekordy (wykrywanie anomalii) i zależności(wyszukiwanie reguł asocjacyjnych, sekwencyjne modelowanie).
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 4 / 79
Zastosowanie Data Mining’u
Wzorce te można następnie postrzegać jako rodzaj podsumowania danychwejściowych i można je wykorzystać w dalszej analizie, uczeniumaszynowym, analizie predykcyjnej itp.. Na przykład, etap eksploracjidanych może identyfikować wiele grup w danych, które można następniewykorzystać do uzyskania bardziej dokładnych wyników prognozowania zapomocą systemu wspomagania decyzji.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 5 / 79
Metody Data Mining’u
Data Mining nie narzuca nam konkretnej metody działania, możemyposłużyć się wieloma metodami statystycznymi takimi jak:
Drzewa decyzyjne,
Regresja,
Sieci neuronowe,
Metody ewolucyjne,
Metody uczenia maszynowego,
Zbiory przybliżone.
W prezentacji przybliżymy trzy pierwsze metody.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 6 / 79
SAS Enterprise Miner
SAS Enterprise Miner jest narzędziem umożliwiającym tworzenie modelipredykcyjnych i opisywania dużych zbiorów danych. Jest jednym zpopularniejszych programów używanych do Data Mining’u. Dodatkowomamy możliwość wygenerowania kodu w języku SAS 4GL.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 7 / 79
SEMMA
SEMMA(Sample, Explore, Modify, Model, Asses) opisuje calość DataMining’u z poziomu narzędzi analitycznych SAS. Jest ona rozumiana jakorozbicie tego procesu na pięc powiązanych ze sobą etapów:
Sample -przygotowanie i podział wejściowej próby danych,
Explore-exploracja danych, służąca ocenie ich jakokści oraz wstęonejidentyfikacji zależności pomiędzy zmiennymi,
Modify- modyfikacja danych, służąca poprawie ich jakości, spełnieniuzałożeń metod modelowania,
Model-modelowanie przy użyciu takich metod jak drzewa decyzyjne ,regresja czy sieci neuronowe,
Assess- ocena modeli i wybór najlepszego z nich.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 8 / 79
Dane
Analizie poddany zostanie zbiór HMEQ, zanjdujący się w biblioteceSAMPSIO. ZAwiera on 13 zmiennych. Poniżej przedstawiono opis tychzmiennych.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 9 / 79
Dane
Nazwa Typ Opis
BAD Binarna 1 gdy kredutobiorca nie spłacił kredytuCLADGE Przedziałowa czas najdłuższego kredytu w miesiącach
CLNO Przedziałowa ilość zobowiązań kredytowychDEBTINC Przedziałowa stosunek kredytu do dochodu
DELINQ Przedziałowa liczba zobowiązań z zalegającą zapłatąDEROG Przedziałowa liczba krytycznych raportów
JOB Nominalna rodzaj wykonywanego zawoduLOAN Przedziałowa kwota pozostała do spłaty
MORTDUE Przedziałowa wysokość hipotekiNINQ Przedziałowa ilość złożónych wniosków kredytowych
REASON Binarna powód wzięcia kredytuVALUE Przedziałowa wartośc obecna hipoteki
YOJ Przedziałowa staż w obecnej pracy w latach
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 10 / 79
SampleImport danych
Aby wczytać zródło danych przechodzimy doUtwórz źrodło danych 7−→ Tabela sasowa 7−→ Przeglądaj 7−→ Sampsio7−→ HMEQ.Następnie musimy zmienić rolę i poziom danych ,tak jak jest toprzedstawione poniżej.
Rysunek: Wczytywanie danychMaciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 11 / 79
SamplePartycjonowanie
Kolejnym etapem jest partycjonowanie. Węzeł ten jest węzłem podziałuzbioru danych na zbiory: treningowy, walidacyjny i testowy. Gdzie zbiór:
treningowy jest zbiorem danych, na podstawie których wykrywamymożliwe zależności między zmiennymi, jest używany do wstępnegooszacowania parametrów modelu, liczebność tej próby powinnawynosić od 40% do 70% próby wejściowej
walidacyjny jest używany do dostrojenia parametrów modelu, którezostały oszacowane w oparciu o zbiór treningowy,
testowy jest zbiorem, który służy do zbadania, na ile wykrytezaleności są prawdziwe dla innych zbiorów danych.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 12 / 79
SampleMetody partycjonowania
Simple Random dokonuje podziału zbioru danych na podzbiory:treningowy, walidacyjny i testowy w sposób losowy, oparty nalosowaniu, gdzie prawdopodobieństwo wejścia do każdego zpodzbiorów jest dla każdej obserwacji takie samo,
Stratified czyli losowanie warstwowe ,
Cluster czyli losowanie klastrowe ,
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 13 / 79
SamplePartycjonowanie
Jeżeli mamy wybraną zmienną celu(objaśnianą) to wybieramy domyślnąmetodę partycjonowania:
Rysunek: Parametry patrycjonowania
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 14 / 79
ExploreEksploracja danych
W tej części zajmiemy się badaniem danych, czyli zaprezentowaniemstatystyk opisowych. W tym celu posłużymy się wezłęm o nazwie”Exploracja statystyk”. Aby korelacje pomiędzy zmiennymi o różnychtypach były obliczne tą samą metodą, trzeba umożliwić oblicznie statystykiChi-kwadrat dla zmiennych przedziałowych:
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 15 / 79
ExploreStatystyki opisowe
Rysunek: Statystyki opisowe
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 16 / 79
ExploreStatystyka Chi-kwadrat
SAS wyświetla nam również statystykę Chi-kwadrat dzięki której możemyokreślić istotność zmiennych.
Rysunek: Statystyka Chi-kwadratMaciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 17 / 79
Informacje na temat zmiennych możemy także uzyskać poprzez :HMEQ 7−→ Edytuj zmienne 7−→ EksplorujW ten sposób np dla zmiennej CLAGE uzyskujemy następujący wykresrozkładu :
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 18 / 79
ExploreWykresy
Ważną rolę podczas eksploracji danych pełnią wykresy dzięki kórymmożemy ”zobaczyć” dane. Użyjemy do tego węzła Wykresy różne, węzełten generuje wykresy słupkowe zliczające ilość wystąpień wartości danejzmiennej.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 19 / 79
ExploreWykresy
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 20 / 79
ExploreWykresy
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 21 / 79
ExploreWykresy
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 22 / 79
ExploreKorelacja
Silne korelacje między niezależnymi zmiennymi mogą działać na niekorzyśćtworzonych modeli, macierz korelacji możemy wywołać za pomocą edytoraprogramów i poniższego kodu.
Rysunek: Korelacja
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 23 / 79
ExploreKorelacja
Rysunek: Korelacja
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 24 / 79
Modify
Gdy już posiadamy pewną wiedzę o danych, należy przygotować zbiór domodelowania. Zajmiemy się porzuceniem nieistotnych oraz silnieskorelowanych zmiennych. Na tym etapie obserwujemy pierwsze różnicemiędzy wybranymi przez nas modelami. Dzieje się tak, ponieważ drzewadecyzyjne radzą sobie z brakami danych, natomiast regresja logistyczna isieci neuronowe pomijają zmienne, w których występują braki danych.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 25 / 79
ModifyPorzucanie zmiennych
Podczas eksploracji statystyk otrzymaliśmy, że zmienna Reason jestnieistotna oraz można spróbować usunąć zmienną Mortdue, która jestsilnie skorelowana ze zmienną Value (korelacja wynosi około 0,88). Robimyto za pośrednictwem węzła ”Porzucanie” w następujący sposób:
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 26 / 79
Drzewa decyzyjne
W praktycznych zastosowaniach modeli predykcyjnych istotna jest łatwośćinterpretacji i wyjaśnienia generowanych wyników. Bardzo pomocne sąprzy tym drzewa decyzyjne, które generują zależności w postaci zbioruwarunków logicznych.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 27 / 79
Drzewa decyzyjneBudowa drzewa
Budowa drzewa rozpoczyna się od podziału korzenia. Szukamy takiegopodziału. który pozwoli znaleźć grupę charakteryzującą się wysokąjednorodnością ze względu na wartość zmiennej objaśnianej. Zatemdokonujemy podziału za pomocą wzoru:
Wzór
∆Z = Z0 +r∑
n=i
nin0
Zi
Z0-stopień niejednorodności dzielonego elementu,Zi - stopień niejeednorodności i-tego elementu powstającego w wynikupodziału,n0-liczebność dzielonego elementu,ni -liczebność i-tego elementu powstającego w wyniku podziału,r-liczba elementów powstających w wyniku podziału.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 28 / 79
Drzewa decyzyjneMiary niejednorodności
Współczynnik Giniego
Z = 1−k∑
n=i
p2i
Współczynnik Entropii
Z = H(p1, . . . , pk) = −k∑
n=i
p2i log2(pi )
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 29 / 79
Współczynnik Giniego - przykład
Weźmy przykładowy zbiór danych:
Id Wiek Typ sam Ryzyko0 23 family high1 17 sport high2 43 sport high3 68 family low4 32 truck low5 20 family high
Zmienna Ryzyko jest naszą zmienną celu, atrybutami względem, którychbędziemy dzielić zbiór wejściowy to Wiek i Typ sam.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 30 / 79
Współczynnik Giniego - przykład
Punkt podziału gsplit dany jest wzorem:
gsplit =m1 + n1m + n
Z1 +m2 + n2m + n
Z2,
gdzie:mi , ni - liczba elementów w Si należących do klas High i Low .Dla wieku mamy następujące punkty podziału:
Wiek¬ 17,
Wiek¬ 20,
Wiek¬ 23,
Wiek¬ 32,
Wiek¬ 43,
Wiek¬ 68,
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 31 / 79
Współczynnik Giniego - przykład
Rozważmy Wiek¬ 23, otrzymujemy tabelę:
High LowWiek¬ 23 3 0Wiek> 23 1 2
Wartości współczynników Ginniego oraz punkt podziału wynoszą:
Z1 = Z (Wiek ¬ 23) = 1− ((33)2 + 02) = 0
Z2 = Z (Wiek > 23) = 1− ((13)2 + (23)
2) = 49
gsplit = 0 + 36 ·49 = 2
9
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 32 / 79
Współczynnik Giniego - przykład
Analogicznie liczymy współczynniki Giniego i punkty podziału dlapozostałych przedziałów wieku. Wyniki prezentują się następująco:
Wiek¬ 17, gsplit = 0, 4,
Wiek¬ 20, gsplit = 0, 33,
Wiek¬ 32, gsplit = 0, 42,
Wiek¬ 43, gsplit = 0, 4,
Wiek¬ 68, gsplit = 0, 44.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 33 / 79
Współczynnik Giniego - przykład
Najmniejszą wartość gsplit = 0, 22 otrzymaliśmy dla podziału Wiek¬ 23więc dostajemy drzewo postaci:
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 34 / 79
Współczynnik Giniego - przykład
Zauważamy, że dla Wiek¬ 23 Ryzyko zawsze jest wysokie więc tej gałęzijuż nie rozwijamy. Przyjrzyjmy się przypadku, gdy Wiek>23, jeżeliTyp sam={sport} to ryzyko jest wysokie, a dla pozostałych ryzyko jestniskie. Co ostatecznie do drzewa postaci:
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 35 / 79
Entropia i zysk informacyjny
Do wyboru atrybutu testowego w wierzchołku drzewa decyzyjnegowykorzystujemy miare zysku informacyjnego. W tym celu wybieramyatrybut o najwiekszej wartosci zysku (lub o najwiekszej redukcji entropii).Niech S oznacza zbiór przykładów, oraz atrybut decyzyjny posiada mróżnych wartości(definującyh klasy Ci , i = 1, 2, . . . ,m).
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 36 / 79
Entropia i zysk informacyjny
EntropiaEntropię podziału zbioru S, ze względu na atrybut A definiujemy:
E (a1, a2, . . . , ak) =k∑
j=1
(s1j + s2j + . . .+ smj )
sH(s1j , s2j , . . . , smj ),
gdzie:
ai - wartości przyjmowane przez argument A,
H - współczynnik entropii.
Zysk inforacyjnyGain(A) = H(s1, s2, . . . , sm)− E (A)
A = {a1, a2, . . . , ak}
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 37 / 79
Entropia i zysk informacyjny - przykład
Rozważmy tabelę:
Niech atrybutem decyzyjnym będzie atrybut kupi komputer.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 38 / 79
Entropia i zysk informacyjny - przykład
Atrybut kupi komputer przyjmuje dwie wartości, stąd otrzymujemy dwieklasy:C1 - kupi komputer=”tak”, zawiera 9 elementów,C2 - kupi komputer=”nie”, zawiera 5 elementów.Obliczmy współczynnik entropi dla zmiennej kupi komputer:
H(9, 5) = − 914
log2(9
14)− 5
14log2(
514
) = 0, 94
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 39 / 79
Entropia i zysk informacyjny - przykład
Następnie obliczmy entropię dla zmiennych. Przyjżyjmy się zmiennejDochód, widzimy że przyjmuje 3 wartości więc musimy obliczyć trzynastępujące współczynniki entropi.
”wysoki”s11 = 2-ilość osób z wysokim dochodem, które kupią komputer,s21 = 2-ilość osób z wysokim dochodem, które nie kupią komputeraH(2, 2) = 1
”średni”s12 = 4, s22 = 2 H(4, 2) = 0, 918
”niski”s13 = 3, s23 = 1 H(3, 1) = 0, 811
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 40 / 79
Entropia i zysk informacyjny - przykład
Entropię dla dochodu wynosi:
E (”Dochód”) =4
14∗ 1 +
614∗ 0, 918 +
414∗ 0, 811 = 0, 911
Kolejno podstawiamy otrzymane wartości do wzoru na zysk informacyjny:
Gain(”Dochód”) = 0, 94− 0, 911 = 0, 029
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 41 / 79
Entropia i zysk informacyjny - przykład
Analogicznie liczymy zysk informacyjny dla pozostałych zmiennych:
Zysk informacyjnyGain(”Wiek”) = 0, 277
Gain(”student”) = 0, 151
Gain(”Status”) = 0, 048
Jako pierwszy wybieramy atrybut z największym zyskiem informacyjnym.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 42 / 79
Entropia i zysk informacyjny - przykład
Więc pierwszego podziału dokonamy dla zmiennej Wiek.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 43 / 79
Entropia i zysk informacyjny - przykład
Dalej postępując analogicznie obliczamy zysk informacyjny dla pozostałychzmiennych dla zmiennej Wiek przyjmującej wartość ¬ 30 oraz > 40.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 44 / 79
Drzewa decyzyjneUstawienia drzewa
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 45 / 79
Drzewa decyzyjneScore Ranking Overlay
Jest to porównanie wykresów wzrostu lift(korzysci, pozytywnychodpowiedzi) dla zbioru treningowego i walidacyjnego. Obie krzywe niepowinny dużo różnić się od siebie, jesli tak jest, świadczy to oprzetrenowaniu lub niedotrenowaniu modelu.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 46 / 79
Drzewa decyzyjneScore Ranking Overlay
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 47 / 79
Drzewa decyzyjneStatystyki liściowe
Kolejne kryterium to statystyki liściowe. Poniższy wykres porównuje w tymprzypadku udział procentowy wartości Unknown zmiennej objasnianej wewszystkich lisciach dla danych treningowych i walidacyjnych. Jeżeli są dużeróżnice w wysokościach słupków, to dany liść należy przyciąć.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 48 / 79
Frame Title
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 49 / 79
Drzewa decyzyjneFit Statistics
Kolejnym elementem , który omówimy sa statystyki dopasowania. Poniższatabela pokazuje porównanie statystyk dopasowania w zbiorze treningowymi walidacyjnym. Duże różnice w wartościach statystyk dopasowania mogąwskazywać na przetrenowanie lub niedotrenowanie modelu.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 50 / 79
Drzewa decyzyjneMapa drzewa
Wykres pokazuje strukturę drzewa. Powierzchnia prostokątów odpowiadaliczebności w danych węzłach drzewa. Kolory wskazują jednorodnośćpopulacji w węzłach (czerwone najbardziej jednorodne)
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 51 / 79
Drzewa decyzyjneMapa drzewa
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 52 / 79
Drzewa decyzyjneDrzewo
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 53 / 79
Drzewa decyzyjneInterpretacja
Na wykresie widzimy nazwę zmiennej oraz warunek według, którychdokonywany jest podział. Widzimy również procentowy rozkład danych wzbiorze uczącym i walidacyjnym informuje nas o tym także kolor węzła (imciemniejszy tym mniej różnorodne dane).
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 54 / 79
Regresja
Węzeł Regresja umożliwia dopasowanie do danych zarówno modeli regresjiliniowej, jak i logistycznej. Jako danych wejściowych można używaćzmiennych ciągłych i dyskretnych. Węzeł obsługuje metody wybieraniakrokowego, do przodu i do tyłu.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 55 / 79
RegresjaPrzygotowanie danych
Zanim przejdziemy do regresji musimy odpowiednio przygotować dane.Zatem na początek za pomocą węzła ”Imputacja” uzupełnimy brakidanych. Można to zrobic na kilka sposobów:
Wykorystująć miary tendencji centralnej, czyli średnią ,modę ,medianę,
Wylosowując wartości zgodnie z rozkładem zmiennej,
Wykorzystując drzewo decyzyjne,
W tym przykładzie do zastąpienia braków danych zastosowano medianę.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 56 / 79
RegresjaPrzygotowanie danych
Aby zastosować regresje logistyczną, ważne jest żeby rozkład zmiennychciągłych miał skośność bliską zeru. Jeśli w statystykach opisowych wartościskośności wyszły powyżej 5 trzeba zastosować węzęł ”Przekształceniezmiennych”
Dla węzła ”Przekształcenia zmiennych” wszelkie ustawienia pozastawiamydomyślne.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 57 / 79
Regresja
Często przy dużej ilości zmiennych klasyfikujących możemy mieć problem zich optymalnym doborem do modelu. Można je wyselekcjonowaćnastępującymi metodami:
Krokowa wprzód(Forward)-Najpierw dobieramy wyraz wolny,następnie dobieramy pojedynczo zmienne,
Krokowa wstecz(Backward)- Zaczynamy od doboru wszystichzmiennych i usuwamy kolejno najmniej istotne,
Krokowa- Metoda analogiczna do metody Forward, z różnicą, że pokażdym kroku bada się istotność zmiennych obecnych już w modelu.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 58 / 79
RegresjaUstawienia modelu
Dodatkowo z naszego modelu regresji wyrzucamy zmienne tekstowe. Wtym celu klikamy prawym przyciskiem na węzeł Regresja Edytuj zmiennedla zmiennych IMP JOB wybieramy w kolumnie użyj - Nie.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 59 / 79
RegresjaSkumulowany lift
Tak jak w przypadku drzew decyzyjnych tak i w tym przypadku obiekrzywe nie powinny znacząco różnić się od siebie.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 60 / 79
RegresjaWykres wyników
Wykres efektów pokazuje wartości współczynników regresji. Zaznaczone sąosobnymi kolorami współczynniki dodatnie i ujemne.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 61 / 79
RegresjaStatystyki dopasowania
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 62 / 79
RegresjaOstateczny wzór modelu
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 63 / 79
Sieci neuronoweDefinicja
Zbiór połączonych ze sobą jednostek wejściowo-wyjściowych. Z każdympołączeniem skojarzona jest waga, która może zostać zmieniona w trakcieuczenia.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 64 / 79
Sieci neuronowe
W założeniu są to obiekty, które swoim działaniem naśladują aktywnośćrzeczywistych układów nerwowych w mózgach organizmów żywych. Wskutek połączenia szeregu neuronów o stosunkowo prostej budowie iniewielkich możliwościach uzyskuje się strukturę zdolną doprzeprowadzania bardzo skomplikowanych procesów rozpoznawaniawzorców i klasyfkacji.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 65 / 79
Sieci neuronowe
Prosta sieć neuronowa składa się z warstwy wejściowej zawierającej nneuronów (odpowiadających zmiennym) oraz warstwy wyjściowejsumującej ważone impulsy i transformującą¡ je do skali oryginalnejzmiennej Y.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 66 / 79
Sieci neuronowe
Podstawowym rozszerzeniem tak opisanej architektury jest modelperceptronu wielowarstwowego (MLP - Multi Layer Perceptron), którydodatkowo zawiera warstwę ukrytą. Składa się ona z określonej ilościneuronów, które nieliniowo przekształcają kombinację liniową otrzymanychsygnałów. Pojedynczy neuron z warstwy ukrytej składa się z dwóchelementów: sumatora i funkcji aktywacji. Pierwszy z nich dokonujesumowania ważonych sygnałów z warstwy wejściowej oraz wyrazu wolnego,drugi tak otrzymaną sumę przekształca przy użyciu określonej funkcjiciągłej.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 67 / 79
Sieci neuronowe
Schemat sieci neuronowej z jedną warstwą ukrytą zawierającą n neuronów.Model opisany dla m zmiennych objaśniających
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 68 / 79
Sieci neuronoweUstawienia
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 69 / 79
Sieci neuronoweUstawienia
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 70 / 79
Sieci neuronoweWyniki
Tak jak w poprzednich modelach, również tu wyświetla nam się wykresskumulowanego liftu. Najlepiej jakby obie krzywe nie różniły się znaczącood siebie.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 71 / 79
Sieci neuronoweWyniki
Kolejnym wykresem jaki się ukazuje jest wykres błęduśrednokwadratowego. Pionowa kreska pokazuje nam w którym krokuiteracyjnym osiągnięto najlepszy model. W tym przupadku jest to 6 krok.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 72 / 79
Sieci neuronoweWyniki
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 73 / 79
Porównywanie modeliStatystyki dopasowania
Po wybudowaniu kilku modeli należy wybrać, który z nich jest najlepszy imoże być wukorystany dla danych. Dopasowanie modelu może byćocenione za pomocą stytystyk dopasowania, oto niektóre z nich
Skuteczność klasyfkacji - odsetek poprawnie zaklasyfikowanychprzypadków. Miara często używana do oceny modeli klasyfikacyjnychwtedy, gdy każdy z obserwowanych przypadków można traktować zrówną wagą.
Błąd średniokwadratowy - średnia wartość kwadratu różnicy pomiędzypredykcją a rzeczywistą wartością. W przypadku binarnych zagadnieńklasyfikacyjnych wartością przewidywaną jest prawdopodobieństwo, awartością rzeczywistą 0 lub 1.
Maksymalny błąd bezwzględny - wartość bezwzględna największejróżnicy pomiędzy wartością przewidywaną a rzeczywistą. Miaraoceniająca maksymalny spodziewany błąd predykcji.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 74 / 79
Porównywanie modeliStatystyki dopasowania
Statystyka Kołmogorowa-Smirnowa - określa, jak dobrze dwie klasyzmiennej objaśnianej są rozróżniane przez model. Jej wartośćobliczana jest jako:
maxt |F1(t)− F0(t)|
gdzie F1(t),F0(t) wartości dystrybuanty empirycznej predykcji dlagrup obserwacji, w których zmienna objaśniana przyjmujeodpowiednio wartoci 0 i 1. Im większa wartość tej statystyki, tymwiększe różnice w prawdopodobieństwach przydzielanych obu grupom,a więc tym większa moc dyskryminacyjna modelu.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 75 / 79
Porównywanie modeliStatystyki dopasowania
Wzrost (Lift) - miara dla określonego odsetka populacji będącejprzedmiotem zagadnienia klasyfikacyjnego. Obliczana jest poprzezpodzielenie odsetka zaobserwowanych zdarzeń w górnych n %populacji posortowanej malejąco według przewidywanychprawdopodobieństw przez procent tych samych zdarzeń w całejpopulacji.
Indeks ROC - miara określająca skuteczność modelu w rozpoznawaniuróżnic pomiędzy podpopulacjami o różnych wartościach zmiennejobjaśnianej. Powstaje poprzez obliczenie pola pod krzywą ROC, imbardziej wykres krzywej skierowany jest w stronę lewego górnegorogu, tym lepsze własności klasyfikacyjne badanego modelu.
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 76 / 79
Porównanie modeli
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 77 / 79
Porównanie modeliWykres ROC
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 78 / 79
Porównanie modeliLift
Maciej Jędrzejczyk, Paulina Konecka Data mining 14 czerwca 2018 79 / 79