zastosowanie metod eksploracji danych data mining w...

36
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych 1 Przykład – Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine Learning Databases w University of California w Irvine http://www.ics.uci.edu/~MLRepository.html www.spps.pl/larose Opis w książce: Daniel T. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych , Wydawnictwo Naukowe PWN, Warszawa 2006.

Upload: ngoanh

Post on 21-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

1

Przykład – Rezygnacja z usług operatora

Zbiór CHURN

Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy

Dane pochodzą z UCI Repository of Machine Learning Databases w University of California w Irvine

http://www.ics.uci.edu/~MLRepository.html

www.spps.pl/larose

Opis w książce: Daniel T. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006.

Page 2: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

2

Zbiór danych CHURN

Zbiór zawiera 21 zmiennych jakościowych lub ilościowychZmienneStan- kod stanu USA (jakościowa)Czas_W - czas posiadania konta (całkowita)Kod - kod obszaru kraju (jakościowa)Telefon - numer telefonu klienta, zastępuje ID klienta (jakościowa)Plan_M - czy klient przystąpił do planu międzynarodowego (0-1)Plan_G - czy klient przystąpił do planu poczty głosowej (0-1)M_min - liczba minut na połączenia międzynarodowe (rzeczywista)M_roz- liczba połączeń międzynarodowych (całkowita)M_opl- całkowita opłata za rozmowy międzynarodowe (rzeczywista)L_Rozbok - liczba połączeń z biurem obsługi klienta (całkowita)Churn - informacja o rezygnacji (0-1)

Page 3: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

3

CHURN – cd

Zmienne (cd) L_wiad - liczba wiadomości w poczcie głosowej (całkowita) DzienMin - liczba minut rozmowy w dzień (rzeczywista) DzienRoz - liczba połączeń w dzień (całkowita) DzienOpl - całkowita opłata za rozmowy w dzień (rzeczywista) WieczMin - liczba minut rozmowy wieczorem (rzeczywista) WieczRoz - liczba połączeń wieczorem (całkowita) WieczOpl - całkowita opłata za rozmowy wieczorem (rzeczywista) NocMin - liczba minut rozmowy w nocy (rzeczywista) NocRoz - liczba połączeń w nocy (całkowita) NocOpl - całkowita opłata za rozmowy w nocy (rzeczywista)

Page 4: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

4

Diagram projektu An_Clus

Diagram projektu o nazwie churn_norm zawiera węzły Input Data z grupy Sample oraz Cluster z grupy Explore. Nie definiujemy zbioru walidacyjnego ani testowego.

Page 5: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

5

Usunięcie zmiennych skorelowanych

Zbiór zawiera 21 zmiennych jakościowych lub ilościowych. Należy unikać wprowadzania do modeli zmiennych silnie

skorelowanych. Użycie zmiennych skorelowanych wyolbrzymia część danych, powoduje niestabilność modeli.

Zmienne: minuty, rozmowy i opłata są skorelowane. Ponadto opłata = minuty * rozmowy Dlatego z tych grup zmiennych wybraliśmy tylko po jednej zmiennej: DZIENMIN, WIECZMIN, NOCMIN, M_MIN.

Zmienne wybrane do analizy: CZAS_W, PLAN_M, POCZTA_G, L_WIAD, DZIENMIN, WIECZMIN,

NOCMIN, M_MIN, L_ROZBOK Zmienna TELEFON jest identyfikatorem obserwacji (Model Role ID)

Page 6: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

6

Okno Cluster - Variables

Zmienna CHURN nie będzie brać udziału w analizie. Nadamy jej status Use = No.

Page 7: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

7

Cluster – parametry węzła

Rodzaj standaryzacji: Range (normalizacja) zamiast Stardardization (standaryzacja)

Metoda ustalania liczby skupień jest domyślna.

• Najpierw losowane jest 50 zalążków skupień, a potem skupienia są konsolidowane za pomocą hierarchicznej metody Warda. Stosowana jest metoda CCC, a końcowa liczba skupień jest wybierana w przedziale [2; 20]

Page 8: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

8

Cluster – parametry węzła

Tutaj sami ustalimy liczbę segmentów = 3 (User Specify).

Utworzymy nową zmienną _SEGMNT_ - numer skupienia, do którego należy obiekt. Będzie ona miał rolę Segment.

Uruchamiamy węzeł (Run), a następnie oglądamy wyniki (Results).

Page 9: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

9

Cluster - Results

W wyniku otrzymujemy domyślnie 4 okna:

• Segment Plot,

Mean Statistics,

Segment Size,

Output.

Wybierając pozycje z menu View można otrzymać też inne wykresy lub tabele.

Page 10: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

10

Segment PlotOkno pokazuje rozkład każdej zmiennej o roli Input występującej w analizie skupień.

Page 11: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

11

Mean Statistics

Okno pokazuje różne statystyki w przekroju według skupień.

_SEGMENT_ - nazwa (numer) skupienia,

Frequency of Cluster – liczebność skupień,

Maximum Distance from Cluster Seed - promień skupienia,

Distance to Nearest Cluster - odległość do najbliższego skupienia.

Page 12: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

12

Mean Statistics

Okno pokazuje różne statystyki w przekroju według skupień.

Dla wszystkich zmiennych przedziałowych są wyświetlane wartości średnie, dla zmiennych binarnych są wyświetlane częstości dla poziomu 0 i 1. Widzimy np., że w pierwszym skupieniu zmienna PLAN_M ma zawsze wartość 0, w trzecim skupieniu ma zawsze wartość 1, a w drugim skupieniu 90,4% obserwacji ma wartość 0, a 9,6% obserwacji ma wartość 1.

Page 13: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

13

Segment Size

Okno pokazuje na wykresie kołowym liczebności i częstości skupień.

Trzy skupienia różnią się rozmiarem (liczbą obiektów:

1. 830 (24.9%)

2.2411 (72.3%)

3. 92 ( 2.8%)

Page 14: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

14

Segment Size

Po wyświetleniu wykresu kołowego można kliknąć prawym przyciskiem myszy na wykresie i wybrać Graph Properties, a następnie zaznaczyć pozycję Value i Percentage.

Można zaznaczyć pozycję, gdzie będą wyświetlane wartości (domyślnie Inside, zmienimy na Outside).

Page 15: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

15

Output

Okno pokazuje różne wyniki przebiegu procedury oraz statystyki, np. ważności zmiennych (Importance)

Page 16: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

16

Cluster Distance

Po wybraniu polecenia View | Cluster Distance | Table otrzymujemy tablicę odległości między skupieniami. Tablica jest symetryczna. Widzimy, że najbliższe są skupienia 1 i 3 Odległość 11.5), a najdalsze 2 i 3 (odległość 31.8).

Page 17: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

17

Variable Importance

Po wybraniu polecenia View | Cluster Profile | Variable Importance otrzymujemy tablicę ważności zmiennych.

Page 18: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

18

Tree

Po wybraniu polecenia View | Cluster Profile | Tree otrzymujemy drzewo, w którym zmienną objaśnianą jest numer skupienia. Widzimy, że o przyporządkowaniu obiektów do skupień decydują zmienne: POCZTA_G i PLAN_M.

Page 19: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

19

Input Mean Plot

Wykres Input Mean Plot (View | Summary Statistics | Input Mean Plot pokazuje porównanie znormalizowanych wartości zmiennych ogółem i w skupieniach. Można zobaczyć jakie są różnice w wartościach zmiennych w skupieniach.

Np. NOC_MIN

ma najmniejsze wartości w skupieniu 3, a największe w skupieniu 1.

Ogółem1

23

Page 20: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

20

Exported data

Po wyborze pozycji Exported Data w oknie właściwości widzimy, jakie pliki są utworzone i eksportowane przez węzeł Cluster.

Page 21: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

21

Exported dataPo zaznaczeniu pierwszego wiersza (TRAIN) i wybraniu Explore otwiera się okno (domyślnie dotyczy ono 2000 pierwszych obserwacji):

Page 22: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

22

Exported data

Żeby zobaczyć więcej obserwacji, należy wybrać opcję Fetch Size = Max

Wybierane są obserwacje początkowe (Top). Żeby uzyskać losowy wybór obserwacji, należy zmienić na Random.

Page 23: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

23

Exported data

Po kliknięciu na przycisk Plot (w lewym górnym rogu ekranu) możemy zdefiniować różne wykresy, np. tutaj wykres rozproszenia (Scatter) zmiennych L_wiad (X) i M_min (Y).

Page 24: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

24

Exported data

Wybierając dla zmiennej _SEGMENT_ rolę Color można zaznaczyć, w których skupieniach są obserwacje na wykresie rozproszenia. Liczba wiadomości ma zawsze wartość 0 w drugim skupieniu.

Page 25: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

25

Exported data

Po wciśnięciu Plot, wybraniu wykresu słupkowego (Bar) i zaznaczeniu dla zmiennej _SEGMENT_ roli Category oraz Response Statistics Frequency otrzymamy wykres słupkowy liczebności skupień.

Page 26: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

26

Exported data

Należy kliknąć prawym klawiszem myszy na wykresie i wybrać Graph Properties i następnie Show labels, aby zobaczyć liczebności skupień.

Page 27: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

27

Rezygnacja w segmentach

Po wybraniu Exported Data | Train | Explore (jak poprzednio) i wciśnięciu Plot, wybierzmy Lattice, a następnie Next, w oknie Lattice Type Pie | Next zaznaczmy dla zmiennej _SEGMENT_ roli Lattice-X a dla zmiennej CHURN roli Category.

Po wciśnięciu Finish otrzymamy wykresy kołowe.

Page 28: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

28

Rezygnacja w segmentach

Wykresy pokazują rozkład zmiennej CHURN w poszczególnych segmentach. Można zobaczyć liczebność wartości CHURN=0 lub CHURN=1.

Page 29: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

29

Exported data

Do zbioru danych zostały dodane dwie zmienne: Segment.ID, Distance.

W oknie danych EMWS.Clus_TRAIN można zobaczyć, jakie jest przyporządkowanie obserwacji do skupień.

Należy przeciągnąć kolumny Segment.Id i Distance na początek, żeby łatwiej oglądać wraz z identyfikatorem obserwacji.

Page 30: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

30

Segment Profile

Dołączymy do diagramu węzeł Segment Profile (z grupy Access).

Węzeł Segment Profile pozwala na porównanie rozkładu zmiennej w indywidualnym skupieniu z całkowitym rozkładem zmiennej. Zmienne są posortowane według ważności w grupowaniu zbioru danych.

Page 31: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

31

Segment Profile

W oknie Output widzimy ważność wybranych zmiennychw poszczególnych skupieniach

Page 32: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

32

Okno Profile: _SEGMENT_

Po kliknięciu prawym przyciskiem myszy na wykresie i wybraniu Sort segments | Name można uporządkować segmenty według nazw (domyślnie według liczebności).

Zakładka: Profiles

Page 33: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

33

Okno Variable Worth: _SEGMENT_

Wszyscy klienci z grupy 1 i część klientów z grupy 2 przystąpili do planu międzynarodowego, nikt z grupy 3 nie przystąpił. Wszyscy klienci z grupy 1 i 3 przystąpili do planu poczty głosowej, nikt z grupy 2 nie przystąpił.

Page 34: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

34

Opis profili

Grupa 1: Użytkownicy planu poczty głosowej Grupa klientów o średnim rozmiarze (830 osób), którzy przystąpili do planu

poczty głosowej, ale nie przystąpili do planu międzynarodowego

Grupa 2: Przeciętna większośćNajliczniejsza grupa klientów (2411 osób), z których część przystąpiła do planu poczty głosowej, ale nikt nie przystąpił do planu międzynarodowego

Grupa 3: Wyrafinowani użytkownicy Mała grupa klientów (92 osoby), którzy przystąpili do planu

międzynarodowego i poczty głosowej

Page 35: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

35

Cluster – parametry węzła

Dodajmy do diagramu nowy węzeł Cluster i ustalmy w nim automatyczny wybór liczby skupień za pomocą algorytmu CCC.

Należy, podobnie jak poprzednio, wyłączyć zmienną CHURN z analizy. Po uruchomieniu węzła można oglądać wyniki

Page 36: Zastosowanie metod eksploracji danych Data Mining w ...coin.wne.uw.edu.pl/dcelinska/resources/data_mining/dm_sas4b.pdf · Zastosowanie metod eksploracji danych Data Mining w badaniach

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych

36

CCC Plot

Okazuje się, że uzyskaliśmy identyczne wyniki jak poprzednio.

Dodatkowo dostępny jest wykres CCC Plot (View | Summary Statistics | CCC Plot). Wskazuje on, że liczba skupień 3 jest optymalna.