wszelkie prawa zastrze - księgarnia internetowa ...pdf.helion.pl/sqlsme/sqlsme.pdf · dodatek data...

32

Upload: vankhanh

Post on 01-Mar-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

Wszelkie prawa zastrzeżone. Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci jest zabronione. Wykonywanie kopii metodą kserograficzną, fotograficzną, a także kopiowanie książki na nośniku filmowym, magnetycznym lub innym powoduje naruszenie praw autorskich niniejszej publikacji.

Wszystkie znaki występujące w tekście są zastrzeżonymi znakami firmowymi bądź towarowymi ich właścicieli.

Autor oraz Wydawnictwo HELION dołożyli wszelkich starań, by zawarte w tej książce informacje były kompletne i rzetelne. Nie biorą jednak żadnej odpowiedzialności ani za ich wykorzystanie, ani za związane z tym ewentualne naruszenie praw patentowych lub autorskich. Autor oraz Wydawnictwo HELION nie ponoszą również żadnej odpowiedzialności za ewentualne szkody wynikłe z wykorzystania informacji zawartych w książce.

Redaktor prowadzący: Michał MrowiecKorekta merytoryczna: Radosław ŁebkowskiProjekt okładki: Jan Paluch

Fotografia na okładce została wykorzystana za zgodą Shutterstock.com

Wydawnictwo HELION ul. Kościuszki 1c, 44-100 GLIWICE tel. 32 231 22 19, 32 230 98 63 e-mail: [email protected] WWW: http://helion.pl (księgarnia internetowa, katalog książek)

Drogi Czytelniku! Jeżeli chcesz ocenić tę książkę, zajrzyj pod adres http://helion.pl/user/opinie?sqlsmeMożesz tam wpisać swoje uwagi, spostrzeżenia, recenzję.

Kody źródłowe wybranych przykładów dostępne są pod adresem:ftp://ftp.helion.pl/przyklady/sqlsme.zip

ISBN: 978-83-246-3440-8

Copyright © Helion 2012

Printed in Poland.

• Kup książkę• Poleć książkę • Oceń książkę

• Księgarnia internetowa• Lubię to! » Nasza społeczność

Spis tre�ci Wst�p .................................................................................................... 9

Proces eksploracji danych .............................................................................................. 10Instalacja i konfiguracja narz�dzi ................................................................................... 12

Serwer SQL .............................................................................................................. 12Arkusz kalkulacyjny Excel ....................................................................................... 15Dodatek Data Mining do pakietu Office .................................................................. 15Przyk�ady ................................................................................................................. 16

Konwencje i oznaczenia ................................................................................................. 20

Cz��� I Modelowanie ................................................................ 23

Rozdzia� 1. Eksploracja danych jako technika wspomagania decyzji ........................ 25Modelowanie �wiata ....................................................................................................... 25

Obiekty, zdarzenia i regu�y ...................................................................................... 26Dane ......................................................................................................................... 27Informacje ................................................................................................................ 27Wiedza ..................................................................................................................... 29Decyzje ..................................................................................................................... 31

Eksploracja danych ......................................................................................................... 32Hipotezy ................................................................................................................... 32K�opoty ze sformu�owaniem problemu .................................................................... 33

Rozdzia� 2. Analiza biznesowa ................................................................................. 35Cele modelowania i eksploracji danych ......................................................................... 35

Opisywanie danych czy wspieranie decyzji? ............................................................ 36Decydenci ................................................................................................................. 38

Zakres projektu eksploracji danych ................................................................................ 39Dane �ród�owe ......................................................................................................... 40Kontekst ................................................................................................................... 40

Sprecyzowanie spodziewanych wyników .................................................................... 42Modele deskrypcyjne ............................................................................................... 43Modele predykcyjne ................................................................................................. 43

Prawdopodobie�stwo sukcesu projektu eksploracji danych ........................................... 44Ocena ryzyka .................................................................................................................. 45

4 Microsoft SQL Server. Modelowanie i eksploracja danych

Rozdzia� 3. Ocena danych ....................................................................................... 49Dane �ród�owe ................................................................................................................ 49

B��dy pomiaru .......................................................................................................... 50Przypadki, czyli to, co badamy ....................................................................................... 51Profilowanie danych za pomoc� us�ugi SQL Server Integration Services ...................... 54Atrybuty i ich stany ........................................................................................................ 57

Atrybuty jednowarto�ciowe i wielowarto�ciowe ...................................................... 57Atrybuty monotoniczne ............................................................................................ 59Rozk�ad warto�ci ...................................................................................................... 59

Integralno�� danych ........................................................................................................ 62Duplikaty .................................................................................................................. 62Zakres warto�ci ........................................................................................................ 63Zgodno�� ze wzorcem .............................................................................................. 63

Próbkowanie i reprezentatywno�� danych ...................................................................... 64Próbkowanie danych ................................................................................................ 64Zbieno�� do rzeczywistego rozk�adu ...................................................................... 65Odchylenie standardowe .......................................................................................... 67Zmienno�� atrybutów tekstowych ............................................................................ 68

Brakuj�ce dane ............................................................................................................... 69Model brakuj�cych danych ....................................................................................... 70

Zaleno�ci pomi�dzy atrybutami .................................................................................... 73Niezalene atrybuty .................................................................................................. 74Nadmiarowe atrybuty ............................................................................................... 75Anachronizmy .......................................................................................................... 76

Mierzenie informacji ...................................................................................................... 76Bity ........................................................................................................................... 77Zaskoczenie .............................................................................................................. 77Kontekst ................................................................................................................... 78

Rozdzia� 4. Przygotowanie danych .......................................................................... 79Przestrze� stanów ........................................................................................................... 79Atrybuty dyskretne ......................................................................................................... 81

Grupowanie .............................................................................................................. 81Numerowanie stanów ............................................................................................... 84Atrybuty porz�dkowe ............................................................................................... 85Atrybuty okresowe ................................................................................................... 86

Atrybuty ci�g�e ............................................................................................................... 86Warto�ci skrajne ....................................................................................................... 87Normalizacja zakresu ............................................................................................... 87Dyskretyzacja ........................................................................................................... 90

Serie danych ................................................................................................................... 92Trend ........................................................................................................................ 96Okresowo�� i sezonowo�� ........................................................................................ 96Szum ......................................................................................................................... 97

Rozdzia� 5. Poprawa jako�ci danych ....................................................................... 99Uzupe�nienie warto�ci .................................................................................................... 99Wzbogacenie danych .................................................................................................... 103Redukcja wymiarów ..................................................................................................... 105

Korelacje ................................................................................................................ 106

Spis tre�ci 5

Dane dla modeli deskrypcyjnych .................................................................................. 108Dane dla modeli predykcyjnych ................................................................................... 109

Zmiana proporcji .................................................................................................... 109Dane na potrzeby analizy wariantowej ......................................................................... 111

Analiza wariantowa ................................................................................................ 111Wydzielenie danych testowych .................................................................................... 113

Cz��� II Eksploracja ................................................................ 117

Rozdzia� 6. Techniki eksploracji danych ............................................................ 119Zastosowania ................................................................................................................ 119Dodatek Data Mining do pakietu Office ....................................................................... 121

Ocena i przygotowanie danych �ród�owych ........................................................... 121Techniki eksploracji danych ......................................................................................... 126

Klasyfikacja ............................................................................................................ 126Szacowanie ............................................................................................................. 136Asocjacja ................................................................................................................ 141Grupowanie ............................................................................................................ 145Analiza sekwencyjna .............................................................................................. 151Analiza wariantowa ................................................................................................ 152Prognozowanie ....................................................................................................... 156

Rozdzia� 7. Serwer SQL jako platforma eksploracji danych ................................ 161Excel jako klient SQL Server Analysis Services .......................................................... 162

Narz�dzia eksploracji zewn�trznych danych .......................................................... 162Praca z modelami eksploracji danych .................................................................... 184Formu�y arkusza Excel ........................................................................................... 191

Projekty eksploracji danych .......................................................................................... 192Business Intelligence Development Studio ............................................................ 192ród�a danych ......................................................................................................... 195Widoki danych �ród�owych .................................................................................... 196Struktury eksploracji danych .................................................................................. 199Modele eksploracji danych ..................................................................................... 206Zapytania predykcyjne ........................................................................................... 210Zagniedanie przypadków .................................................................................... 213

Zarz�dzanie serwerem SSAS i modelami eksploracji danych poprzez SQLServer Management Studio .......................................................................................... 216

Us�ugi eksploracji danych serwera SQL ....................................................................... 218Architektura ............................................................................................................ 219Bezpiecze�stwo ...................................................................................................... 221Integracja z pozosta�ymi us�ugami Business Intelligence ....................................... 223

Rozdzia� 8. DMX ................................................................................................... 227Terminologia ................................................................................................................ 227

Atrybut ................................................................................................................... 227Warto�� i stan ......................................................................................................... 229Przypadek ............................................................................................................... 229Klucze .................................................................................................................... 230Struktury eksploracji danych .................................................................................. 231Modele eksploracji danych ..................................................................................... 232

6 Microsoft SQL Server. Modelowanie i eksploracja danych

Sk�adnia j�zyka DMX .................................................................................................. 232Tworzenie struktur eksploracji danych ................................................................... 233Tworzenie modeli eksploracji danych .................................................................... 235Przetwarzanie struktur i modeli eksploracji danych ............................................... 239Odczytywanie zawarto�ci struktur i modeli eksploracji danych ............................. 243Zapytania predykcyjne ........................................................................................... 245Funkcje predykcyjne .............................................................................................. 251

Rozdzia� 9. Naiwny klasyfikator Bayesa firmy Microsoft ........................................ 253Omówienie ................................................................................................................... 253

Ograniczenia .......................................................................................................... 255Parametry ............................................................................................................... 256

Zastosowania naiwnego klasyfikatora Bayesa ........................................................... 258Badanie zaleno�ci pomi�dzy atrybutami .............................................................. 258Klasyfikacja dokumentów ...................................................................................... 260

Rozdzia� 10. Drzewa decyzyjne firmy Microsofti algorytm regresji liniowej firmy Microsoft .......................................... 267Omówienie ................................................................................................................... 268

Ograniczenia .......................................................................................................... 272Parametry ............................................................................................................... 273

Zastosowania drzew decyzyjnych ................................................................................ 275Klasyfikacja klientów ............................................................................................. 275Szacowanie potencjalnych zysków ........................................................................ 277Asocjacja klientów i wypoyczanych przez nich filmów ........................................... 279

Rozdzia� 11. Szeregi czasowe firmy Microsoft ......................................................... 281Omówienie ................................................................................................................... 281

Ograniczenia .......................................................................................................... 285Parametry ............................................................................................................... 286

Zastosowania szeregów czasowych firmy Microsoft .................................................... 288Prognozowanie sprzeday ...................................................................................... 289Prognozowanie sprzeday na podstawie przeplatanych serii danych ..................... 291Prognozowanie sprzeday na podstawie danych odczytanych

z kostki wielowymiarowej ................................................................................... 292Prognozowanie sprzeday na podstawie krótkich serii danych .............................. 293Analiza wariantowa ................................................................................................ 295

Rozdzia� 12. Algorytm klastrowania firmy Microsoft ................................................ 297Omówienie ................................................................................................................... 297

Ograniczenia .......................................................................................................... 302Parametry ............................................................................................................... 303

Zastosowania algorytmu klastrowania .......................................................................... 305Analiza skupie� komórek ....................................................................................... 305Klasyfikacja komórek ............................................................................................. 309Przygotowanie danych do dalszej eksploracji ........................................................ 312Wykrywanie anomalii ............................................................................................ 314

Spis tre�ci 7

Rozdzia� 13. Algorytm klastrowania sekwencyjnego firmy Microsoft ....................... 319Omówienie ................................................................................................................... 320

Ograniczenia .......................................................................................................... 323Parametry ............................................................................................................... 323

Zastosowania algorytmu klastrowania sekwencyjnego ................................................ 324Analiza sekwencji odwiedzanych stron WWW ...................................................... 324Klasyfikacja klientów na podstawie kolejno�ci kupowanych przez nich

towarów ............................................................................................................... 327Przewidywanie kolejnych zdarze� ......................................................................... 329Wykrywanie nietypowych sekwencji zdarze� ........................................................ 332

Rozdzia� 14. Algorytm odkrywania regu� asocjacyjnych firmy Microsoft ................... 335Omówienie ................................................................................................................... 336

Ograniczenia .......................................................................................................... 340Parametry ............................................................................................................... 341

Zastosowania regu� asocjacyjnych ................................................................................ 341Badanie zaleno�ci pomi�dzy warto�ciami atrybutów ........................................... 342Analiza koszykowa ................................................................................................ 343Analiza typu cross-selling ...................................................................................... 347

Rozdzia� 15. Sieci neuronowe firmy Microsofti algorytm regresji logistycznej firmy Microsoft .................................... 351Omówienie ................................................................................................................... 352

Ograniczenia .......................................................................................................... 358Parametry ............................................................................................................... 360

Zastosowania sieci neuronowych i regresji logistycznej .............................................. 361Szacowanie potencjalnych zysków ........................................................................ 362Klasyfikacja dokumentów ...................................................................................... 366

Rozdzia� 16. Ocena i poprawa modeli ...................................................................... 369Powrót do �redniej ........................................................................................................ 369Kryteria porównawcze .................................................................................................. 371

�atwo�� interpretacji .............................................................................................. 373Dok�adno�� predykcji ............................................................................................. 374Wiarygodno�� predykcji ......................................................................................... 374Wydajno�� i skalowalno�� ..................................................................................... 375Przydatno�� ............................................................................................................ 375

Metody oceniania modeli eksploracji danych ............................................................... 376Wykresy podniesienia i zysku ................................................................................ 376Macierz klasyfikacji ............................................................................................... 384Ocena dok�adno�ci modeli algorytmu szeregów czasowych firmy Microsoft ........ 386Walidacja krzyowa ............................................................................................... 387Odchylenie wewn�trz- i mi�dzyklastrowe .............................................................. 390

Problemy ...................................................................................................................... 391Niew�a�ciwie postawione zadania .......................................................................... 391Niew�a�ciwe dane �ród�owe ................................................................................... 392Nieprzygotowane dane �ród�owe ........................................................................... 393Niew�a�ciwe lub �le sparametryzowane algorytmy eksploracji danych ................. 394

8 Microsoft SQL Server. Modelowanie i eksploracja danych

Rozdzia� 17. Programowanie predykcyjne ............................................................ 397Narz�dzia programistyczne .......................................................................................... 397Wizualizatory modeli eksploracji danych ................................................................. 398Raporty us�ugi SSRS .................................................................................................... 399Inteligentne aplikacje .................................................................................................... 401

Kontrola poprawno�ci danych ................................................................................ 401Uzupe�nianie brakuj�cych danych .......................................................................... 404Adaptacyjny interfejs ............................................................................................. 406

Skorowidz .......................................................................................... 413

Rozdzia� 9.

Naiwny klasyfikatorBayesa firmy Microsoft

� Dlaczego klasyfikator Bayesa nazywany jest naiwnym?

� Jakie s� wady i zalety naiwnego klasyfikatora Bayesa firmy Microsoft?

� Jak tworzy� modele eksploracji danych uywaj�ce naiwnego klasyfikatoraBayesa firmy Microsoft?

� Jak parametryzowa� naiwny klasyfikator Bayesa firmy Microsoft?

� Jak za pomoc� naiwnego klasyfikatora Bayesa firmy Microsoft bada�zaleno�ci pomi�dzy atrybutami?

� Jak zbudowa� klasyfikuj�cy dokumenty filtr antyspamowy przy uyciunaiwnego klasyfikatora Bayesa firmy Microsoft?

Nazwy wszystkich przedstawionych algorytmów eksploracji danych zawieraj� okre-�lenie firmy Microsoft nie dlatego, �e algorytmy te zosta�y wymy�lone przez Micro-soft, ale dlatego, �e to ta firma stworzy�a zastosowane w serwerze SQL implemen-tacje tych algorytmów.

OmówienieOpracowany przez brytyjskiego matematyka i prezbiteria�skiego duchownego Tho-masa Bayesa klasyfikator naley do klasycznych algorytmów uczenia przez obserwacj�1.Wyobra�my sobie, e sp�dzamy wolny czas, obserwuj�c klientów w�a�nie otwartegobutiku. Interesuje nas, kto (kobieta czy m�czyzna) za chwil� wejdzie do tego sklepu.

1 B�d�ce podstaw� opisywanego klasyfikatora twierdzenie Bayesa zosta�o opublikowane w wydanym

w 1763 roku eseju Essay Towards Solving a Problem in the Doctrine of Chances. Dokument ten jestdost�pny pod adresem http://www.stat.ucla.edu/history/essay.pdf.

254 Cz��� II � Eksploracja

Poniewa w naszym miasteczku mieszka wi�cej kobiet ni m�czyzn (60% mieszka�-ców to kobiety, a 40% — m�czy�ni), pocz�tkowo prawdopodobie�stwo, e klientem b�-dzie kobieta, wynosi 60%. Jednak po pewnym czasie zebrali�my wi�cej informacjio rozk�adzie dnia klientów i zauwayli�my m.in., e przed po�udniem butik odwiedzaj�g�ównie (w 80%) kobiety, a po godzinie 15.00 75% klientów to m�czy�ni. Jeeli od te-raz us�yszymy, e kto� wchodzi do tego sklepu o 11.15, wiemy, e prawdopodobniejest to kobieta (60%*80% = 48%), a nie m�czyzna (40%*20% = 8%). Natomiastgdyby�my us�yszeli osob� wchodz�c� do butiku o 15.30, mieliby�my podstawy przy-puszcza�, e jest to m�czyzna (40%*75% = 30%), a nie kobieta (60%*25% = 15%).Ten uproszczony przyk�ad pokazuje istot� naiwnego klasyfikatora Bayesa.

Naiwny klasyfikator Bayesa zlicza zaleno�ci wyst�puj�ce pomi�dzy atrybutami wyj-�ciowymi a poszczególnymi atrybutami wej�ciowymi, uwzgl�dniaj�c warunkowe i bez-warunkowe prawdopodobie�stwo ich wyst�pienia:

1. Prawdopodobie�stwo bezwarunkowe (pocz�tkowe) zaley od rozk�aduprzypadków — w powyszym przyk�adzie reprezentowane jest ono przez fakt,e 60% mieszka�ców miasteczka to kobiety.

2. Warunkowe prawdopodobie�stwo zaley od zaobserwowanych zdarze� —w powyszym przyk�adzie zaobserwowali�my, e 75% klientów odwiedzaj�cychbutik po po�udniu to m�czy�ni.

Obliczone na podstawie twierdzenia Bayesa ( )2 prawdopodobie�stwas� nast�pnie mnoone, a wi�c kade z nich ma taki sam wp�yw na ostateczny wynik.To za�oenie jest prawdziwe, o ile poszczególne atrybuty wej�ciowe s� od siebie nie-zalene3. W przeciwnym razie wp�yw atrybutu skorelowanego z innym atrybutem jestwi�kszy, ni by� powinien. Poniewa w praktyce atrybuty bardzo cz�sto s� ze sob�powi�zane (np. wykszta�cenie wp�ywa na dochód, wci� te wyst�puje statystycznazaleno�� pomi�dzy p�ci� a zawodem), ignoruj�cy je klasyfikator Bayesa nazywa si�naiwnym.

Naiwno�� klasyfikatora Bayesa wynika równie z tego, e gdy pewna zaleno�� niewyst�pi�a w przypadkach treningowych (np. dotychczas w sobot� butik odwiedza�ywy��cznie kobiety), obliczone przez niego prawdopodobie�stwo, e klientem butikuw sobot� b�dzie m�czyzna, wyniesie 0%. Problem ten moemy rozwi�za�, dodaj�c 1 dowszystkich przyporz�dkowa� stanów atrybutów do klas wyj�ciowych, czyli stosuj�cestymacj� Laplace’a.

Obliczanie wyniku poprzez mnoenie prawdopodobie�stw ma jeszcze jedn� wad�. Je-eli te prawdopodobie�stwa s� bardzo ma�e, co ma miejsce, gdy lista atrybutów jest d�ugai gdy atrybuty przyjmuj� wiele stanów, b��dy ich zaokr�glania zaczynaj� wp�ywa� nawyniki.

2 P(A) oznacza prawdopodobie�stwo a priori wyst�pienia klasy A, tj. prawdopodobie�stwo, e przypadek

naley do klasy A; P(B|A) oznacza prawdopodobie�stwo a posteriori, e przypadek A naley do klasy B,natomiast P(B) — prawdopodobie�stwo a priori wyst�pienia przypadku B.

3 Nieprzyj�cia za�oenia o niezaleno�ci zmiennych wej�ciowych wymaga�oby obliczenie kp

prawdopodobie�stw, gdzie p jest liczb� zmiennych, a p — liczb� ich stanów. Na przyk�ad dla 30zmiennych binarnych trzeba by wykona� 230 (1 073 741 824) operacji.

Rozdzia� 9. � Naiwny klasyfikator Bayesa firmy Microsoft 255

OgraniczeniaPierwsze ograniczenie wynika ze sposobu dzia�ania naiwnego klasyfikator Bayesa —policzenie prawdopodobie�stwa wyst�pienia danego stanu jest moliwe tylko dla atrybu-tów dyskretnych, a wi�c atrybuty ci�g�e s� ignorowane przez naiwny klasyfikatorBayesa firmy Microsoft.

Drugie ograniczenie jest mniej oczywiste — naiwny klasyfikator Bayesa naley doklasyfikatorów liniowych i nie nadaje si� do rozwi�zywania problemów nieliniowych,czyli takich, w których stan atrybutu wyj�ciowego zaley od kombinacji stanów atry-butów wej�ciowych. Problemem nieliniowym jest np. kwestia okre�lenia koloru pólna szachownicy.

Po�owa pól na szachownicy jest bia�a, druga po�owa — czarna. Czy znaj�c kolumn�i wiersz, jeste�my w stanie okre�li� kolor pola znajduj�cego si� na ich przeci�ciu?Spróbujmy uy� naiwnego klasyfikatora Bayesa firmy Microsoft do znalezienia od-powiedzi na to pytanie.

1. Otwórz przyk�adowy skoroszyt Excela i przejd� do arkusza Chessboard.

2. Zaznacz znajduj�c� si� w nim tabel�. Jej pierwsza kolumna zawiera literykolumn, druga — numery wierszy, a trzecia kolory pól szachownicy.

3. Kliknij znajduj�cy si� w sekcji Data Modeling przycisk Classify.

4. Jako parametr wyj�ciowy i wej�ciowy wybierz Color, a jako uyty do klasyfikacjialgorytm wybierz Microsoft Naive Bayes.

5. Przeznacz wszystkie dane do treningu i zako�cz dzia�anie kreatora, tworz�ctymczasowy model eksploracji danych.

Okae si�, e algorytm nie znalaz� adnych zaleno�ci pomi�dzy kolumn� i wierszempola na szachownicy a kolorem pola znajduj�cego si� na ich przeci�ciu — wszystkiezak�adki wizualizatora b�d� puste, z wyj�tkiem zak�adki Dependency Network, w którejznajdziemy wy��cznie wyj�ciowy atrybut Color.

Zastanówmy si�, od czego zaley kolor pól szachownicy. Czy zaley on od wierszy?Nie, w kadym wierszu 50% pól jest czarnych, a 50% bia�ych. Nie zaley on równieod kolumn, lecz od kombinacji wierszy i kolumn. Poniewa naiwny klasyfikator Bayesajest klasyfikatorem liniowym, nie znalaz� powyszych zaleno�ci nieliniowych.

Tak postawiony problem nie zosta�by rozwi�zany równie przez drzewa decyzyjne,czyli klasyfikator nieliniowy — w kadym wierszu i w kadej kolumnie bia�ych póljest dok�adnie tyle samo co czarnych. Rónic� pomi�dzy klasyfikatorami liniowymii nieliniowymi pokazuje kolejny przyk�ad. Tym razem kszta�t figury równie nie za-ley od jego poszczególnych wspó�rz�dnych, ale od ich kombinacji (rysunek 9.1).

1. Przejd� do arkusza Linear.

2. Przeprowad� klasyfikacj� znajduj�cych si� w nim danych, wybieraj�c na atrybutywej�ciowe kolumny RangeX, RangeY i Shape, a na atrybut wyj�ciowy kolumn� Shape.

3. Jako uyty do klasyfikacji algorytm wybierz Microsoft Naive Bayes.

256 Cz��� II � Eksploracja

Rysunek 9.1.W pierwszej i trzeciej�wiartce znajduj� si�wy��cznie krzy�yki,w drugiej i czwartej— same kwadraty

4. Przeznacz wszystkie dane do treningu i zako�cz dzia�anie kreatora, tworz�ctymczasowy model eksploracji danych.

Tym razem algorytm równie nie znajdzie adnych zaleno�ci pomi�dzy wspó�rz�dnymia kszta�tem figur.

Pomimo tych ogranicze� naiwny klasyfikator Bayesa firmy Microsoft dobrze radzi sobiez wykrywaniem zaleno�ci pomi�dzy poszczególnymi atrybutami, a jego prostota(i zwi�zane z ni� szybko�� oraz ma�e zapotrzebowanie na pami�� i moc obliczeniow�),jak równie �atwo�� interpretacji wyników czyni� z niego przydatny i cz�sto uywanyalgorytm eksploracji danych.

ParametryNaiwny klasyfikator Bayesa firmy Microsoft przyjmuje nast�puj�ce parametry:

1. MAXIMUM_INPUT_ATTRIBUTES — parametr dost�pny tylko w edycji Enterprise;okre�la maksymaln� liczb� atrybutów wej�ciowych (obja�niaj�cych). Po jejprzekroczeniu (domy�lna warto�� wynosi 255) analizowanych b�dzie tylko255 atrybutów wej�ciowych najsilniej powi�zanych z atrybutami wyj�ciowymi(obja�nianymi). Zmiana tego parametru na 0 spowoduje uwzgl�dnieniewszystkich atrybutów wej�ciowych4.

4 Maksymalna liczba atrybutów wynosi 65 535 i jest tak dua, e w praktyce nie spotkamy si�

z wynikaj�cymi z niej ograniczeniami. Z pierwszej cz��ci ksi�ki wiadomo, e dane wej�ciowepowinny zawiera� jak najwi�cej informacji (a dok�adnie, e entropia atrybutów wej�ciowych wzgl�demwyj�ciowych powinna by� jak najwi�ksza), tymczasem utworzenie kilkudziesi�ciu tysi�cy atrybutówraczej zmniejszy�oby (a nie zwi�kszy�o) ilo�� tych informacji. Ponadto dane w�a�ciwie reprezentuj�cewszystkie moliwe zaleno�ci pomi�dzy tyloma atrybutami by�yby liczone w milionach terabajtów.

Rozdzia� 9. � Naiwny klasyfikator Bayesa firmy Microsoft 257

2. MAXIMUM_OUTPUT_ATTRIBUTES — parametr dost�pny tylko w edycji Enterprise;okre�la maksymaln� liczb� atrybutów wyj�ciowych. Po jej przekroczeniu(domy�lna warto�� wynosi 255) zostanie uwzgl�dnionych tylko 255 najcz��ciejwyst�puj�cych atrybutów wyj�ciowych. Zmiana tego parametru na 0 spowodujeuwzgl�dnienie wszystkich atrybutów wyj�ciowych.

3. MAXIMUM_STATES — parametr dost�pny tylko w edycji Enterprise; okre�lamaksymaln� liczb� uwzgl�dnianych stanów atrybutów. Po jej przekroczeniu(domy�lna warto�� wynosi 100) analizowanych b�dzie tylko 100 najcz��ciejwyst�puj�cych stanów atrybutów, a pozosta�e zostan� potraktowane jakwarto�ci brakuj�ce. Zmiana tego parametru na 0 spowoduje uwzgl�dnieniewszystkich stanów atrybutów.

4. MINIMUM_DEPENDENCY_PROBABILITY — okre�la (w skali od 0 do 1) minimalneprawdopodobie�stwo znalezienia zaleno�ci pomi�dzy atrybutami wej�ciowymia wyj�ciowymi. Zmiana tego parametru nie ma adnego wp�ywu na treningalgorytmu, a jedynie na liczb� zwracanych (znalezionych) zaleno�ci. Domy�lnawarto�� wynosi 0,5 — jest to warto��, przy której wizualizatory tego algorytmuzwracaj� informacje tylko o zaleno�ciach, których prawdopodobie�stwowyst�pienia jest wi�ksze od prawdopodobie�stwa ich braku.

�eby przekona� si�, jak zmiana parametru MINIMUM_DEPENDENCY_PROBABILITY wp�yniena zdolno�� naiwnego klasyfikatora Bayesa firmy Microsoft do rozwi�zywania pro-blemów nieliniowych, raz jeszcze przeprowad� klasyfikacj� kolorów pól na szachow-nicy, tym razem ustawiaj�c warto�� tego parametru na 0,01 (rysunek 9.2).

Rysunek 9.2.Naiwny klasyfikatorBayesa firmyMicrosoft to prostyalgorytm eksploracjidanych; jegodzia�aniem mo�emysterowa� w bardzoograniczonym zakresie

Zgodnie z oczekiwaniami obnienie warto�ci tego parametru nie wp�yn��o na otrzy-mane wyniki — algorytm nadal nie jest w stanie znale�� adnych zaleno�ci pomi�dzykolumn� i wierszem pola na szachownicy a jego kolorem.

258 Cz��� II � Eksploracja

Zastosowania naiwnegoklasyfikatora Bayesa

„Naiwno��” klasyfikatora Bayesa ogranicza jego stosowanie w modelach klasyfikacyj-nych, ale w aden sposób nie zmniejsza jego warto�ci dla modeli opisowych. W szczegól-no�ci jego szybko�� i ma�e wymagania dotycz�ce pami�ci czyni� z niego doskona�enarz�dzie do oceny danych wej�ciowych.

Drugi z opisanych poniej przyk�adów demonstruje predykcyjne moliwo�ci naiwne-go klasyfikatora Bayesa — jeeli tylko atrybuty wej�ciowe rzeczywi�cie s� od siebieniezalene lub ewentualne zaleno�ci mi�dzy nimi s� nieistotne w ramach przyj�tegomodelu (jak ma to miejsce np. podczas oceniania wiadomo�ci e-mail na podstawie po-szczególnych s�ów, czy jest ona spamem), algorytm ten okazuje si� szybkim i dok�ad-nym klasyfikatorem.

W serwerze SQL klasyfikator Bayesa firmy Microsoft stosowany jest do klasyfikacjii — z pewnymi ograniczeniami — asocjacji.

Badanie zale�no�ci pomi�dzy atrybutami

Naiwny klasyfikator Bayesa firmy Microsoft doskonale nadaje si� (o czym powiedzianow rozdziale 3.) do analizowania zaleno�ci pomi�dzy atrybutami. W tym punkcieutworzymy model analizuj�cy zaleno�ci pomi�dzy atrybutami klientów firmy Adven-ture Works:

1. Uruchom konsol� SSMS i po��cz si� z serwerem SSAS.

2. Zaznacz baz� analityczn� DataMining i wy�wietl okno edytora DMX.

3. Utwórz w tej bazie poniszy model eksploracji danych (tworz�c model za pomoc�instrukcji CREATE MINING MODEL, automatycznie utworzymy struktur� o nazwietworzonego modelu, uzupe�nion� o sufiks _Structure):

CREATE MINING MODEL CustomersAnalysis ( [ID] LONG KEY, [Age] LONG DISCRETIZED(CLUSTERS,5), [MaritalStatus] TEXT DISCRETE PREDICT, [Gender] TEXT DISCRETE PREDICT, [TotalChildren] LONG DISCRETE PREDICT, [NumberChildrenAtHome] LONG DISCRETE PREDICT, [Education] TEXT DISCRETE PREDICT, [Occupation] TEXT DISCRETE PREDICT, [YearlyIncome] LONG DISCRETIZED(CLUSTERS,8), [HouseOwnerFlag] TEXT DISCRETE PREDICT, [NumberCarsOwned] LONG DISCRETE PREDICT, [TotalAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, [TotalQuantity] LONG DISCRETE PREDICT, [BikesQuantity] LONG DISCRETE PREDICT, [BikesAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT,

Rozdzia� 9. � Naiwny klasyfikator Bayesa firmy Microsoft 259

[ClothingQuantity] LONG DISCRETE PREDICT, [ClothingAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, [AccessoriesQuantity] LONG DISCRETE PREDICT, [AccessoriesAmount] LONG DISCRETIZED(CLUSTERS,8) PREDICT, [MonthsAsCustomer] LONG DISCRETIZED(CLUSTERS,10) PREDICT )USING Microsoft_Naive_Bayes

Zwró� uwag�, e wszystkie atrybuty s� dyskretne lub poddane dyskretyzacji oraz ewszystkie one zosta�y uyte w roli atrybutów wej�ciowych i wyj�ciowych.

Utwórz, np. korzystaj�c z do��czonego do ksi�ki skryptu XMLA, �ród�o danychAdventure Works DW i skonfiguruj nazw� i has�o uytkownika, z którego uprawnieniamiserwer SSAS b�dzie ��czy� si� z tym �ród�em danych, a nast�pnie przetwórz ten mo-del, wykonuj�c ponisz� instrukcj�:

INSERT INTO CustomersAnalysis([ID], [Age], [MaritalStatus], [Gender], [TotalChildren],[NumberChildrenAtHome], [Education], [Occupation], [YearlyIncome], [HouseOwnerFlag],[NumberCarsOwned], [TotalAmount], [TotalQuantity], [BikesQuantity], [BikesAmount],[ClothingQuantity], [ClothingAmount], [AccessoriesQuantity], [AccessoriesAmount],[MonthsAsCustomer])OPENQUERY ([Adventure Works DW], 'SELECT [ID], [Age], [MaritalStatus],[Gender], [TotalChildren], [NumberChildrenAtHome], [Education], [Occupation],[YearlyIncome], [HouseOwnerFlag], [NumberCarsOwned], [TotalAmount], [TotalQuantity],[BikesQuantity], [BikesAmount], [ClothingQuantity], [ClothingAmount],[AccessoriesQuantity], [AccessoriesAmount] ,[MonthsAsCustomer]FROM [dbo].[CustomersHistoryTrain]')

Po wy�wietleniu raportu Dependency Network (eby wy�wietli� okno z wizualizatoramibezpo�rednio z konsoli SSMS, naley klikn�� model eksploracji danych i wybra�z menu kontekstowego Browse) przekonamy si�, e uywany w poprzednich modelachw roli atrybutu wyj�ciowego atrybut TotalAmount jest silnie powi�zany nie tylko z atrybu-tami opisuj�cymi klientów (takimi jak Age, Occupation czy TotalChildren), ale równiez atrybutami opisuj�cymi histori� zakupów tych klientów (takimi jak AccessoriesAmount,BikesAmount, ClothingAmount czy TotalQuantity). Jednak te ostatnie atrybuty s� silniepowi�zane nie tylko z obja�nianym atrybutem TotalAmount, ale równie ze sob� na-wzajem. Z rozdzia�u 5. wiadomo, e w modelach klasyfikacyjnych nie naley uywa�w roli atrybutów wej�ciowych silnie powi�zanych ze sob� atrybutów, dlatego atry-buty te nie by�y uywane w utworzonych wcze�niej modelach.

Raport zaleno�ci nie zawiera informacji na temat stanów poszczególnych atrybutów.Te dane znajdziemy w pozosta�ych raportach wizualizatora naiwnego klasyfikatoraBayesa firmy Microsoft lub odczytuj�c struktur� modelu. Wizualizator kadego algo-rytmu eksploracji danych mona zast�pi� ogólnym wizualizatorem Microsoft GenericContent Tree Viewer, zwracaj�cym informacj� na temat struktury modelu.

Wy�wietl go, a nast�pnie z listy w�z�ów modelu wybierz w�ze� opisuj�cy zaleno�cipomi�dzy atrybutem Education a poszczególnymi stanami atrybutu TotalAmount (ry-sunek 9.3).

260 Cz��� II � Eksploracja

Rysunek 9.3. Szczegó�owe informacje na temat modeli eksploracji danych wraz z ich formatowaniemmo�na skopiowa� do schowka i wklei� np. do dokumentu Worda

Modele naiwnego klasyfikatora Bayesa firmy Microsoft licz� tyle w�z�ów drugiegopoziomu (w�z�ów typu 9.), ile jest zdefiniowanych atrybutów wej�ciowych (w�z�empierwszego poziomu jest sam model eksploracji danych). List� tych w�z�ów wraz z ichidentyfikatorami mona odczyta�, wywo�uj�c ponisz� procedur�:

CALL GetPredictableAttributes ('CustomersAnalysis')

Na trzecim poziomie znajduj� si� w�z�y zawieraj�ce atrybuty wej�ciowe (w�z�y typu 10.),a na czwartym (w w�z�ach typu 11.) — znalezione zaleno�ci pomi�dzy poszczególnymiatrybutami wej�ciowymi a atrybutem wyj�ciowym, nadrz�dnym dla danego w�z�a.

Klasyfikacja dokumentów

Analiza dokumentów tekstowych wymaga ich wcze�niejszego podzielenia na frazy —to wyst�powanie lub brak w dokumencie poszczególnych fraz b�dzie podstaw� ichoceny. Analiza dokumentów tekstowych przypomina wi�c analiz� koszykow�: koszykizakupów analizowane s� pod k�tem wyst�powania w nich poszczególnych towarów,dokumenty tekstowe — pod k�tem wyst�powania w nich poszczególnych fraz.

Podzielone na frazy dokumenty mog� by�:

1. Klasyfikowane — frazy zapisane w tabeli zagniedonej b�d� podstaw�zaklasyfikowania dokumentu np. jako spam.

Rozdzia� 9. � Naiwny klasyfikator Bayesa firmy Microsoft 261

2. Dzielone na segmenty na podstawie cz�stotliwo�ci wyst�powania w nichposzczególnych fraz.

3. Kojarzone ze sob� na podstawie wyst�puj�cych w nich fraz.

W tym punkcie przeprowadzimy klasyfikacj� wiadomo�ci e-mail. Wymaga to:

1. Zbudowania s�ownika zawieraj�cego wszystkie frazy wyst�puj�ce w tychdokumentach.

2. Dekompozycji poszczególnych dokumentów na frazy zapisane w s�owniku.

3. Zbudowania modelu klasyfikacyjnego.

4. Roz�oenia ocenianych dokumentów na frazy i sklasyfikowania ich przy uyciuzbudowanego modelu.

Do zbudowania s�ownika uyjemy transformacji Term Extraction us�ugi SSIS:

1. Uruchom Business Intelligence Development Studio, utwórz nowy projekt typuIntegration Services i nazwij go Text Analysis.

2. Dodaj do pakietu SSIS zadanie Data Flow Task i nazwij je Build Dictionary.

3. Przejd� na zak�adk� Data Flow.

4. Dodaj do zadania Build Dictionary transformacj� ADO.NET Source i pobierzza jego pomoc� dane z tabeli EMails, znajduj�cej si� w przyk�adowej bazie danychDataMiningDW.

5. Dodaj do tego zadania transformacj� Term Extraction i po��cz j� z domy�lnym(zielonym) wyj�ciem utworzonego �ród�a danych.

6. Dwukrotnie kliknij t� transformacj� — wy�wietli si� okno edytora TermExtraction Transformation Editor:

a) Na zak�adce Term Extraction wybierz kolumn�, w której przechowywanes� tre�ci wiadomo�ci e-mail (rysunek 9.4).

b) Zak�adka Exclusion pozwala wskaza� tabel� zawieraj�c� frazy wykluczoneze s�ownika.

c) Przejd� na zak�adk� Advanced. Pozwala ona skonfigurowa� sposóbrozk�adania tekstu na frazy: m.in. to, czy ma on by� dzielony na pojedynczewyrazy lub tylko na frazy, wybra� sposób oceniania fraz (mog� by� oneoceniane tylko na podstawie cz�stotliwo�ci wyst�powania w danymdokumencie oraz z uwzgl�dnieniem tego, jak cz�sto fraza wyst�powa�awe wszystkich dokumentach5), minimaln� liczb� wyst�pie� fraz oraz ichmaksymaln� d�ugo�� w s�owach.

7. Zamknij okno edytora przyciskiem OK.

5 Ocena frazy jest tym wysza, im cz��ciej wyst�puje ona w dokumencie, ale metoda TFIDF dodatkowo

obnia oceny fraz cz�sto wyst�puj�cych we wszystkich dokumentach.

262 Cz��� II � Eksploracja

Rysunek 9.4. Wynikiem transformacji b�d� dwie nowe kolumny: w kolumnie o domy�lnej nazwie Termzostan� zapisane frazy znaczeniowe, w kolumnie Score — punkty obliczone na podstawie cz�stotliwo�ciich wyst�powania

8. Dodaj do zadania transformacj� ADO.NET Destination i utwórz za pomoc�tego zadania w bazie danych DataMining tabel� Dictionary, w której zapisanezostan� frazy i ich oceny.

9. Uruchom pakiet SSIS (rysunek 9.5).

Po zbudowaniu s�ownika moemy roz�oy� poszczególne wiadomo�ci e-mail na frazy:

1. Przejd� do zak�adki Control Flow, dodaj do pakietu kolejne zadanie Data FlowTask i nazwij je Decompose Documents.

2. Po��cz zadanie Build Dictionary z zadaniem Decompose Documents — w tensposób najpierw zostanie utworzony s�ownik, który nast�pnie zostanie uytydo dekompozycji wiadomo�ci e-mail.

3. Kliknij dwukrotnie to zadanie lewym przyciskiem myszy — wy�wietli si� onow edytorze przep�ywu danych.

4. Dodaj do zadania Decompose Documents transformacj� ADO.NET Source i pobierzza jego pomoc� dane z tabeli EMails znajduj�cej si� w przyk�adowej baziedanych DataMiningDW.

5. Dodaj do tego zadania transformacj� Term Lookup i po��cz j� z domy�lnym(zielonym) wyj�ciem utworzonego �ród�a danych.

Rozdzia� 9. � Naiwny klasyfikator Bayesa firmy Microsoft 263

Rysunek 9.5. Pakiet SSIS tworz�cy s�ownik fraz wyst�puj�cych w wiadomo�ciach e-mail (frazy zosta�ypokazane poprzez klikni�cie strza�ki ��cz�cej dwa ostatnie zadania i wybranie opcji Enable Data Viewer)

6. Dwukrotnie kliknij t� transformacj� — wy�wietli si� okno edytora Term LookupTransformation Editor:

a) Zak�adka Reference Table pozwala wskaza� tabel� s�ownikow� — po��czsi� z baz� DataMiningDW i wybierz tabel� Dictionary.

b) Przejd� na zak�adk� Term Lookup i po��cz kolumn� Body tabeli Emailsz kolumn� Term tabeli Dictionary. Poniewa tabela utworzona za pomoc�tej transformacji b�dzie musia�a zosta� powi�zana z nadrz�dn� tabel�Emials, dodaj do jej wyniku zawarto�� kolumny ID (rysunek 9.6).

c) Zatwierd� zmiany przyciskiem OK.

7. Dodaj do zadania transformacj� ADO.NET Destination i utwórz za jego pomoc�w bazie danych DataMinigDW tabel� EmailsFragments, w której zapisane zostan�zdekomponowane wiadomo�ci e-mail.

�eby ponowne uruchomienie pakietu nie powodowa�o duplikowania wierszy zapisanychw tabelach Dictionary i EmailsFragments:

1. Dodaj do niego zadanie Execute T-SQL Statement Task.

2. Po��cz je z lokalnym serwerem SQL.

264 Cz��� II � Eksploracja

Rysunek 9.6.Transformacja TermLookup pozwoli namzapisa� w tabelipodrz�dnej frazinformacje o tym, ilerazy wyst�pi�y onew ka�dym dokumencie,oraz identyfikatorydokumentów,w których te frazyzosta�y znalezione

3. W polu T-SQL Statement wpisz ponisze instrukcje:USE DataMiningDWGOIF EXISTS (SELECT * FROM sys.tables WHERE name='Dictionary')TRUNCATE TABLE dbo.DictionaryGOIF EXISTS (SELECT * FROM sys.tables WHERE name='EmailsFragments')TRUNCATE TABLE dbo.EmailsFragmentsGO

4. Po��cz to zadanie z zadaniem Build Dictionary.

5. Uruchom i zapisz gotowy pakiet SSIS.

Dysponuj�c przygotowanymi w ten sposób danymi �ród�owymi, moemy ju zbudo-wa� model klasyfikuj�cy dokumenty. Nasz model b�dzie je klasyfikowa� wy��czniena podstawie tematów i priorytetów wiadomo�ci oraz znajduj�cych si� w nich fraz —to, ile razy wyst�puje w nich dana fraza, pominiemy. Dla odmiany model ten utwo-rzymy w �rodowisku BIDS:

Rozdzia� 9. � Naiwny klasyfikator Bayesa firmy Microsoft 265

1. Po��cz si� z analityczn� baz� danych DataMining.

2. Utwórz nowy widok danych �ród�owych i dodaj do niego tabele Emailsi EmailsFragments.

3. Po��cz te tabele, przeci�gaj�c kolumn� ID tabeli EmailsFragments do kolumny IDtabeli Emails.

4. Analizuj�c przyk�adowe dane, zwró� uwag�, e zaledwie 371 (1,5%) frazpochodzi z wiadomo�ci oznaczonych jako spam. Poniewa nasz model maklasyfikowa� dokumenty, musimy zmieni� rozk�ad atrybutu wyj�ciowego,sztucznie zwi�kszaj�c cz�stotliwo�� wyst�powania fraz wskazuj�cych naniechciane wiadomo�ci:

a) Dodaj do widoku danych �ród�owych nazwane zapytanie SelectedFragments.

b) Odczytaj w tym zapytaniu wszystkie fragmenty niechcianych wiadomo�ciuzupe�nione o 2% losowo wybranych fragmentów pozosta�ych wiadomo�ci:

SELECT E.ID, Term, Frequency, NEWID() as nFROM dbo.EmailsFragments AS FJOIN dbo.EMails AS E ON E.ID=F.IDWHERE E.Category='SPAM'UNION ALLSELECT TOP 2 PERCENT E.ID, Term, Frequency, NEWID()FROM dbo.EmailsFragments AS FJOIN dbo.EMails AS E ON E.ID=F.IDWHERE E.Category<>'SPAM'ORDER BY NEWID();

c) Po��cz utworzone zapytanie z tabel� Emails, przeci�gaj�c jego kolumn� IDdo kolumny ID tabeli Emails.

5. Zapisz zmiany i zamknij edytor widoku danych �ród�owych.

6. Z wykorzystaniem kreatora utwórz now� struktur� i model eksploracji danych:

a) Pobierz dane z tabel relacyjnej bazy danych.

b) Wybierz naiwny klasyfikator Bayesa firmy Microsoft.

c) Wska widok danych �ród�owych utworzony w poprzednich punktach.

d) Na tabel� nadrz�dn� (ang. Case) wybierz tabel� Emails, na tabel�zagniedon� (ang. Nested) — nazwane zapytanie SelectedFragments.

e) Zaznacz kolumn� klucza zagniedonego przypadku (kolumn� Term),dodaj do listy wej�ciowych atrybutów kolumny Category, Prioryty i Subject,a na atrybut wyj�ciowy wybierz kolumn� Category.

f) Uyj wszystkich danych jako przypadków treningowych.

g) Zwró� uwag�, e naiwny klasyfikator Bayesa firmy Microsoft nie umoliwiazaznaczenia opcji Allow drill through (przedstawiona w poprzednim punkciestruktura modeli tego algorytmu jest ma�o intuicyjna i nie pozwala w prostysposób powi�za� znalezionych zaleno�ci z poszczególnymi przypadkami).Zako�cz prac� kreatora.

266 Cz��� II � Eksploracja

7. Przetwórz zbudowany model. Wy�wietl� si� dwa ostrzeenia:

a) Automatic feature selection has been applied to model, due to the largenumber of attributes. Set MAXIMUM_INPUT_ATTRIBUTES and/orMAXIMUM_OUTPUT_ATTRIBUTES to increase the number of attributesconsidered by the algorithm — to ostrzeenie dotyczy zagniedonegoatrybutu Term.

b) Cardinality reduction has been applied on column, Subject of model, E Mailsdue to the large number of states in that column. Set MAXIMUM_STATESto increase the number of states considered by the algorithm — to ostrzeeniedotyczy atrybutu Subject.

8. Wy�wietl okno w�a�ciwo�ci algorytmu i ustaw na 0 warto�ci parametrówMAXIMUM_INPUT_ATTRIBUTES oraz MAXIMUM_STATES.

9. Ponownie przetwórz model eksploracji danych i zapoznaj si� z jego wynikami.

10. Przejd� na zak�adk� Data Mining Prediction i wykonaj zapytanie czasurzeczywistego, oceniaj�ce, czy e-mail zawieraj�cy wybrane frazy b�dziesklasyfikowany jako spam (rysunek 9.7).

Rysunek 9.7. Business Intelligence Development Studio pozwala wybra� z listy warto�cizagnie�d�onego atrybutu te, których chcemy u�y� w zapytaniach czasu rzeczywistego

SkorowidzA

abstrakcja, 30adaptacyjny interfejs, 406AdventureWorksDW, 16, 52algorytmy

CART, 268drzew decyzyjnych, 72, 166ID3, 268klastrowania, 297klastrowania sekwencyjnego, 319odkrywania regu� asocjacyjnych, 335regresji liniowej, 267regresji logistycznej, 351

anachronizmy, 76analiza

biznesowa, 35dokumentów tekstowych, 260koszykowa, 142, 335, 343odwiedzin stron WWW, 324sekwencyjna, 151skupie� komórek, 305typu cross-selling, 347wariantowa, 111, 152, 295zaleno�ci pomi�dzy atrybutami, 73, 258, 342

anomalie, 149, 314, 332aplikacje inteligentne, 401architektura SSAS, 219asocjacja, 141, 177, 279atrybuty, 57, 227

bez warto�ci, 237ci�g�e, 57, 86dyskretne, 57, 81grupowanie, 81jednowarto�ciowe, 57monotoniczne, 59nadmiarowe, 75niezalene, 74okresowe, 86

porz�dkowe, 85rozk�ad warto�ci, 59stany, 57tekstowe, 68wielowarto�ciowe, 57zaleno�ci, 73, 258, 342

AUTO_DETECT_PERIODICITY, 286

BBayesa naiwny klasyfikator, 72, 253

analiza dokumentów tekstowych, 260analiza zaleno�ci pomi�dzy atrybutami, 258ograniczenia, 255omówienie, 253parametry, 256zastosowania, 258

bazy danychAdventureWorksDW, 16DataMiningDW, 17DataMiningSolutions, 19

bezpiecze�stwo SSAS, 221Bias, 50BIDS, 162, 192

interfejs, 193tryb offline, 194tryb online, 194

bity informacji, 77b��dy

pomiaru, 50przypadkowy, 51systematyczny, 50

brakuj�ce dane, 69uzupe�nienie, 404

Breiman, Leo, 268Business Intelligence Development Studio,

Patrz BIDS

414 Microsoft SQL Server. Modelowanie i eksploracja danych

Ccele

eksploracji danych, 35modelowania, 35

ci�g�e atrybuty, 57, 86CLUSTER_COUNT, 303, 323CLUSTER_SEED, 303CLUSTERING_METHOD, 304Co b�dzie, jeeli?, 155COMPLEXITY_PENALTY, 273, 286CRISP-DM, 11cross-selling, 347czynniki kluczowe, 128, 129

Ddane

brakuj�ce, 69, 404diagnostyczne, 115dla modeli deskrypcyjnych, 108dla modeli predykcyjnych, 109duplikaty, 62integralno��, 62kontrola poprawno�ci, 401korelacja, 106modelowanie, 27na potrzeby analizy wariantowej, 111ocena, 49, 121oczyszczanie, 122odchylenie standardowe, 67opisywanie, 36podzia�, 124poprawa jako�ci, 99profilowanie, 54próbkowanie, 64przygotowanie, 79

do dalszej eksploracji, 312reprezentatywno��, 64serie, 92

krótkie, 293przeplatane, 291

testowe, 113treningowe, 114

filtrowanie, 209wyniki eksploracji, 42wzbogacenie, 103zakres warto�ci, 63zbieno��, 65zewn�trzne, 162zgodno�� ze wzorcem, 63�ród�a, 195, 240�ród�owe, 40, 49, 121

nieprzygotowane, 393

niew�a�ciwe, 392widoki, 196

Data Mining, 15, 121, 162analiza koszykowa, 142dane �ród�owe, 121instalacja, 15ocena danych, 121oczyszczanie danych, 122podzia� danych, 124

Data Mining Extensions to SQL, Patrz DMXData Profile Viewer, 55DataMiningDW, 17DataMiningSolutions, 19decydenci, 38decyzje

mapa, 37modelowanie, 31typy, 36wspomaganie, 25, 36

deskrypcyjne modele eksploracji danych, 43, 108diagnostyczne dane, 115diagramy Ishikawy, 40DMCONTENTQUERY, 191DMPREDICT, 191DMPREDICTTABLEROW, 191DMX, 227

funkcje predykcyjne, 251modele eksploracji danych, 235

odczytywanie zawarto�ci, 243przetwarzanie, 239

sk�adnia, 232struktury eksploracji danych, 233

odczytywanie zawarto�ci, 243przetwarzanie, 239

wstawianie wierszy, 242, 243wybieranie przypadków, 239zagniedanie przypadków, 236zagniedanie tabel, 234zapytania predykcyjne, 245�ród�a danych, 240

dok�adno�� predykcji modeli eksploracji danych, 374dokumenty tekstowe, 260drzewa decyzyjne, 72, 166, 267

asocjacja, 279klasyfikacja, 275ograniczenia, 272omówienie, 268parametry, 273szacowanie, 277zastosowania, 275

Dudek, Daniel, 398duplikaty, 62dyskretne atrybuty, 57, 81dyskretyzacja, 90

Skorowidz 415

Eeksploracja danych, 9, 25, 32, 117

cele, 35dane �ród�owe, 40etapy, 10formu�owanie problemu, 33hipotezy, 32kontekst, 40modele, 182, 184, 206, 232, 235

dane brakuj�ce, 70deskrypcyjne, 43dok�adno�� predykcji, 374korzystanie, 185kryteria porównawcze, 371�atwo�� interpretacji, 373ocena, 369, 376odczytywanie zawarto�ci, 243poprawa, 369powrót do �redniej, 369predykcyjne, 43problemy, 391przetwarzanie, 210, 220, 239przydatno��, 375skalowalno��, 375wiarygodno�� predykcji, 374wizualizatory, 398wstawianie wierszy, 242wydajno��, 375zarz�dzanie, 190zarz�dzanie poprzez SSMS, 216

narz�dzia, 162ocena ryzyka, 45proces, 10, 11serwer SQL, 218struktury, 182, 199, 231

odczytywanie zawarto�ci, 243przetwarzanie, 204, 220, 239wstawianie wierszy, 242

sukces projektu, 44techniki, 119, 126wyniki, 42zakres projektu, 39zastosowania, 119

entropia, 78etapy eksploracji danych, 10Excel, 15

asocjacja, 177formu�y, 191grupowanie, 173jako klient SSAS, 162klasyfikacja, 163modele eksploracji danych, 182, 184narz�dzia eksploracji danych, 162prognozowanie, 179

struktury eksploracji danych, 182szacowanie, 170wersja demonstracyjna, 15

Ffiltrowanie danych treningowych, 209FORCE_REGRESSOR, 273FORECAST_METHOD, 286formu�owanie problemu, 33formu�y arkusza Excel, 191Friedman, Jerome, 268funkcje

Co b�dzie, jeeli?, 155predykcyjne, 251szukania wyniku, 153uzupe�niania, 132, 136wykrywania anomalii, 149wykrywania kategorii, 146

Fuzzy Grouping, 82

GGarbage In, Garbage Out, 49grupowanie, 81, 145, 173

funkcja wykrywania kategorii, 146rozmyte, 82

HHIDDEN_NODE_RATIO, 360hipotezy, 32HISTORIC_MODEL_COUNT, 286, 386HISTORIC_MODEL_GAP, 286, 386HOLDOUT_PERCENTAGE, 360HOLDOUT_SEED, 360Hopfield, John, 352

Iinformacje

bity, 77kontekst, 78mierzenie, 76modelowanie, 27zaskakuj�ce, 77

INSTABILITY_SENSITIVITY, 287instalacja

Data Mining, 15serwera SQL, 13

integracja serwera SQLz SSAS, 223z SSIS, 226z SSRS, 226

416 Microsoft SQL Server. Modelowanie i eksploracja danych

integralno�� danych, 62inteligentne aplikacje, 401

adaptacyjny interfejs, 406kontrola poprawno�ci danych, 401uzupe�nianie brakuj�cych danych, 404

interfejs adaptacyjny, 406Ishikawy diagramy, 40

Jjako�� danych, 99jeden do wielu, 84jednowarto�ciowe atrybuty, 57

Kkalkulator predykcyjny, 138kategorie, 146klastrowanie, 297

analiza skupie� komórek, 305klasyfikacja, 309ograniczenia, 302omówienie, 297parametry, 303przygotowanie danych do dalszej eksploracji, 312szacowanie, 309wykrywanie anomalii, 314zastosowania, 305

klastrowanie sekwencyjne, 319analiza odwiedzin stron WWW, 324klasyfikacja, 327ograniczenia, 323omówienie, 320parametry, 323przewidywanie kolejnych zdarze�, 329wykrywanie anomalii, 332zastosowania, 324

klasyczna standaryzacja, 89klasyfikacja, 109, 126, 163, 275, 309, 327, 366

funkcja uzupe�niania, 132wykrycie kluczowych czynników, 128, 129zapytanie predykcyjne, 134

klasyfikator naiwny Bayesa, 72, 253analiza dokumentów tekstowych, 260analiza zaleno�ci pomi�dzy atrybutami, 258ograniczenia, 255omówienie, 253parametry, 256zastosowania, 258

klucze, 230kluczowe czynniki, 128, 129k�opoty ze sformu�owaniem problemu, 33

kodowaniejeden do wielu, 84wiele do wielu, 85

konteksteksploracji danych, 40informacji, 78

kontrola poprawno�ci danych, 401korelacja danych, 106korzystanie z modeli eksploracji danych, 185kostka wielowymiarowa, 292kryteria porównawcze modeli eksploracji

danych, 371

�a�cuch Markowa, 320�atwo�� interpretacji modeli eksploracji danych, 373

Mmacierz klasyfikacji, 384mapa decyzji, 37Market Basket Analysis, 142Markowa �a�cuch, 320MAXIMUM_INPUT_ATTRIBUTES, 273, 304,

361MAXIMUM_ITEMSET_COUNT, 341MAXIMUM_ITEMSET_SIZE, 341MAXIMUM_OUTPUT_ATTRIBUTES, 273, 361MAXIMUM_SEQUENCE_STATES, 323MAXIMUM_SERIES_VALUE, 287MAXIMUM_STATES, 304, 323, 361MAXIMUM_SUPPORT, 341McCulloch, Warren, 352metody oceny modeli eksploracji danych, 376

macierz klasyfikacji, 384odchylenie mi�dzyklastrowe, 390odchylenie wewn�trzklastrowe, 390walidacja krzyowa, 387wykres podniesienia, 376wykres punktowy, 381wykres zysku, 376

Microsoftdrzewa decyzyjne, 267klastrowanie, 297klastrowanie sekwencyjne, 319naiwny klasyfikator Bayesa, 253odkrywanie regu� asocjacyjnych, 335regresja liniowa, 267regresja logistyczna, 351sieci neuronowe, 351szeregi czasowe, 281

mierzenie informacji, 76

Skorowidz 417

MINIMUM_IMPORTANCE, 341MINIMUM_ITEMSET_SIZE, 341MINIMUM_PROBABILITY, 341MINIMUM_SERIES_VALUE, 287MINIMUM_SUPPORT, 273, 287, 304, 323, 341MISSING_VALUE_SUBSITUTION, 287, 386modele eksploracji danych, 182, 184, 206, 232, 235

dane brakuj�ce, 70deskrypcyjne, 43, 108dok�adno�� predykcji, 374korzystanie, 185kryteria porównawcze, 371�atwo�� interpretacji, 373ocena, 369, 376odczytywanie zawarto�ci, 243poprawa, 369powrót do �redniej, 369predykcyjne, 43, 109problemy, 391przetwarzanie, 210, 220, 239przydatno��, 375skalowalno��, 375wiarygodno�� predykcji, 374wizualizatory, 398wstawianie wierszy, 242wydajno��, 375zarz�dzanie, 190zarz�dzanie poprzez SSMS, 216

MODELING_CARDINALITY, 304modelowanie, 23, 25

abstrakcja, 30cele, 35dane, 27decyzje, 31informacje, 27obiekty, 26paradygmaty, 29regu�y, 26symbole, 30wiedza, 29wzorce, 30zdarzenia, 26

monotoniczne atrybuty, 59

Nnadmiarowe atrybuty, 75naiwny klasyfikator Bayesa, 72, 253

analiza dokumentów tekstowych, 260analiza zaleno�ci pomi�dzy atrybutami, 258ograniczenia, 255omówienie, 253parametry, 256zastosowania, 258

narz�dzia eksploracji danych, 162

nieprzygotowane dane �ród�owe, 393nietypowe przypadki, 149niew�a�ciwe

algorytmy eksploracji danych, 394dane �ród�owe, 392

niew�a�ciwie postawione zadania, 391niezalene atrybuty, 74Noise, 51normalizacja zakresu, 87numerowanie stanów, 84

Oobiekty, 26ocena

danych, 49, 121modeli eksploracji danych, 369

dok�adno�� predykcji, 374kryteria porównawcze, 371�atwo�� interpretacji, 373metody, 376powrót do �redniej, 369przydatno��, 375skalowalno��, 375wiarygodno�� predykcji, 374wydajno��, 375

ryzyka, 45oczyszczanie danych, 122odchylenie

mi�dzyklastrowe, 390standardowe, 67wewn�trzklastrowe, 390

odkrywanie regu� asocjacyjnych, 335ograniczenia

drzew decyzyjnych, 272klastrowania, 302klastrowania sekwencyjnego, 323naiwnego klasyfikatora Bayesa, 255regresji logistycznej, 358regu� asocjacyjnych, 340sieci neuronowych, 358szeregów czasowych, 285

okresowe atrybuty, 86okresowo��, 96OLE DB/DM, 232Olshen, Richard, 268opisywanie danych, 36

Pparadygmaty, 29parametry

drzew decyzyjnych, 273klastrowania, 303klastrowania sekwencyjnego, 323

418 Microsoft SQL Server. Modelowanie i eksploracja danych

parametrynaiwnego klasyfikatora Bayesa, 256regresji logistycznej, 360regu� asocjacyjnych, 341sieci neuronowych, 360szeregów czasowych, 286

Pearsona wspó�czynnik korelacji liniowej, 106PERIODICITY_HINT, 287Pits, Walter, 352podzia� danych, 124poprawa

jako�ci danych, 99modeli eksploracji danych, 369

poprawno�� danych, 401porz�dkowe atrybuty, 85powrót do �redniej, 369prawdopodobie�stwo sukcesu projektu

eksploracji danych, 44PREDICTION_SMOOTHING, 287predykcja, 109, 111predykcyjne

funkcje, 251modele eksploracji danych, 43, 109programowanie, 397zapytania, 245

problem, formu�owanie, 33problemy z modelami eksploracji danych, 391

nieprzygotowane dane �ród�owe, 393niew�a�ciwe algorytmy, 394niew�a�ciwe dane �ród�owe, 392niew�a�ciwie postawione zadania, 391�le sparametryzowane algorytmy, 394

proces eksploracji danych, 10, 11profilowanie danych, 54prognozowanie, 156, 179, 289

kostka wielowymiarowa, 292krótkie serie danych, 293przeplatane serie danych, 291

programowanie predykcyjne, 397inteligentne aplikacje, 401narz�dzia, 397raporty us�ugi SSRS, 399wizualizatory modeli eksploracji danych, 398

projekt eksploracji danychdane �ród�owe, 40kontekst, 40ocena ryzyka, 45sukces, 44zakres, 39

proporcja, zmiana, 109próbkowanie danych, 64przestrze� stanów, 79przetwarzanie

modeli eksploracji danych, 210, 220struktur eksploracji danych, 204, 220

przewidywanie kolejnych zdarze�, 329przydatno�� modeli eksploracji danych, 375przygotowanie danych, 79

do dalszej eksploracji, 312przyk�adowe bazy danych

AdventureWorksDW, 16DataMiningDW, 17DataMiningSolutions, 19

przypadki, 51, 229wybieranie, 239zagniedanie, 213, 236

QQuinlan, John Ross, 268

Rraporty us�ugi SSRS, 399redukcja wymiarów, 105regresja liniowa, 267regresja logistyczna, 351

klasyfikacja, 366ograniczenia, 358omówienie, 352parametry, 360szacowanie, 362zastosowania, 361

regu�y, 26regu�y asocjacyjne, 335

analiza koszykowa, 343analiza typu cross-selling, 347analiza zaleno�ci pomi�dzy atrybutami, 342ograniczenia, 340omówienie, 336parametry, 341zastosowania, 341

reprezentatywno�� danych, 64Rosenblatt, Frank, 352rozk�ad warto�ci atrybutów, 59ryzyko, 45

SSAMPLE_SIZE, 304, 361SCORE_METHOD, 274serie danych, 92

krótkie, 293przeplatane, 291

serwer SQL, 12eksploracja danych, 161, 218instalacja, 13integracja z SSAS, 223

Skorowidz 419

integracja z SSIS, 226integracja z SSRS, 226us�ugi, 12wersja demonstracyjna, 13wymagane sk�adniki, 14

sezonowo��, 96sieci neuronowe, 351

klasyfikacja, 366ograniczenia, 358omówienie, 352parametry, 360szacowanie, 362zastosowania, 361

Silesian Code Camp, 398skalowalno�� modeli eksploracji danych, 375skalowanie

liniowe, 88logistyczne, 89

sk�adniki serwera SQL, 14skrajne warto�ci, 87skupienia komórek, 305SPLIT_METHOD, 274SQL Server Analysis Services, Patrz SSASSQL Server Database Engine, 12SQL Server Integration Services, Patrz SSISSQL Server Reporting Services, Patrz SSRSSSAS, 12, 126, 162

architektura, 219bezpiecze�stwo, 221zarz�dzanie poprzez SSMS, 216

SSIS, 12, 54profilowanie danych, 54

SSMS, 162, 216SSRS, 13

raporty us�ugi, 399sta�e, 57standaryzacja klasyczna, 89stany

atrybutów, 57, 229numerowanie, 84przestrze�, 79

Stone, Charles, 268STOPPING_TOLERANCE, 304struktury eksploracji danych, 182, 199, 231, 233

odczytywanie zawarto�ci, 243przetwarzanie, 204, 220, 239wstawianie wierszy, 242

sukces projektu eksploracji danych, 44symbole, 30szacowanie, 136, 170, 277, 309, 362

funkcja uzupe�niania, 136kalkulator predykcyjny, 138

szeregi czasowe, 281analiza wariantowa, 295

ocena dok�adno�ci, 386ograniczenia, 285omówienie, 281parametry, 286prognozowanie, 289

kostka wielowymiarowa, 292krótkie serie danych, 293przeplatane serie danych, 291

zastosowania, 288sztuczna inteligencja, 352szukanie wyniku, 153szum, 97

Ttabele zagniedone, 234

wstawianie wierszy, 243TABLESAMPLE, 115Targeted Mailing Decision Tree, 134techniki eksploracji danych, 119, 126

analiza sekwencyjna, 151analiza wariantowa, 152asocjacja, 141grupowanie, 145klasyfikacja, 126prognozowanie, 156szacowanie, 136

tekstowe atrybuty, 68testowe dane, 113trend, 96treningowe dane, 114

filtrowanie, 209typy decyzji, 36

Uus�ugi serwera SQL, 12

eksploracja danych, 218uzupe�nienie

brakuj�cych danych, 404warto�ci, 99

Wwalidacja krzyowa, 116, 387warto�ci

atrybutów, 59, 229skrajne, 87uzupe�nienie, 99zakres, 63

wersje demonstracyjneExcela, 15serwera SQL, 13

420 Microsoft SQL Server. Modelowanie i eksploracja danych

What-If, 155wiarygodno�� predykcji modeli eksploracji

danych, 374widoki danych �ród�owych, 196wiedza, 29wiele do wielu, 85wielowarto�ciowe atrybuty, 57wielowymiarowa kostka, 292Wightman, Charles, 352wizualizatory modeli eksploracji danych, 398wspomaganie decyzji, 25, 36wspó�czynnik korelacji liniowej Pearsona, 106wstawianie wierszy

do modeli eksploracji danych, 242do struktur eksploracji danych, 242do tabel zagniedonych, 243

wybieranie przypadków, 239wydajno�� modeli eksploracji danych, 375wydzielenie danych testowych, 113wykresy

podniesienia, 376punktowy, 381zysku, 376

wykrywanieanomalii, 149, 314, 332kategorii, 146

wymiary, redukcja, 105wyniki eksploracji danych, 42wzbogacenie danych, 103wzorce, 30, 63

Xxml, 55

Zzagniedanie

przypadków, 213, 236tabel, 234

zakresnormalizacja, 87warto�ci danych, 63

zaleno�ci pomi�dzy atrybutami, 73, 258, 342zapytanie predykcyjne, 134, 210, 245zarz�dzanie modelami eksploracji danych, 190zaskakuj�ce informacje, 77zastosowania

drzew decyzyjnych, 275eksploracji danych, 119klastrowania, 305klastrowania sekwencyjnego, 324naiwnego klasyfikatora Bayesa, 258regresji logistycznej, 361regu� asocjacyjnych, 341sieci neuronowych, 361szeregów czasowych, 288

zbieno�� danych, 65zdarzenia, 26zewn�trzne dane, 162zgodno�� danych ze wzorcem, 63zmiana proporcji, 109zmienne, 58zmienno�� atrybutów tekstowych, 68

��le sparametryzowane algorytmy eksploracji

danych, 394�ród�a danych, 195, 240�ród�owe dane, 40, 49, 121

nieprzygotowane, 393niew�a�ciwe, 392widoki, 196