przykład eksploracji danych case 1 - cs.put.poznan.pl · przykład eksploracji danych case 1.x...

47
Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010

Upload: doannguyet

Post on 28-Feb-2019

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Przykład eksploracji danychCase 1.X

JERZY STEFANOWSKI

TPD – Zaawansowana eksploracja danychedycja 2009/2010

Page 2: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Plan

1. Przykładowe studium przypadki

2. Analiza opisu przypadku

3. Ustalenie celu analizy i scenariusza postępowania

4. Ocena poprawności danych – „czyszczenie”

5. Badanie jakości danych (współzależność)

6. Ocena ważności atrybutów

7. Odkrywanie wiedzy klasyfikacyjnej

1. Różne podejścia

2. Ocena zdolności klasyfikacyjnej

3. Możliwości interpretacji wiedzy

8. Wymagania do sprawozdania

Page 3: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Analiza diagnostycznej bazy danych

Problem dotyczy analizy stanu technicznego autobusów używanych przez jedno z przedsiębiorstw w Polsce.

Page 4: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Analiza diagnostycznej bazy danych

• Bada się stan techniczny 80 autobusów tego samego typu (dokładnie ich silników) na podstawie symptomów stanu technicznego - parametrów pochodzących z okresowych badań diagnostycznych • Pierwsza klasyfikacja D1: autobusy są podzielone na dwie klasy:

dobry i zły stan techniczny pojazdu• Możliwa jest druga klasyfikacja D2 + stan przejściowy

• Cel analizy• Ocenia się jakość diagnostyczną symptomów stanu technicznego

• (pośrednio ocena przydatności tzw. wartości granicznych)

• Ocena ważności poszczególnych symptomów • Ewentualność rankingu lub selekcji

• Poszukuje się zależności pomiędzy wartościami najistotniejszych w tych symptomów a przydziałem do klas

• Konstruuje się klasyfikator stanu technicznego

Page 5: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Oryginalny format danych (isf)

Page 6: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Analiza nagłówka

80 obserwacji (autobusów) 8 atrybutów

max speed km/hCompresion preasure Mpablacking components in exhaust gas [%]torque Nmsummer fuel consumption l/100kmwinter fuel consumption l/100kmoil consumption l/1000kmmax horesepower kM

D1: [1,2] | technical conditions of a vehicle: 1 - good, 2 - badD2: [1,2,3]

Page 7: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Wartości graniczne symptomów

Page 8: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Ogląd wczytanych danych

Page 9: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Ocena jakości – statystyki podstawowe

Statistica – descriptive statistics

Page 10: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Raport podstawowych statystyk opisowych

Przeanalizujmy podstawowe miary

Page 11: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Spójrzmy dokładniej na wybrane atrybuty

Np. moment obrotowy (porównaj z definicją dziedziny)

Page 12: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Poszukiwanie źródła trudności

Spojrzenie na arkusz z danymi

Page 13: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Spójrz do oryginalnego pliku

Page 14: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Poprawki w pliku

Przesunąć wpis wiersza id. 80zapisy ? – wartości średnie w klasie decyzyjnej

Symbol spoza dziedziny „n” pewnie niesprawne autobusy – kod 2

Page 15: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Zmiany statystyk opisowych

218? Problem jest z separatorem „ ,”218 → 21,8

Page 16: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Sprawdzenie mocy silnika (horsepower)

Page 17: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Spojrzenie na rozkłady

Page 18: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Analiza współzależności

Macierz korelacji

Page 19: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Powiązanie pewnych symptomów

Można zrobić wykresy korelacyjne (rozrzutu XY)

Wiedza dziedzinowaciśnienie sprężania powiązane jest z momentem obrotowym, im większe ciśnienie tym większy można uzyskać moment obrotowy,moment obrotowy powiązany jest z mocą pojazdu,zawartość elementów smołowatych i zużycie oleju świadczyć może owieku silnika i jego stanie technicznym,Mniejsza użyteczność info. o zużyciu paliwa (warunki, styl jazdy,..)

horsepow er(torque)

90100110120130140150160

395 415 435 455 475

Torque

Horsepo

wer

Page 20: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

WEKA –visualize

Page 21: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Select attributes z WEKA

Page 22: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Relief (ważność z wagowaniem k-NN)

Page 23: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Statistica – Data Miner

Page 24: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

CART - tree

Page 25: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Przeglądanie węzłów drzewa (dec 1)

Page 26: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Skategoryzowane histogramy

Page 27: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Wykresy histogramowe (skategoryzowane)

Page 28: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Podejście teorii zbiorów przybliżonych

Page 29: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Dyskretne dane + teoria zbiorów przybliżonychHierarchia ważności symptomów dla klasyfikacji autobusów

• Można ustalać względna ważność symptomów dla klasyfikacji przykładów - przykładowa hierarchia ważności s8, s1, s3, s4 inne mniej istotne - analiza statystyczna

• w przypadku dyskretyzacji dziedzin wartości w oparciu o normy możliwe ustalenie podzbiorów zredukowanych {s2,s3,s8}, {s2,s3,s4}, {s1,s2} - teoria zbiorów przybliżonych

• Notacja s1 – prędkość maksymalna

Page 30: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Drzewo J4.8 (WEKA)

Page 31: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

C4.5 z trochę innymi parametrami

Page 32: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Algorytm MODLEM

Page 33: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Ripper – alternatywne podejście do indukcji reguł

Page 34: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Podsumowanie klasyfikatorów

Dość efektywny klasyfikatorTrafności około 97-98%Rozpoznawanie trudniejszej klasy 90%

Klasyfikatory symboliczne porównywalne do niesymbolicznych:

MLP BP – 97,37%SVM – 97,37% (klasa n 0,93)RBF – 93,27%IBL (3) – 97,37%J4.8 – 98,68%

Można dokonać oceny wiedzy symbolicznejPodobną analizę warto przeprowadzić dla drugiej klasyfikacji.

Page 35: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Trudności pomiaru → alternatywne reprezentacje wiedzy klasyfikującej

Ciśnienie sprężania → najtrudniejsze do pomiaru

Page 36: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Pomijanie trudnych atrybutów (- ciśnienie sprężania)

Page 37: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Maskujmy dalsze atrybuty

Page 38: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Jeszcze inne możliwości

Dalsze maskowania atrybutów w drzewie prowadzą do niższych trafnościJakie jeszcze metody oferują symboliczną reprezentacje wiedzy?Jak stworzyć profil/charakterystykę autobusu należącego do określonej klasy stanu technicznego?

Page 39: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Minimalny zbiór reguł klasyfikujących (MODLEM)

1. if (s2≥2.4 MPa) & (s7<2.1 l/1000km) then(technical state=good) [46]

2. if (s2<2.4 MPa) then (technical state=bad) [29]

3. if (s7≥2.1 l/1000km) then (technical state=bad) [24]

Oszacowana trafność klasyfikowania(‘leaving one out’ test) 98.7%.

Page 40: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Explore algorithm (Stefanowski, Vanderpooten)

Inny cel poszukiwania regułto extract from data set inducing all rules that satisfy some user’s requirements connected with his interest (regarding, e.g. the strength of the rule, level of confidence, length, sometimes also emphasis on the syntax of rules).

Special technique of exploration the space of possible rules:Progressively generation rules of increasing size using in the most efficient way some 'good' pruning and stopping condition that reject unnecessary candidates for rules.

Similar to adaptations of Apriori principle for looking frequent itemsets [AIS94]; Brute [Etzioni]Więcej: J.Stefanowski, D.Vanderpooten: Induction of decision rules in classification and discovery-oriented perspectives, International Journal of Intelligent Systems, vol. 16 no. 1, 2001, 13-28.Lub monografia J.Stefanowski: Algorytmy indukcji regul decyzyjnych w odkrywaniu wiedzy => patrz http://www.cs.put.poznan.pl/jstefanowski/jspspdf.html

Page 41: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Poszukiwanie zbioru reguł silnych (EXPLORE)

Próg satysfakcji (51%): 1. if (s1>85 km/h) then (technical state=good) [34]

2. if (s8>134 kM) then (technical state=good) [26]

3. if (s2≥2.4 MPa) & (s3<61 %) then (technical state=good) [44]

4. if (s2≥2.4 MPa) & (s4>444 Nm) then (technical state=good) [44]

5. if (s2≥2.4 MPa) & (s7<2.1 l/1000km) then (technical state=good) [46]

6. if (s3<61 %) & (s4>444 Nm) then (technical state=good) [42]

7. if (s1≤77 km/h) then (technical state=bad) [25]

8. if (s2<2.4 MPa) then (technical state=bad) [29]

9. if (s7≥2.1 l/1000km) then (technical state=bad) [24]

10. if (s3≥61 %) & (s4≤444 Nm) then (technical state=bad) [28]

11. if (s3³61 %) & (s8<120 kM) then (technical state=bad) [27]

Page 42: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Możliwość dodatkowego ograniczaniaInteractive ExploreSterowanie procedurą poszukiwania reguł decyzyjnych za pomocą następujących parametrów :

ustalenie atrybutu decyzyjnego i jego klas decyzyjnych,zbiór preferowanych i zakazanych atrybutów warunkowych,zbiór preferowanych i zakazanych warunków elementarnych, preferowany warunek złożony (część przesłanki), zbiór zakazanych warunków złożonych,maksymalna wielkość zbioru znalezionych reguł,minimalne wsparcie reguły,maksymalna długość reguły,minimalny stopień dyskryminacji (dokładność) reguły.

Page 43: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Sterowanie wyborem

Interactive Explores

Page 44: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Przeglądanie zbioru reguł

Page 45: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Wymagania do sprawozdania

Krótki opis problemu (raczej Twoje zrozumienie + cele postawione przez klienta)Informacje o danychScenariusz metodycznyWstępna ocena danych i ew. czyszczenieAnaliza statystyk opisowych / korelacji itp./Ocena ważności atrybutów

RankingEw. selekcja / redukcja

Podsumowanie wiedzy klasyfikacyjnejNie tylko trafnościPróba interpretacji reprezentacji wiedzy

Wnioski dla klienta

Page 46: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

Źródło danych do problemu

Dane zebrane przez dr hab. inż. J.Żak Wydziału maszyn Roboczych i Pojazdów Politechniki PoznańskiejJ. Żak, J. Stefanowski. Determining maintenance activities of motor vehicles using rough sets aproach. In Precedings of Euromaintenance’94 Conference. Amsterdam 1994, 39 – 42.

Page 47: Przykład eksploracji danych Case 1 - cs.put.poznan.pl · Przykład eksploracji danych Case 1.X JERZY STEFANOWSKI TPD – Zaawansowana eksploracja danych edycja 2009/2010. ... analiza

O jakie autobusy chodziło

Autosan H9-21(prototyp 1969, produkowany lata 73-84) w Sanockiej Fabryce Autobusów .

Podstawowy model autobusu międzymiastowego PKS w poprzednim okresie