przykład eksploracji danych case 1 - cs.put.poznan.pl · przykład eksploracji danych case 1.x...
TRANSCRIPT
Przykład eksploracji danychCase 1.X
JERZY STEFANOWSKI
TPD – Zaawansowana eksploracja danychedycja 2009/2010
Plan
1. Przykładowe studium przypadki
2. Analiza opisu przypadku
3. Ustalenie celu analizy i scenariusza postępowania
4. Ocena poprawności danych – „czyszczenie”
5. Badanie jakości danych (współzależność)
6. Ocena ważności atrybutów
7. Odkrywanie wiedzy klasyfikacyjnej
1. Różne podejścia
2. Ocena zdolności klasyfikacyjnej
3. Możliwości interpretacji wiedzy
8. Wymagania do sprawozdania
Analiza diagnostycznej bazy danych
Problem dotyczy analizy stanu technicznego autobusów używanych przez jedno z przedsiębiorstw w Polsce.
Analiza diagnostycznej bazy danych
• Bada się stan techniczny 80 autobusów tego samego typu (dokładnie ich silników) na podstawie symptomów stanu technicznego - parametrów pochodzących z okresowych badań diagnostycznych • Pierwsza klasyfikacja D1: autobusy są podzielone na dwie klasy:
dobry i zły stan techniczny pojazdu• Możliwa jest druga klasyfikacja D2 + stan przejściowy
• Cel analizy• Ocenia się jakość diagnostyczną symptomów stanu technicznego
• (pośrednio ocena przydatności tzw. wartości granicznych)
• Ocena ważności poszczególnych symptomów • Ewentualność rankingu lub selekcji
• Poszukuje się zależności pomiędzy wartościami najistotniejszych w tych symptomów a przydziałem do klas
• Konstruuje się klasyfikator stanu technicznego
Oryginalny format danych (isf)
Analiza nagłówka
80 obserwacji (autobusów) 8 atrybutów
max speed km/hCompresion preasure Mpablacking components in exhaust gas [%]torque Nmsummer fuel consumption l/100kmwinter fuel consumption l/100kmoil consumption l/1000kmmax horesepower kM
D1: [1,2] | technical conditions of a vehicle: 1 - good, 2 - badD2: [1,2,3]
Wartości graniczne symptomów
Ogląd wczytanych danych
Ocena jakości – statystyki podstawowe
Statistica – descriptive statistics
Raport podstawowych statystyk opisowych
Przeanalizujmy podstawowe miary
Spójrzmy dokładniej na wybrane atrybuty
Np. moment obrotowy (porównaj z definicją dziedziny)
Poszukiwanie źródła trudności
Spojrzenie na arkusz z danymi
Spójrz do oryginalnego pliku
Poprawki w pliku
Przesunąć wpis wiersza id. 80zapisy ? – wartości średnie w klasie decyzyjnej
Symbol spoza dziedziny „n” pewnie niesprawne autobusy – kod 2
Zmiany statystyk opisowych
218? Problem jest z separatorem „ ,”218 → 21,8
Sprawdzenie mocy silnika (horsepower)
Spojrzenie na rozkłady
Analiza współzależności
Macierz korelacji
Powiązanie pewnych symptomów
Można zrobić wykresy korelacyjne (rozrzutu XY)
Wiedza dziedzinowaciśnienie sprężania powiązane jest z momentem obrotowym, im większe ciśnienie tym większy można uzyskać moment obrotowy,moment obrotowy powiązany jest z mocą pojazdu,zawartość elementów smołowatych i zużycie oleju świadczyć może owieku silnika i jego stanie technicznym,Mniejsza użyteczność info. o zużyciu paliwa (warunki, styl jazdy,..)
horsepow er(torque)
90100110120130140150160
395 415 435 455 475
Torque
Horsepo
wer
WEKA –visualize
Select attributes z WEKA
Relief (ważność z wagowaniem k-NN)
Statistica – Data Miner
CART - tree
Przeglądanie węzłów drzewa (dec 1)
Skategoryzowane histogramy
Wykresy histogramowe (skategoryzowane)
Podejście teorii zbiorów przybliżonych
Dyskretne dane + teoria zbiorów przybliżonychHierarchia ważności symptomów dla klasyfikacji autobusów
• Można ustalać względna ważność symptomów dla klasyfikacji przykładów - przykładowa hierarchia ważności s8, s1, s3, s4 inne mniej istotne - analiza statystyczna
• w przypadku dyskretyzacji dziedzin wartości w oparciu o normy możliwe ustalenie podzbiorów zredukowanych {s2,s3,s8}, {s2,s3,s4}, {s1,s2} - teoria zbiorów przybliżonych
• Notacja s1 – prędkość maksymalna
Drzewo J4.8 (WEKA)
C4.5 z trochę innymi parametrami
Algorytm MODLEM
Ripper – alternatywne podejście do indukcji reguł
Podsumowanie klasyfikatorów
Dość efektywny klasyfikatorTrafności około 97-98%Rozpoznawanie trudniejszej klasy 90%
Klasyfikatory symboliczne porównywalne do niesymbolicznych:
MLP BP – 97,37%SVM – 97,37% (klasa n 0,93)RBF – 93,27%IBL (3) – 97,37%J4.8 – 98,68%
Można dokonać oceny wiedzy symbolicznejPodobną analizę warto przeprowadzić dla drugiej klasyfikacji.
Trudności pomiaru → alternatywne reprezentacje wiedzy klasyfikującej
Ciśnienie sprężania → najtrudniejsze do pomiaru
Pomijanie trudnych atrybutów (- ciśnienie sprężania)
Maskujmy dalsze atrybuty
Jeszcze inne możliwości
Dalsze maskowania atrybutów w drzewie prowadzą do niższych trafnościJakie jeszcze metody oferują symboliczną reprezentacje wiedzy?Jak stworzyć profil/charakterystykę autobusu należącego do określonej klasy stanu technicznego?
Minimalny zbiór reguł klasyfikujących (MODLEM)
1. if (s2≥2.4 MPa) & (s7<2.1 l/1000km) then(technical state=good) [46]
2. if (s2<2.4 MPa) then (technical state=bad) [29]
3. if (s7≥2.1 l/1000km) then (technical state=bad) [24]
Oszacowana trafność klasyfikowania(‘leaving one out’ test) 98.7%.
Explore algorithm (Stefanowski, Vanderpooten)
Inny cel poszukiwania regułto extract from data set inducing all rules that satisfy some user’s requirements connected with his interest (regarding, e.g. the strength of the rule, level of confidence, length, sometimes also emphasis on the syntax of rules).
Special technique of exploration the space of possible rules:Progressively generation rules of increasing size using in the most efficient way some 'good' pruning and stopping condition that reject unnecessary candidates for rules.
Similar to adaptations of Apriori principle for looking frequent itemsets [AIS94]; Brute [Etzioni]Więcej: J.Stefanowski, D.Vanderpooten: Induction of decision rules in classification and discovery-oriented perspectives, International Journal of Intelligent Systems, vol. 16 no. 1, 2001, 13-28.Lub monografia J.Stefanowski: Algorytmy indukcji regul decyzyjnych w odkrywaniu wiedzy => patrz http://www.cs.put.poznan.pl/jstefanowski/jspspdf.html
Poszukiwanie zbioru reguł silnych (EXPLORE)
Próg satysfakcji (51%): 1. if (s1>85 km/h) then (technical state=good) [34]
2. if (s8>134 kM) then (technical state=good) [26]
3. if (s2≥2.4 MPa) & (s3<61 %) then (technical state=good) [44]
4. if (s2≥2.4 MPa) & (s4>444 Nm) then (technical state=good) [44]
5. if (s2≥2.4 MPa) & (s7<2.1 l/1000km) then (technical state=good) [46]
6. if (s3<61 %) & (s4>444 Nm) then (technical state=good) [42]
7. if (s1≤77 km/h) then (technical state=bad) [25]
8. if (s2<2.4 MPa) then (technical state=bad) [29]
9. if (s7≥2.1 l/1000km) then (technical state=bad) [24]
10. if (s3≥61 %) & (s4≤444 Nm) then (technical state=bad) [28]
11. if (s3³61 %) & (s8<120 kM) then (technical state=bad) [27]
Możliwość dodatkowego ograniczaniaInteractive ExploreSterowanie procedurą poszukiwania reguł decyzyjnych za pomocą następujących parametrów :
ustalenie atrybutu decyzyjnego i jego klas decyzyjnych,zbiór preferowanych i zakazanych atrybutów warunkowych,zbiór preferowanych i zakazanych warunków elementarnych, preferowany warunek złożony (część przesłanki), zbiór zakazanych warunków złożonych,maksymalna wielkość zbioru znalezionych reguł,minimalne wsparcie reguły,maksymalna długość reguły,minimalny stopień dyskryminacji (dokładność) reguły.
Sterowanie wyborem
Interactive Explores
Przeglądanie zbioru reguł
Wymagania do sprawozdania
Krótki opis problemu (raczej Twoje zrozumienie + cele postawione przez klienta)Informacje o danychScenariusz metodycznyWstępna ocena danych i ew. czyszczenieAnaliza statystyk opisowych / korelacji itp./Ocena ważności atrybutów
RankingEw. selekcja / redukcja
Podsumowanie wiedzy klasyfikacyjnejNie tylko trafnościPróba interpretacji reprezentacji wiedzy
Wnioski dla klienta
Źródło danych do problemu
Dane zebrane przez dr hab. inż. J.Żak Wydziału maszyn Roboczych i Pojazdów Politechniki PoznańskiejJ. Żak, J. Stefanowski. Determining maintenance activities of motor vehicles using rough sets aproach. In Precedings of Euromaintenance’94 Conference. Amsterdam 1994, 39 – 42.
O jakie autobusy chodziło
Autosan H9-21(prototyp 1969, produkowany lata 73-84) w Sanockiej Fabryce Autobusów .
Podstawowy model autobusu międzymiastowego PKS w poprzednim okresie