systemy uczące się – studium porównawcze
DESCRIPTION
Systemy Uczące się – studium porównawcze. Marek Kozłowski [email protected]. Pielgrzymem być . To nie droga jest trudnością… to trudności są drogą. Plan prezentacji. Systemy uczące – wprowadzenie Definicja Motywacja do badań Zastosowania - PowerPoint PPT PresentationTRANSCRIPT
Systemy Uczące się – studium porównawcze
Marek Kozł[email protected]
Pielgrzymem być
To nie droga jest trudnością… to trudności są drogą
Plan prezentacji
Systemy uczące – wprowadzenie Definicja Motywacja do badań Zastosowania
Systemy uczące w teorii – taksonomia Klasyczne kryteria + nowe kryteria
Systemy uczące w praktyce – IDS Testowanie algorytmów
Doskonalenie działania systemów uczących Data preprocessing Hybrydowe rozwiązania
Budowanie definicji uczenia się
Podstawowe elementy uczenia się: zmiana – np. zmiana parametrów, zmiana
reprezentacji wiedzy itd.. poprawa – zwiększenie skuteczności, sprawności
systemu w wypełnianiu jego funkcji. Zakładamy przy tym, iż dla każdego systemu istnieje możliwość oceny jakości jego działania.
autonomiczność – system, który się uczy sam zmienia się na lepsze (a nie jest zmieniany przez kogoś lub coś na zewnątrz niego)
doświadczenie – obserwacje lub otrzymywane informacje związane z jego funkcjami, których poprawa sprawności wykonywania jest zewnętrznym znamieniem uczenia się.
Definicja systemu uczącego się
System uczący się to taki system, w którym na podstawie doświadczeń zachodzą autonomiczne zmiany prowadzące do poprawy jakości jego działania.
Definicja powyższa jest nieostra (trudno dokonać oceny autonomiczności zmian a jeszcze gorzej z rozstrzyganiem czy nastąpiły na podstawie doświadczeń), co jednak nie tyle świadczy o mankamentach definicji co raczej o naturalnej nieostrości pojęcia uczenia się.
Motywacja do uczenia się
Powody, dla których badania nad systemami uczącymi się mają sens i są godne zainteresowania: dla naprawdę złożonych zadań trudno jest sformułować
wprost ustalone, pełne algorytmy ich rozwiązywania (niedeterminizm i zmienność środowiska działania programu).
inteligentne systemy w wielu zastosowaniach powinny być w maksymalnym stopniu autonomiczne.
zbiory dostępnych danych, pochodzących z pomiarów, obserwacji itp. są zbyt duże i skomplikowane aby wyszukiwać w nich zależności w sposób niezautomatyzowany.
Kryteria porównawcze systemów uczących się
Metoda reprezentacji wiedzy lub umiejętności
Sposób używania wiedzy lub umiejętności
Źródło i postać informacji trenującej Mechanizm nabywania i doskonalenia
wiedzy lub umiejętności
Reprezentacja wiedzy
Metoda reprezentacji wiedzy często wynika z algorytmu uczenia,
który wybieramy. Wśród najczęściej stosowanych są drzewadecyzyjne, reguły, formuły logiki predykatów, rozkładyprawdopodobieństw i automaty skończone.
Często stosowane jest też tradycyjne rozróżnienie na reprezentacje:
Symboliczne - struktury, przechowujące informacje o charakterze symbolicznym, czyli zorganizowane w pewien sposób napisy, którym można przypisać interpretację.
Taka reprezentacja jest czytelna dla człowieka. Subsymboliczne – są to zbiory liczb lub łańcuchy
binarne, które łącznie reprezentują pewną wiedzę, lecz wiedza ta nie może być bezpośrednio wyrażona w postaci zrozumiałej dla człowieka.
Sposób używania wiedzy
Sposób używania wiedzy jest na ogół determinowany przez metodę reprezentacji wiedzy i cel, czyli stojące przed
systememzadanie.Do najbardziej typowych zadań należą: Klasyfikacja – ustalenie przynależności obiektów do
kategorii Aproksymacja – odwzorowanie obiektów na zbiór liczb
rzeczywistych Grupowanie – samodzielne tworzenie kategorii w
oparciu o podobieństwoDo mniej typowych należą: Sekwencyjne podejmowanie decyzji Modelowanie środowiska Przedstawienie zebranej wiedzy w czytelny dla
użytkownika sposób
Informacja trenująca
Klasyczny podział: Uczenie z nadzorem – uczeń otrzymuje informację
określającą pożądane odpowiedzi dla pewnego zbioru wektorów wejściowych jako przykłady zachowania jakie się od niego oczekuje
Uczenie się bez nadzoru – instruktażowa informacja trenująca nie jest dostępna, podawane są jedynie wektory wejściowe i uczeń ma się nauczyć właściwych odpowiedzi wyłącznie obserwując ich sekwencje.
Mechanizm nabywania wiedzy
Mechanizm, zgodnie z którym dokonuje się nabywania lub doskonalenia wiedzy, jest najczęściej wyznaczany
jednoznacznieprzez metodę reprezentacji wiedzy oraz postać informacjitrenującej. Indukcja – uogólnianie jednostkowej informacji
trenującej w celu uzyskania ogólnej wiedzy Dedukcja - dojście do określonego wniosku na
podstawie wcześniej określonego zbioru prawdziwych przesłanek
EBL – explanation based learning – informacja trenująca nie jest uogólniana, ale służy do konkretyzacji wiedzy wrodzonej
Analogical reasoning
Fundamenty Machine Learning
Teoria prawdopodobieństwa – aparat do analizy algorytmów uczenia, podstawa mechanizmów wnioskowania probabilistycznego
Teoria informacji – decyduje o wyborze hipotezy, na problem indukcyjnego uczenia się patrzymy jak na problem odpowiedniego kodowania informacji trenującej
Logika formalna – podstawa wielu symbolicznych metod reprezentacji wiedzy, bezpośrednie zastosowanie w EBL i indukcyjnym programowaniu logicznym
Statystyka – wykorzystywanie narzędzi statystycznych do analizy danych trenujących i wyciągania wniosków przydatnych w procesie uczenia (charakteryzowanie błędów, testy statystycznej wiarygodności hipotez)
Fundamenty Machine Learning
Teoria sterowania – sterowanie adaptacyjne (nie znamy modelu sterowanego obiektu, dopuszcza się jego zmienność w czasie), pewne wyniki teorii sterowania inspirują badania nad systemami uczącymi( uczenie ze wzmocnieniem)
Psychologia – korzenie psychologiczne ma uczenie ze wzmocnieniem (wartościująca informacja trenująca przypomina badania nad uczeniem się zwierząt)
Neurofizjologia – subsymboliczne systemy uczące się (sieci neuronowe)
Zastosowania systemów uczących się Odkrycia w bazach danych (Data Minning) –
najczęstsze rozwiązanie to : komunikacja z relacyjną bazą i poszukiwanie w przechowywanych rekordach zależności. Np.: ocena wiarygodności klientów w bankach, diagnostyka medyczna.
Inteligentne sterowanie – uczenie się modelu zachowania sterowanego obiektu, który jest następnie używany do znalezienia strategii sterowania
Robotyka – adaptacyjność pozwalająca na przezwyciężenie takich problemów jak złożoność, niepewność i zmienność środowiska. Np.: roboty przemysłowe, eksploracyjne.
Inżynieria oprogramowania – konstruowanie inteligentnych interfejsów użytkownika – programowanie przez demonstrację, szacowania czasochłonności i zasobów, diagnostyka błędów oprogramowania
Zastosowania systemów uczących cd
Wykrywanie nadużyć – program uczący się, który na podstawie analizy historycznych danych dotyczących dobrych i złych autoryzacji/transakcji określi pewne cechy pozwalające na maksymalnie wiarygodne ich odróżnienie np. włamania w sieciach wewnętrznych, rozmowy na cudzy rachunek, transakcje na rachunkach bankowych.
Klasyfikowanie dokumentów oraz innych zasobów sieci WWW – zautomatyzowane metody klasyfikacji i filtrowania
Nawigacja w środowisku biurowym – ruchome roboty pozwalające na sprawne poruszanie się po wielopiętrowych budynkach z sieciami korytarzy.
IDS – intrusion detection systems
Systemy wykrywania włamań – mechanizm nadzorowania bezpieczeństwa pozwalający na wykrywanie nieautoryzowanych dostępów do systemów lub sieci. IDS jest zdolny do wykrywania wszystkich typów wrogiego ruchu sieciowego i użycia komputerów.
Przykłady wykrywanych nadużyć: Ataki sieciowe na rożnego rodzaju podatne usługi Data-driven attacks – wirus zakodowany w niewinnie
wyglądających danych Host-based attacks – privilege escalation,
nieautoryzowane logowania Malware – trojany, dialery, backdoor i wiele innych…
Podział IDS Misuse Detection Systems –
wykrywanie oparte o sygnatury ataków Anomaly Detection Systems –
wykrywanie oparte o indentyfikacje odchyleń od normalnego działania
Compound Detection Systems – systemy hybrydowe
Ontology Detection Systems – wykorzystanie silnych ontologii zamiast prostych taksonomii
Podział IDS – Misuse Detection
Misuse Detection – wykrywanie włamań oparte na predefiniowanym zbiorze sygnatur ataków.
Przeglądając wyspecyfikowane wzorce nadużyć system porównuje nadchodzące pakiety lub sekwencje komend do sygnatur znanych ataków.
Wiedza wbudowana o ataku jest konfrontowana ze śladami jakie zostawia intruz w systemie.
Wzorce ataków są najczęściej przechowywane w odpowiednio pogrupowanych zbiorach reguł, lub w postaci diagramów przejść.
Misuse Detection - cd
Zalety: Wysoka skuteczność wykrywania znanych
ataków Rozpoczyna ochronę zaraz po
zainstalowaniuWada: Kłopoty z sygnaturami obejmującymi wiele
pakietów Konieczność stałego updatowania bazy
sygnatur Każdy atak, a nawet jego specjalizacja
wymaga odpowiedniego wzorca w bazie
Podział IDS – Anomaly Detection
Anomaly Detection – najpierw tworzy bazowy profil normalnej systemowej lub sieciowej aktywności. Następnie każde działanie odbiegające istotnie od profilu traktuje jako możliwe włamanie.
Zalety: Możliwość wykrywania wewnętrznych nadużyć System oparty na pełnej personalizacji profili, tym
samym brak wspólnych słabych punktów Zdolność do wykrywania dotąd nieznanych atakówWady: występowanie fazy tworzenia „normalnego
profilu”, wysoki współczynnik „false alarms”
Anomaly detection cd.
Można wyróżnić dwie fazy: Treningu – formułowanie normalnego profilu Testowania – weryfikacja nauczonego profilu z
napływającymi danymiEfekty działania Anomaly Detection:1. Intrusive but not anomalous – FalseNegatives2. Not intrusive but anomalous – FalsePositives3. Not intrusive and not anomalous –
TrueNegative4. Intrusive and anomalous - TruePositive
Podział IDS – Compound Detection
Compound Detection – jest połączeniem techniki sygnaturowej z wykrywaniem anomalii.
Hybrydowość przejawia się w mechaniźmie decyzyjnym, który bazuje na analizie normalnego zachowania systemu i jednoczesnym badaniu znanych wzorców włamań.
Anomaly detection pomaga w wykrywaniu nowych, nieznanych ataków, podczas gdy misuse detection wykrywa znane nadużycia, oraz próby „złego wytrenowania” systemu.
Zalety: znacznie redukuje liczbę „false alarms” (FP) rośnie automatycznie też liczba positive alarms (TP)
Podział IDS – Ontology detection
Ontologia jest to katalog typów rzeczy, które zakłada sie, że istnieją w rozważanej domenie D z perspektywy osoby, która używa języka L do opisu D [Sowa, 2000].
Ontologia dostarcza zbioru termów i relacji, przy pomocy których można zamodelować dziedzinę dla ktorej budujemu IDS aplikacje.
Wyrażanie IDS w kontekście pojęć zrozumiałych dla zwykłego użytkownika – większa intuicyjność
Tworzenie IDS staję się prostsze – z wiedzy zawartej w ontologii dziedziny można wyprowadzić niskopoziomowe właściwości
Inteligentne wnioskowanie – wykorzystanie relacji między obiektami na bazie struktury ontologii
KDD Cup 99 W 1998 DARPA(Defense Advanced Research Projects
Agency) zleciła MIT Lincoln Labs opracowanie programu oceny wykrywania włamań
Lincoln Labs stworzył środowisko, które przez 9 tygodni zbierało surowe dane TCP z lokalnej sieci symulujące U.S. Air Force LAN, która poddana była wielkiej ilości ataków
Surowe dane treningowe 6GB skompresowanych binarnych danych TCP = 7 mln połączeniowych rekordów
Połączenie jest sekwencją TCP pakietów zaczynających się i kończących w ściśle określonych momentach czasu (pomiędzy którymi dane przepływają do i z źródłowego adresu IP do docelowego adresu)
KDD Cup 99 cd Połączenia jest reprezentowane za pomocą rekordów
połączeniowych, gdzie każdy jest etykietowany jako normalny lub atak (z podaniem określonego typu ataku)
Każdy połączeniowy rekord składa się z około 100 bajtów Ataki są zaliczane do jednej z 4 kategorii: DOS (denial of
service), R2L (unauthorized access from remote machine), U2R (unauthorized access to local superuser) i Probing (próbkowanie/skanowanie portów)
Dane testowe nie pochodzą z tego samego rozkładu probabilistycznego jak dane treningowe – zawierają specyficzne ataki, których nie ma w danych treningowych
KDD Cup 99 – rekord połączeniowy
W celu rozróżnienia połączeń normalnych od nadużyć zostały zdefiniowane wysokopoziomowe cechy:
Cechy typu „same host” – badają tylko połączenia z ostatnich 2 sekund, które mają ten sam docelowy host jak aktualne połączenie
Cechy typu „same service” – badają tylko połączenia z ostatnich 2 sekund, które mają tą samą usługę co aktualne połączenie
Cechy oparte na hoście – w oparciu o okno 100 połączeń do tego samego adresu
Cechy oparte na wiedzy ekspertów (content features) – podejrzewane zachowania w porcjach danych np. number of failed
login attempts Przykładowy rekord
0,tcp,http,SF,334,1684,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,9,0.00,0.00,0.00,1.00,0.00,0.33,0,0,0.00,0.00,0.00,0.00,0.00,0.00,normal
Eksperyment praktyczny
Wybrałem 3 klasyczne algorytmy uczenia: Naive Bayes, Bayesian Net, ID3 (C.4.5)
Zbiór danych testowych – KDD Cup 99 Rola preprocessingu w uczeniu –
feature selection Dokładność klasyfikacji vs szybkość
działania Hybrydowość pomiędzy algorytmami
Stosowane algorytmy uczenia
ID3 – drzewa decyzyjne – w każdym węźle umieszczony jeden atrybut, każda krawędź jest etykietowana jedną z
możliwych wartości atrybutu rodzica, liściem jest wartość ze zbioru kategorii
Naive Bayes –
Bayesian Net – skierowany acykliczny graf, w którym wierzchołki reprezentują zdarzenia, a łuki związki przyczynowe pomiędzy zdarzeniami
Preprocessing - Feature reduction
Metody redukcji cech polegają na ograniczaniu zbioru atrybutów do najbardziej istotnych w procesie klasyfikacji:
Filter – uniwersalne metody oparte na specyficznych metrykach do oceny i wyboru cech np. CorrelationFS, ConsistancyFS
Wrapper – ocenia jakość atrybutów używając konkretnego algorytmu ML (tak otrzymany zbiór cech jest szyty pod dany alg.uczenia np. ID3)
Feature reduction Correlation Based Feature Evaluator – algorytm
dokonujący oceny jakości kolejnych podzbiorów cech używający heurystyki oceny korelacji między cechami oraz kategorią. Wysokie noty są przypisywane do zbiorów, które charakteryzują się wysokim skorelowaniem z kategorią a niską wewnętrzną korelacją.
Do generowania podzbiorów cech można używać wielu algorytmów przeszukiwania np: genetic search, random, race search, best first czy greedy.
Używam Best first search – tworzy nowe zbiory bazując na dodawaniu lub usuwaniu cech. Zdolność do nawracania aby odkrywać nowe mozliwości, gdy obecna ścieżka nie daje żadnej poprawy.
Feature reduction Zastosowanie CFS + forward best
first search zoptymalizowało zbiór cech z 41 do 17.
Mniejsza liczba cech to szybsza realizacja budowy modelu i jego użycia do klasyfikacji.
Z drugiej strony takie dość znaczne ograniczenie zbioru atrybutów musi wpływać na dokładność klasyfikacji?
Dokładność klasyfikacjiBadanie dokładności klasyfikacji dla pełnych i
ograniczonych cech
70
75
80
85
90
95
100
C.4.5 B.Net N.Bayes
klasyfikatory
do
kład
no
ść
Full
CFS
Szybkość klasyfikacji Badanie szybkości klasyfikacji zadanego zbioru
testujacego
0
0,2
0,4
0,6
0,8
1
1,2
C.4.5 B.Net N.Bayes
klasyfikatory
szyb
kość
Full
CFS
Szybkość budowania modelu
Badanie szybkości budowania klasyfikatora
0
0,2
0,4
0,6
0,8
1
1,2
C.4.5 B.Net N.Bayes
klasyfikatory
czas
bu
do
wan
ia m
od
elu
Full
CFS
Hybrydowe rozwiązania
Scalanie algorytmów uczenia w ramach tej samej techniki uczenia np. Naive Bayes + ID3 + indukcje reguł Podejście wagowe – wagami są
indywidualne średnie dokładności klasyfikacji specyficznych zbiorów przykładów
Scalanie różnych technik uczenia – indukcja + dedukcja
Dziękuję za uwagę ->
Przecież i ja ziemi tyle mam,Ile jej stopa ma pokrywa,
Dopókąd idę!...
C.Norwid „Pielgrzym”