leniv É uČenie
DESCRIPTION
LENIV É UČENIE. doc. Ing. Kristína Machová, CSc. k ristina. m achova @tuke.sk people.tuke.sk/kristina.machova/. O SNOVA:. Extenzionálna reprezentácia Reprezentácia a použitie Indukcia reprezentácie Algoritmus kNN Metriky podobnosti. EXTENZIONÁLNA REPREZENTÁCIA. - PowerPoint PPT PresentationTRANSCRIPT
OSNOVA:
Extenzionálna reprezentácia Reprezentácia a použitie Indukcia reprezentácie Algoritmus kNN Metriky podobnosti
EXTENZIONÁLNA REPREZENTÁCIA
Lenivé učenie učí extenzionálnu reprezentáciu Flexibilná reprezentácia znalostí Pojem je reprezentovaný množinou
trénovacích príkladov Predstavuje takzvané funkcionálne učenie Tnp = f(Ttp1, ... , TtpN) Nezáleží na počte tried Klasifikácia môže byť dvojtriedna aj multitriedna
Poznámka:Tnp … trieda nového príkladu (klasifikovaného)Ttpi ... trieda i-tého trénovacieho príkladu
EXTENZIONÁLNA REPREZENTÁCIAV kontexte reprezentačných schém
REPREZENTÁCIA A POUŽITIE
Reprezentácia: Množina trénovacích príkladov spolu s
informáciou o triede príkladu
Použitie: Nový TP je klasifikovaný do triedy, ktorá sa
najčastejšie vyskytuje v jeho okolí. Okolie príkladu je reprezentované najbližšími
susedmi. Blízkosť je chápaná v zmysle podobnosti.
NEINKREMENTÁLNA INDUKCIA
kNN – k Nearest Neighbours Navrhnutý Mitchelom v roku 1997 Klasifikátor uchováva v pamäti všetky trénovacie príklady Umožňuje multitriednu klasifikáciu Zvláda zašumené domény
ALGORITMUS kNN
Klasifikácia prebieha v troch krokoch.1. V cykle sa vyberie i-tý trénovací príklad z TM.2. Novému príkladu sa priradí kategória k najbližších TP3. Ak sú klasifikované všetky príklady, potom koniec.
Najbližší susedia sú určovaní v zmysle maximálnej podobnosti, resp. minimálnej vzdialenosti.
V najjednoduchšom prípade (1NN) je TP priradená kategória jedného najbližšieho suseda.
V prípade nejednoznačnosti priradenia sa rekurzívne realizuje (k-1)NN kým nie je dosiahnutý úspech,
alebo k=1.
ALGORITMUS kNN
Výpočtová náročnosť je daná počtom určovanýchpodobností klasifikovaného TP k ostatným z TM.
Pamäťová náročnosť je podmienená nutnosťou uchovávať všetky TP v pamäti.
Výskyt irelevantných atribútov (všetky sa podieľajúna výpočte vzdialenosti) môže ovplyvniť presnosťklasifikácie.
METRIKY PODOBNOSTI
Slúžia na výpočet vzdialenosti, resp. podobnosti dvoch TP,(reprezentovaných vektormi s numerickými hodnotami).Najčastejšie používané: Kosínusová metrika podobnosti
Kosínusová metrika vzdialenosti
d
i
d
iii
d
iii
yx
yxyxCosSim
1 1
22
1),(
),(),( yxCosSimeyxCosDist
METRIKY PODOBNOSTI
Ďalšie často používané: Euklidova metrika (metrika L2)
Druhá mocnina Euklidovej metriky
d
iii yxyxsqEucl
1
2)(),(
d
iii yxyxEucl
1
2)(),(
METRIKY PODOBNOSTI
Ďalšie metriky: Manhattanova metrika (cityblock metrika, metrika L1)
Čebyševova metrika (maximová metrika, L∞ metrika)
d
iii yxyxManhyxdist
1
),(),(
iidi yxyxL 1max),(
METRIKY PODOBNOSTI
Ďalšie metriky: Minkovského metrika (metrika L) – kde pre λ=2
dostaneme Euklidovu a pre λ=∞ Čebiševovu metriku
Canberra metrika
d
iii yxyxMink
1
)(),(
d
i ii
ii
yx
yxyxCanbera
1
),(