od rozhodovacích stromov k náhodným lesom
DESCRIPTION
Od rozhodovacích stromov k náhodným lesom. Peter Angelovič. Školiteľ: prof. Ing. Vladimír Vojtek, PhD. Ústav aplikovanej informatiky Fakulta informatiky a informačných technológií STU. Obsah. Charakteristika a typy predikčných úloh Predikčné metódy Rozhodovacie stromy Bagging a Boosting - PowerPoint PPT PresentationTRANSCRIPT
Od rozhodovacích stromov k náhodným lesom
Peter Angelovič
Školiteľ: prof. Ing. Vladimír Vojtek, PhD.Ústav aplikovanej informatikyFakulta informatiky a informačných technológií STU
Obsah
• Charakteristika a typy predikčných úloh
• Predikčné metódy– Rozhodovacie stromy– Bagging a Boosting– Náhodné lesy
• Optimalizácia náhodných lesov
Typy predikčných úloh
• Charakteristika predikčnej úlohy– Každý objekt je tvorený množinou atribútov– Predpoveď neznámeho atribútu na základe
známych hodnôt ostatných atribútov– Uprednostňuje sa presnosť pred
zrozumiteľnosťou získaných znalostí
• Typy úloh– Klasifikácia– Regresia– Predikcia časových radov – predikcia,
predpoveď
Definícia klasifikácie
• Majme množinu objektov O = {O1,O2,…,Ok}
• Oi = {a1,a2,…,am}, aj j-ty atribút
• Majme množinu tried C = {C1,C2,…,Cn}
• Klasifikátor je zobrazenie K
COK :
• Majme T O, známa príslušnosť k triedam• Majme D O, neznáme triedy• Klasifikačná úloha:
– Zostavenie klasifikátora K nad množinou T– K priradí triedu každému objektu z D
Definícia predikcie
• Majme časový rad S={ S(1), S(2), ..., S(k)}
• S(j) = {a1, a2, …, am}
• S(1), S(2), ..., S(k) S(k+1)• Prediktor je zobrazenie P
: ( 1)P S k S
• Predikčná úloha– Zostavenie prediktora P nad množinou T– P priradí numerickú hodnotu každému príkladu z D
Rozhodovacie stromy
• Založené na princípe rozdeľuj a panuj• Prvky rozhodovacích stromov
– Medziľahlý uzol tvorí test– Hrana je výsledok tohto testu– List reprezentuje triedy, numerické
hodnoty, lokálne modely
a1 < 1200
a2 > 150 a4 < 825
a3 < 300 C B
BA
A
+_
+
+
_
_
_+
Indukcia rozhodovacích stromov
• Top Down Induction of Decision Trees:– Všetky príklady sa priradia rodičovskému uzlu– Uzol sa stáva listom ak sú všetky príklady z
jednej triedy– Inak sa vyberie atribút, ktorý najlepšie rozdelí
príklady – stane sa testom pre vetvenie– Vytvoria sa vetvy a pre každú sa zostaví
podmnožina príkladov– Postup sa rekurzívne opakuje
• Všetky príklady v danom uzle patria do jednej triedy• Všetky atribúty pre vetvenie už boli vyčerpané• V uzle už nie sú žiadne príklady
• Dôležité je kritérium vetvenia
Algoritmy rozhodovacích stromov
• Kritérium vetvenia – ENTROPIA - miera neurčitosti príkladov v danom uzle
• Algoritmus ID3– Klasifikačné úlohy– Kritérium: INFORMAČNÝ ZISK (opak entropie)– Pracuje iba s nominálnymi atribútmi– Uprednostňuje atribúty s veľkým počtom hodnôt
• Algoritmus C4.5– Klasifikačné úlohy– Kritérium: POMERNÝ INFORMAČNÝ ZISK– Dokáže pracovať s numerickými atribútmi– Odstraňuje nevýhodu ID3– Orezávanie stromov – predchádza preučeniu
Algoritmy regresných a modelových stromov
• Klasifikačný a regresný strom CART– Klasifikačné aj regresné úlohy– Kritérium: GINI INDEX– Pracuje s nominálnymi a numerickými atribútmi– V listoch sú buď triedy alebo numerické hodnoty– Výsledný strom býva rozsiahly a neprehľadný
• Algoritmus M5– Regresné úlohy– Kritérium: REDUKCIA ŠTANDARDNEJ ODCHÝLKY– V listoch sú lineárne modely– Zvýšenie presnosti – orezávaním, vyhladzovaním
• Algoritmus M5’– Rozšírenie M5– Práca s chýbajúcimi hodnotami atribútov
Boosting a Bagging
. . .Dáta
Nový príklad
C1
C2
CT
C* Klasifikácia
Princíp techník Boosting a Bagging
Boosting a Bagging
• Zostavenie viacerých rozhodovacích stromov
• Výsledok predikcie je agregáciou všetkých stromov
• Boosting– Každému príkladu sa priradí váha– Chybne predikovaným príkladom sa váha mení– Presnosť prediktora je úmerná počtu správne
predikovaných hodnôt
• Bagging– Vytvorí sa T trénovacích množín technikou bootstrap– Pre každú množinu sa zostaví samostatný prediktor
Náhodné lesy
• Náhodný les– Kolekcia stromov– Výsledok je agregáciou výsledkov jednotlivých
stromov
• Princíp:1. Vytvorenie N trénovacích množín metódou bootstrap2. Zostavenie stromu pre každú trénovaciu množinu3. Predikcia výstupnej hodnoty pre neznámy príklad
• Atribút pre vetvenie: z náhodne vybraných atribútov
• Sú odolné voči preučeniu• Nepotrebujú validačnú množinu
Vlastnosti náhodných lesov
• Jednoduchý princíp• Odolnosť voči preučeniu• Dobrá paralelizovteľnosť• Lepšie výsledky ako boosting alebo
bagging• Odolnosť voči šumu• Možnosť výpočtu chyby
generalizácie, výpočet korelácie a sily prediktora
Optimalizácia náhodných lesov
• Optimalizácia pomocou EA– Počet stromov v lese– Počet atribútov pre vetvenie– Typ funkcie pre kritérium vetvenia– Výber príkladov pre zostavenie trénovacej
množiny
• Optimalizácia pomocou NS– NS ako lokálne modely v listoch– NS ako agregačná funkcia jednotlivých
stromov
Ďakujem za pozornosť