random forests - véletlen erdok · 2 japán 6-10 dízel piros 1600 felett igen 3 japán 3-6 dízel...

61
sztaki-logo Alapok Véletlen erd ˝ ok építése A véletlen erd ˝ ok jó tulajdonságai Kiértékelés Random Forests - Véletlen erd˝ ok Szabó Adrienn Adatbányászat és Webes Keresés Kutatócsoport 2010

Upload: others

Post on 08-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Random Forests - Véletlen erdok

Szabó AdriennAdatbányászat és Webes Keresés Kutatócsoport

2010

Page 2: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

TartalomFo forrás: Leo Breiman: Random Forests

Machine Learning, 45, 5-32, 2001Alapok

Döntési faVéletlen erdok

Véletlen erdok építéseNem formálisanFormálisanVéletlen erdo típusok

A véletlen erdok jó tulajdonságaiBelso becslések

KiértékelésKlasszifikációTovábbi eredményekRegresszió

Page 3: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Amibol építkezni fogunk: döntési faAz egyes attribútumok értékei alapján a mintákathierarchikusan csoportosítjuk. A levelek: osztálycímkék.

ID Gyártás helye Kor Motor Szín ccm Jól eladható?

1 Németo. 3-6 dízel fehér 1300-1600 igen

2 Japán 6-10 dízel piros 1600 felett igen

3 Japán 3-6 dízel piros 1300-1600 nem

Page 4: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Döntési fa

• A jó döntési fa: példákkal konzisztens, minél tömörebb(leheto legkevesebb teszttel döntésre jussunk)

Hogyan építsük fel?• Legegyszerubb az ID3 algoritmus:

a gyökértol kezdve építjük a fát, mohó módon mindig úgyválasszunk döntési attribútumot egy csúcspontban, hogyaz információnyereség ( IG(S,a) = H(S)− H(S|a) )maximális legyen

• Továbbfejlesztés: Information Gain helyett Gain Ratio, aminem súlyozza túl azokat az attribútumokat amik sokkülönbözo értéket felvehetnek

Page 5: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Döntési fa

• A jó döntési fa: példákkal konzisztens, minél tömörebb(leheto legkevesebb teszttel döntésre jussunk)

Hogyan építsük fel?• Legegyszerubb az ID3 algoritmus:

a gyökértol kezdve építjük a fát, mohó módon mindig úgyválasszunk döntési attribútumot egy csúcspontban, hogyaz információnyereség ( IG(S,a) = H(S)− H(S|a) )maximális legyen

• Továbbfejlesztés: Information Gain helyett Gain Ratio, aminem súlyozza túl azokat az attribútumokat amik sokkülönbözo értéket felvehetnek

Page 6: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Döntési fa

• A jó döntési fa: példákkal konzisztens, minél tömörebb(leheto legkevesebb teszttel döntésre jussunk)

Hogyan építsük fel?• Legegyszerubb az ID3 algoritmus:

a gyökértol kezdve építjük a fát, mohó módon mindig úgyválasszunk döntési attribútumot egy csúcspontban, hogyaz információnyereség ( IG(S,a) = H(S)− H(S|a) )maximális legyen

• Továbbfejlesztés: Information Gain helyett Gain Ratio, aminem súlyozza túl azokat az attribútumokat amik sokkülönbözo értéket felvehetnek

Page 7: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Döntési fa

• A jó döntési fa: példákkal konzisztens, minél tömörebb(leheto legkevesebb teszttel döntésre jussunk)

Hogyan építsük fel?• Legegyszerubb az ID3 algoritmus:

a gyökértol kezdve építjük a fát, mohó módon mindig úgyválasszunk döntési attribútumot egy csúcspontban, hogyaz információnyereség ( IG(S,a) = H(S)− H(S|a) )maximális legyen

• Továbbfejlesztés: Information Gain helyett Gain Ratio, aminem súlyozza túl azokat az attribútumokat amik sokkülönbözo értéket felvehetnek

Page 8: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Mik a véletlen erdok?

• Alapötlet: sok döntési fa, amik valamennyire különbözoek• Mindegyik tippel majd valamit, a szavazás

végeredményeként a leggykoribb választ fogadjuk el

Az erdo hatékonysága a következokön múlik:• generált fák számán (ált. ha több fa szavaz, javul az

eredmény) és minoségén• generált fák közötti korreláción (ha no a fák közötti

korreláció, az eredmény romlik)

Page 9: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Mik a véletlen erdok?

• Alapötlet: sok döntési fa, amik valamennyire különbözoek• Mindegyik tippel majd valamit, a szavazás

végeredményeként a leggykoribb választ fogadjuk el

Az erdo hatékonysága a következokön múlik:• generált fák számán (ált. ha több fa szavaz, javul az

eredmény) és minoségén• generált fák közötti korreláción (ha no a fák közötti

korreláció, az eredmény romlik)

Page 10: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Random forest elonyei

• Jó eredmények (pontos klasszifikáció)• Gyorsan lefut, nagy adatokra is használható• Több ezres dimenziójú bemenetet is képes kezelni• Becsléseket ad arra hogy mely változók fontosak• Hiányzó adatokat képes megbecsülni• Használható regresszióra; kis kiterjesztéssel

klaszterezésre vagy outlier-szurésre is

Page 11: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo építése

Breiman módszere:

• Képezünk K döntési fát úgy, hogy bootstrapping-gal(visszatevéses sorsolás, N-bol N-et sorsolunk) külön-különtanuló adathalmazt készítünk hozzájuk

• Az egyes fák építésekor a csomópontokban az attribútumválasztáskor a lehetséges attribútumhalmazt megszorítjukegy jóval kisebb méreture véletlenszeru választással.(Utána a max. IG-t vesszük)

• Nyesést nem alkalmazunk a fákon

Page 12: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo építése

Breiman módszere:

• Képezünk K döntési fát úgy, hogy bootstrapping-gal(visszatevéses sorsolás, N-bol N-et sorsolunk) külön-különtanuló adathalmazt készítünk hozzájuk

• Az egyes fák építésekor a csomópontokban az attribútumválasztáskor a lehetséges attribútumhalmazt megszorítjukegy jóval kisebb méreture véletlenszeru választással.(Utána a max. IG-t vesszük)

• Nyesést nem alkalmazunk a fákon

Page 13: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo építése

Breiman módszere:

• Képezünk K döntési fát úgy, hogy bootstrapping-gal(visszatevéses sorsolás, N-bol N-et sorsolunk) külön-különtanuló adathalmazt készítünk hozzájuk

• Az egyes fák építésekor a csomópontokban az attribútumválasztáskor a lehetséges attribútumhalmazt megszorítjukegy jóval kisebb méreture véletlenszeru választással.(Utána a max. IG-t vesszük)

• Nyesést nem alkalmazunk a fákon

Page 14: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo építése

Breiman módszere:

• Képezünk K döntési fát úgy, hogy bootstrapping-gal(visszatevéses sorsolás, N-bol N-et sorsolunk) külön-különtanuló adathalmazt készítünk hozzájuk

• Az egyes fák építésekor a csomópontokban az attribútumválasztáskor a lehetséges attribútumhalmazt megszorítjukegy jóval kisebb méreture véletlenszeru választással.(Utána a max. IG-t vesszük)

• Nyesést nem alkalmazunk a fákon

Page 15: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo építése

Page 16: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdok építése

Az egyes fák egyes csúcsainál véletlenszeruen sorsoltattribútumokól választhatjuk csak ki a döntési attribútumot.

Page 17: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Formális definíció

Véletlen erdonek nevezzük azt az osztályozót amely döntésifák {h(x, θk ), k = 1, . . .K } halmazából áll ahol a {θk }-kfüggetlen, azonos eloszlású random vektorok, és a fák többségiszavazással döntenek (minden fa egy-egy szavazatot adhat leegy-egy osztályozandó vektorra).

Tétel: A fák számának növelésével a klasszifikáció minoségekonvergál (nem lesz túltanulás).

Bizonyítás: Nagy számok eros törvénye segítségével.

Page 18: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Formális definíció

Véletlen erdonek nevezzük azt az osztályozót amely döntésifák {h(x, θk ), k = 1, . . .K } halmazából áll ahol a {θk }-kfüggetlen, azonos eloszlású random vektorok, és a fák többségiszavazással döntenek (minden fa egy-egy szavazatot adhat leegy-egy osztályozandó vektorra).

Tétel: A fák számának növelésével a klasszifikáció minoségekonvergál (nem lesz túltanulás).

Bizonyítás: Nagy számok eros törvénye segítségével.

Page 19: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Formális definíció

Margin: minél nagyobb, annál biztosabb az eredmény; hanegatív akkor hibázott az erdo:

mg(X,Y ) = avgk I(hk (X) = Y )−maxj 6=Y

(avgk I(hk (X) = j))

(X: a bemeneti vektorok, Y : a hozzájuk tartozó osztályok)

A döntési fák általánosítási hibája (generalization error):

PE = PX,Y (mg(X,Y ) < 0)

Page 20: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Formális definíció

Margin: minél nagyobb, annál biztosabb az eredmény; hanegatív akkor hibázott az erdo:

mg(X,Y ) = avgk I(hk (X) = Y )−maxj 6=Y

(avgk I(hk (X) = j))

(X: a bemeneti vektorok, Y : a hozzájuk tartozó osztályok)

A döntési fák általánosítási hibája (generalization error):

PE = PX,Y (mg(X,Y ) < 0)

Page 21: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A fák ereje és korrelációja

Felso korlát adható a véletlen erdo általánosítási hibájára, amikét dologtól függ:• az egyes klasszifikátorok (döntési fák) pontosságától• a fák közötti korrelációtól

PE ≤ ρ(1− s2)/s2

ahol ρ az átlagos korreláció a fák között, és s a h(x, θ)klasszifikátorhalmaz ereje: s = EX,Y mg(X,Y )

Page 22: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A fák ereje és korrelációja

Felso korlát adható a véletlen erdo általánosítási hibájára, amikét dologtól függ:• az egyes klasszifikátorok (döntési fák) pontosságától• a fák közötti korrelációtól

PE ≤ ρ(1− s2)/s2

ahol ρ az átlagos korreláció a fák között, és s a h(x, θ)klasszifikátorhalmaz ereje: s = EX,Y mg(X,Y )

Page 23: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo típusok

• Egyszeru bagging: lehetne belül más klasszifikátor is, dedöntési fa van

• Random Split Selection: faépítésnél mindig a legjobb Bválozóból választunk egyet véletlenszeruen

• Random Subspace: minden fát egy-egy rögzített,véletlenül választott attribútumhalmaz alapján építünk fel

• Breiman módszere: a fent bemutatott (bagging + randomm változóból a legjobb választása a facsúcsoknál, aholm << M, ahol M az attribútumok száma; általábanm < log2 M)

Page 24: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo típusok

• Egyszeru bagging: lehetne belül más klasszifikátor is, dedöntési fa van

• Random Split Selection: faépítésnél mindig a legjobb Bválozóból választunk egyet véletlenszeruen

• Random Subspace: minden fát egy-egy rögzített,véletlenül választott attribútumhalmaz alapján építünk fel

• Breiman módszere: a fent bemutatott (bagging + randomm változóból a legjobb választása a facsúcsoknál, aholm << M, ahol M az attribútumok száma; általábanm < log2 M)

Page 25: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo típusok

• Egyszeru bagging: lehetne belül más klasszifikátor is, dedöntési fa van

• Random Split Selection: faépítésnél mindig a legjobb Bválozóból választunk egyet véletlenszeruen

• Random Subspace: minden fát egy-egy rögzített,véletlenül választott attribútumhalmaz alapján építünk fel

• Breiman módszere: a fent bemutatott (bagging + randomm változóból a legjobb választása a facsúcsoknál, aholm << M, ahol M az attribútumok száma; általábanm < log2 M)

Page 26: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Véletlen erdo típusok

• Egyszeru bagging: lehetne belül más klasszifikátor is, dedöntési fa van

• Random Split Selection: faépítésnél mindig a legjobb Bválozóból választunk egyet véletlenszeruen

• Random Subspace: minden fát egy-egy rögzített,véletlenül választott attribútumhalmaz alapján építünk fel

• Breiman módszere: a fent bemutatott (bagging + randomm változóból a legjobb választása a facsúcsoknál, aholm << M, ahol M az attribútumok száma; általábanm < log2 M)

Page 27: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

Page 28: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

Page 29: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

Page 30: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

Page 31: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

„Out-of-bag” becslések

• A bagging alkalmazásának elonyei: a pontosságot növeli,szórást csökkenti

• Minden fánál a tanítómintából kihagyott értékekre („out-ofbag” vagy „OOB” értékek, ált. kb. a minták egyharmada)jóslatokat kérhetünk

• Az eredményeket átlagolva elég pontosan becsülheto azerdo hibája (PE), és a fák közötti korreláció is

• Kb olyan pontos becsléseket kapunk a jóságra mintha egytanítóhalmaz méretu teszthalmazunk lenne1

• Ezért nem kell Cross Validation-t alkalmazni

1Breiman egy korábbi cikkének empirikus eredménye, akkor igaz ha Kelég nagy (a hiba már konvergált).

Page 32: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 33: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 34: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 35: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 36: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 37: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 38: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Fontos változók (Feature selection)

Egy v bemeno attribútum (feature) fontossága így becsülheto:• Minden fát szavaztassunk meg a hozzá tartozó „OOB”

bemenetekre• Jegyezzük meg a helyes válaszok arányát• Permutáluk meg az „OOB” halmazon belül a v változó

értékeit, és így is kérjünk jóslatokat a fától• A helyes válaszok aránya mennyivel csökkent?• Ezt átlagoljuk az összes fára =⇒ v fontossági értéke

Nagyon sok bemeneti változó esetén eloször kiválaszthatjuk ajobbakat, aztán csak ezeket használva új, hatékonyabb erdotépíthetünk.

Page 39: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

Page 40: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

Page 41: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

Page 42: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

Page 43: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

Page 44: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A bemeneti vektorok hasonlóságának becslése

Mire is jó ez?• Outlier-szurés: Az összes többitol nagyon különbözo

tanítóminták zajnak tekinthetok (pl. elrontott mérés), jobbha kidobjuk ezeket. Akár osztályonként is szurhetjük oket.

• Klaszterezés: A minták közti hasonlóság alapjánklaszterezést is végezhetünk.

Hogyan?• Minden bemenet-párra vegyük azon fáknak az arányát

amikre ugyanabban a levélben ér véget a hozzájuk tartozódöntési folyamat. „Proximity”: si,j

• „Dissimilarity”: di,j =√

1− si,j

Page 45: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

Page 46: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

Page 47: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

Page 48: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

Page 49: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

Page 50: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Iteratívan becsülhetjük a tanítóhalmaz hiányzó értékeit:

• Elso közelítés: vegyük a hiányzó attribútum átlagát (ill.leggyakoribb értékét) a többi soron, és ezt helyettesítsükbe

• Az így kiegészített adatokkal építsünk erdot• Minden i adatsorhoz amiben f hiányzott, vegyük az összes

(nem-f -hiányos j sorral páronként vett hasonlóságait (si,j )• Az új becslés: si,j súlyokkal átlagoljuk a j-kben talált

f -értékeket, ezt tegyük if -be• Ezt iterálhatjuk (új erdo építése, stb.) amíg már nem

változnak az értékek (általában 4-6 kör elég)

Page 51: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Hiányzó adatok kitöltése

Page 52: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A kiértékeléshez használt adathalmazok

Data set Train size Test size Dimension Classes

Letters 15000 5000 16 26

Sat-images 4435 2000 36 6

Zip-code 7292 2007 256 10

Waveform 300 3000 21 3

Twonorm 300 3000 20 2

Threenorm 300 3000 20 2

Ringnorm 300 3000 20 2

Page 53: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Eredmények (hibaszázalékok)

Data set Adaboost Forest-RI2 Forest-RI3 One tree

Letters 3.4 3.5 4.7 19.8

Sat-images 8.8 8.6 10.5 17.2

Zip-code 6.2 6.3 7.8 20.6

Waveform 17.8 17.2 17.3 34.0

Twonorm 4.9 ? 3.9 24.7

Threenorm 18.8 ? 17.5 38.4

Ringnorm 6.9 ? 4.9 25.7

Forest-RI (Random Input selection): Véletlen erdo, véletlen attribútum választással.Fák száma: K = 100 (kivéve Zip-code: K = 200)AdaBoost iterációk száma: 50 (kivéve Zip-code: 100)

2m = log2 M3m = 1

Page 54: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Eredmények (hibaszázalékok)

Data set Adaboost Forest-RC4 Forest-RC5 One tree

Letters 3.4 3.4 4.1 23.8

Sat-images 8.8 9.1 10.2 17.3

Zip-code 6.2 6.2 7.2 22.7

Waveform 17.8 16.0 16.1 33.2

Twonorm 4.9 3.8 3.9 20.9

Threenorm 18.8 16.8 16.9 34.8

Ringnorm 6.9 4.8 4.6 24.6

Forest-RC: bemenetek lineáris kombinációival épített erdo.Összekombinált változók száma: 3

4m = 85m = 2

Page 55: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A korreláció és jóslóero változása m növelésével

Page 56: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

A hiba változása m növelésével

Page 57: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Zaj tolerancia

A véletlen erdok sokkal jobban tolerálják a zajt mint az AdaBoost.Amikor az AdaBoost elrontja (vagyis valójában jól klasszfikálná) azaj-bementeteket akkor növekvo súllyal kerül a tanítóhalmazba ahibás adat, és ez eltozítja a végso eredményt is.5%-os osztálycímke-permutáció után a hibák növekedése (%):

Data set Adaboost Forest-RI Forest-RC

Breast cancer 43.2 1.8 11.1

Diabetes 6.8 1.7 2.8

Sonar 15.1 -6.6 4.2

Ionosphere 27.7 3.8 5.7

Soybean 26.9 3.2 8.5

Ecoli 7.5 7.9 7.8

Liver 10.3 -0.2 4.8

Page 58: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Regresszió

A döntési fák képesek regresszióra is – ekkor mindenelágazásnál az alapján határozzuk meg a döntési attrubútumotés vágási határt, hogy a két új halmazon belül a jóslandó értékszórásnégyzetei minimálisak legyenek.

Data set Train size Test size Dimension

Boston Housing 506 10% 12

Ozone 330 10% 8

Abalone 4177 25% 8

Robot Arm 15000 5000 12

Friedman#1 200 2000 10

Friedman#2 200 2000 4

Friedman#3 200 2000 4

Page 59: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Regresszió eredményeiErdok paraméterei: 100 fa, m = 25, random lineáriskombinációi 2 bemenetnek.Megfigyelések: a fák közti korreláció itt lassababn no mnövelésével.

Mean squared test set errors

Data set Bagging Adapt. bag. Forest

Boston Housing 11.4 9.7 10.2

Ozone 17.8 17.8 16.3

Abalone 4.9 4.9 4.6

Robot Arm 4.7 2.8 4.2

Friedman#1 6.3 4.1 5.7

Friedman#2 21.5 21.5 19.6

Friedman#3 24.8 24.8 21.6

Page 60: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Összefoglalás

A véletlen erdok hatékony klasszifikátorok, nagyadathalmazokkal is megbirkóznak. A két paraméter, K és mválasztására nem túl érzékeny (de K legyen elég nagy, m pedigne legyen túl nagy).

Page 61: Random Forests - Véletlen erdok · 2 Japán 6-10 dízel piros 1600 felett igen 3 Japán 3-6 dízel piros 1300-1600 nem. sztaki-logo Alapok Véletlen erdok építése˝ A véletlen

sztaki-logo

Alapok Véletlen erdok építése A véletlen erdok jó tulajdonságai Kiértékelés

Köszönöm a figyelmet!