metodabackwardvýběruproměnnýchvlineární regresiajejívlastnosti ·...

Metoda backward výběru proměnných v lineárníregresi a její vlastnosti

Aktuárský seminář, 13. dubna 2018

Milan Bašta

1 / 30

1 Metody výběru proměnných do modelu

2 Monte Carlo simulace, backward metoda

3 Pravděpodobnosti různých finálních modelů

4 Inference

5 Přesnost odhadu regresní funkce

6 Rozšíření výsledků

2 / 30

Postupné odebírání vysvětlujících proměnných

Angl. backward elimination.V modelu máme všechny vysvětlující proměnné. Postupněodebíráme takové vysvětlující proměnné, jejichž p-hodnota(příslušející dílčímu t-testu o nulové hodnotě parametru vaktuálním modelu) je největší ze všech vysvětlujících proměnnýchv modelu a zároveň větší než zvolená hladina αremove (např.0.05, 0.1 apod.). Po odebrání takovéto vysvětlující proměnné zmodelu se p-hodnoty u ostatních vysvětlujících proměnných,které v modelu zbyly, v obecnosti změní.Tuto proceduru postupného odebírání opakujeme do té doby, nežvšechny vysvětlující proměnné, které v modelu zbyly, majíp-hodnotu menší nebo rovnu αremove .

3 / 30

Postupné zařazování vysvětlujících proměnných

Angl. forward selection.Začneme s modelem, ve kterém není žádná vysvětlujícíproměnná. Pro každou vysvětlující proměnnou, která není vmodelu, vypočteme p-hodnotu (na základě dílčího t-testu)odpovídající přidání této proměnné do modelu. Ze všechtakovýchto proměnných posléze do modelu přidáme tu s nejnižšíp-hodnotou, pokud je tato p-hodnota zároveň nižší než zvolenáhladina αadd .Tento postup opakujeme do té doby, dokud existují vysvětlujícíproměnné, které můžeme přidávat.

4 / 30

Krokové metody v literatuře

Derksen, S., & Keselman, H. J. (1992): Backward, forward andstepwise automated subset selection algorithms: Frequency ofobtaining authentic and noise variables. British Journal ofMathematical and Statistical Psychology, 45(2), 265-282.Harrell, F. (2001): Regression modeling strategies, withapplications to linear models, logistic regression and survivalanalysis. Springer.Molodkina, K. (2014): Krokové metody v lineární regresi a jejichvlastnosti. Bakalářská práce MFF UK.Whittingham, M. J., Stephens, P. A., Bradbury, R. B., &Freckleton, R. P. (2006): Why do we still use stepwise modellingin ecology and behaviour? Journal of animal ecology, 75(5),1182-1189.

5 / 30

Některé alternativy ke krokovým metodám

Metoda best subset: Procházíme, všechny možné modely a prokaždý z modelů vyhodnocujeme kritérium kvality modelu (např.upravený index determinace, AIC, apod.). Následně jako“nejlepší” model vybíráme ten, jež poskytuje optimální hodnotudaného kritéria (největší upravený index determinace, nejnižšíhodnotu AIC, apod.).lasso regrese (Tibshirani, 1996)1.

1Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society. Series B

(Methodological), 267-288.6 / 30




4 Inference



7 / 30

Monte Carlo simulaceLineární regresní model (bez absolutního členu)

Yi = β1xi1 + ...+βmxim + ...+βkxik + εi , i = 1, ..., n,

kde n je počet pozorování, Yi je vysvětlovaná proměnná pro i-tépozorování, xi1, xi2, ..., xik jsou známé konstanty, εi je chybapro i-té pozorování a 1≤ m ≤ k je počet regresních parametrů,jež jsou nenulové (viz dále).V rámci simulace má vektor chyb

[ε1, ε2, ..., εn]T

n-rozměrné normální rozdělení s nulovým vektorem středníchhodnot a kovarianční maticí σ2I, kde σ2 = 6.25.V rámci simulace volíme postupně n = 50, 300.

8 / 30

Vysvětlující proměnné

V rámci simulace volíme pevně k = 20.Empirický průměr hodnot libovolné vysvětlující proměnné je 0.Empirický rozptyl hodnot libovolné vysvětlující proměnné (tj.hodnot x1j , x2j , ..., xnj , pro j = 1, ..., k) je roven 1.Histogram hodnot vysvětlujících proměnných je blízký“gaussovskému histogramu”.Empirická korelace mezi hodnotami libovolné dvojice různýchvysvětlujících proměnných je rovna ρ . V simulaci volímepostupně ρ = 0, 0.8.

9 / 30

Volba regresních parametrů

Volíme postupně m = 5, 15.Regresní parametry jsou dány jako:

βj =

{1.5−1.4 j−1

m−1 , pro j = 1, 2, ..., m,

0, pro j = m+1, ..., k.

Pro m = 5 je vektor regresní parametrů dán jako

[1.5, 1.15, 0.8, 0.45, 0.1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]T ,

Pro m = 15 je vektor regresní parametrů dán jako

[1.5, 1.4, 1.3, 1.2, 1.1, 1.0, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4, 0.3, 0.2, 0.1, 0, 0, 0, 0, 0]T .

10 / 30

5 10 15 20

0.0

0.5

1.0

1.5

m = 5

●

●

●

●

●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

j

β j

5 10 15 20

0.0

0.5

1.0

1.5

m = 15

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ● ● ● ●

j

β j

11 / 30

Shrnutí nastavení Monte Carlo simulace

αremove = 0.05.σ2 = 6.25.k = 20.Dvě hodnoty n (n = 50, n = 300), dvě hodnoty ρ (ρ = 0,ρ = 0.8) a dvě hodnoty m (m = 5, m = 15). Celkem 23 = 8možných nastavení.Počet simulací pro každé nastavení: 1000.

I směrodatné chyby všech relativních četností jsou omezeny shorahodnotou 0.016.

I odhady směrodatných chyb různých výběrových průměrů (vizníže) nepřesahují 0.06.

12 / 30




4 Inference



13 / 30

Značení

pnoise : Relativní četnost toho, že ve výsledném modelu zůstanealespoň jedna vysvětlující proměnná, jejíž skutečný regresníparametr je nulový.pauthentic : Relativní četnost toho, že ve výsledném modelu budouvšechny vysvětlující proměnné, jejichž skutečné parametry jsounenulové.pcorrect : Relativní četnost toho, že ve výsledném modelu budouvšechny vysvětlující proměnné, jejichž skutečné parametry jsounenulové, a nebude tam žádná vysvětlující proměnná, jejížskutečný parametr je nulový.pj (pro j = 1, ..., k): Relativní četnost toho, že j-tá vysvětlujícíproměnná bude přítomna ve finálním modelu.

14 / 30

aveall : Průměrný počet všech vysvětlujících proměnných vefinálním modelu.aveauthentic : Průměrný počet vysvětlujících proměnných vefinálním modelu, jejichž skutečné parametry jsou nenulové.

15 / 30

1 3 5 7 9 11 13 15 17 19

m = 5, rho = 0, n = 50

j

p j

0.0

0.2

0.4

0.6

0.8

1.0

p_noise = 0.58p_authentic = 0.01

p_correct = 0ave_all = 3.79

ave_authentic = 2.86

1 3 5 7 9 11 13 15 17 19

m = 5, rho = 0, n = 300

j

p j

0.0

0.2

0.4

0.6

0.8

1.0

p_noise = 0.56p_authentic = 0.09p_correct = 0.04ave_all = 4.75


1 3 5 7 9 11 13 15 17 19

m = 5, rho = 0.8, n = 50

p j

0.0

0.2

0.4

0.6

0.8

1.0

p_noise = 0.73p_authentic = 0p_correct = 0ave_all = 2.96


1 3 5 7 9 11 13 15 17 19

m = 5, rho = 0.8, n = 300

p j

0.0

0.2

0.4

0.6

0.8

1.0

p_noise = 0.63p_authentic = 0.01

p_correct = 0ave_all = 4.2


16 / 30

1 3 5 7 9 11 13 15 17 19

m = 15, rho = 0, n = 50

j

p j

0.0

0.2

0.4

0.6

0.8

1.0


ave_authentic = 8.2

1 3 5 7 9 11 13 15 17 19

m = 15, rho = 0, n = 300

j

p j

0.0

0.2

0.4

0.6

0.8

1.0

p_noise = 0.22p_authentic = 0.02p_correct = 0.02ave_all = 12.91


1 3 5 7 9 11 13 15 17 19

m = 15, rho = 0.8, n = 50

p j

0.0

0.2

0.4

0.6

0.8

1.0



1 3 5 7 9 11 13 15 17 19

m = 15, rho = 0.8, n = 300

p j

0.0

0.2

0.4

0.6

0.8

1.0



17 / 30

Shrnutí “Pravděpodobnosti různých finálníchmodelů”

pcorrect a pauthentic jsou nízké, pnoise je relativně vysoká.Vyšší hodnota m vede k nižší pnoise a pauthentic .Vyšší hodnota ρ vede k vyšší pnoise a nižší pauthentic a pcorrect .Vyšší hodnota n vede k mírně vyšší pauthentic a pcorrect .Metoda forward vykazuje kvalitativně podobné chování.

18 / 30




4 Inference



19 / 30

Značení

Bpar : Odhad vychýlení odhadu regresního parametru β3 = 0.8(pro m = 5) resp. β8 = 0.8 (pro m = 15).Bcond : Odhad podmíněného vychýlení odhadu regresníhoparametru β3 = 0.8 (pro m = 5) resp. β8 = 0.8 (pro m = 15) zapodmínky, že se příslušná vysvětlující proměnná vyskytuje vefinálním modelu.Beta: Odhad vychýlení odhadu regresní funkce v bodě[1, 1, ..., 1]. Skutečná regresní funkce má v tomto bodě hodnotu4 (pro m = 5) resp. 12 (pro m = 15).

20 / 30

pcoverage : Relativní četnost pokrytí regresní funkce v bodě[1, 1, ..., 1] 95% intervalem spolehlivosti pro regresní funkcinapočítáným dle standardní teorie na základě finálního modelu.BresVar : Odhad vychýlení odhadu rozptylu chybové složkyprostřednictvím reziduálního rozptylu napočteného na základěfinálního modelu.

21 / 30

m = 5, rho = 0, n = 50

outKoeficienty[, i]

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

010

020

030

0

B_par = −0.15B_cond = 0.22B_eta = −0.5

p_coverage = 0.69B_resVar = −0.49

m = 5, rho = 0, n = 300

outKoeficienty[, i]

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

050

100

150

200

250 B_par = 0.01

B_cond = 0.01B_eta = −0.07


m = 5, rho = 0.8, n = 50

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

010

030

050

070

0

B_par = −0.24B_cond = 1.05B_eta = −0.04


m = 5, rho = 0.8, n = 300

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

050

100

150

200

250

B_par = −0.03B_cond = 0.15B_eta = −0.01


22 / 30

m = 15, rho = 0, n = 50

outKoeficienty[, i]

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

010

020

030

040

0

B_par = −0.21B_cond = 0.22B_eta = −2.14

p_coverage = 0.49B_resVar = 0.31

m = 15, rho = 0, n = 300

outKoeficienty[, i]

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

050

100

150

200

250 B_par = 0

B_cond = 0B_eta = −0.28


m = 15, rho = 0.8, n = 50

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

010

030

050

070

0

B_par = −0.16B_cond = 1.18B_eta = −0.1


m = 15, rho = 0.8, n = 300

Abs

. cet

nost

odh

adu

−1 0 1 2 3 4

050

100

150

200

250 B_par = 0.01

B_cond = 0.18B_eta = −0.02


23 / 30

Shrnutí “Inference”

Odhady regresních parametrů jsou vychýlené.Pokud je vysvětlující proměnná zahrnuta ve finálním modelu, takje příslusný odhadnutý efekt v průměru nadhodnocený.Odhady regresní funkce jsou v obecnosti vychýlené a intervalyspolehlivosti pro regresní funkci nemají požadovaná pokrytí.Reziduální rozptyl napočtený z finálního modelu dle standardníteorie je vychýleným odhadem rozptylu chybové složky.Metoda forward vykazuje kvalitativně podobné chování.

24 / 30




4 Inference



25 / 30

Přesnost odhadu regresní funkce

S využitím Monte Carlo simulace odhadujeme

Rbackward =MSE backward

MSE full,

kde MSE backward resp. MSE full = σ2 kn jsou průměrné (napříč n

původními body) střední čtvercové chyby odhadu regresní funkcena základě finálního modelu z krokové metody backward a nazákladě plného modelu s k vysvětlujícími proměnnými.Výsledky zakreslíme pro 8 nastavení a porovnáme je s Rforward(pro αadd = 0.05), s RbestSubset založené na upraveném indexudeterminace a s metodou backward v situaci, kdy regresníparametry mají jen čtvrtinovou velikost oproti původnímunastavení.

26 / 30

●

●

●

●

●

●

●

●

2 4 6 8

0.4

0.6

0.8

1.0

1.2

1.4

Nastaveni

R

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

m = 5, rho = 0, n = 50

m = 5, rho = 0, n = 300

m = 5, rho = 0.8, n = 50

m = 5, rho = 0.8, n = 300

m = 15, rho = 0, n = 50

m = 15, rho = 0, n = 300

m = 15, rho = 0.8, n = 50

m = 15, rho = 0.8, n = 300

●

●

●

●

backwardforwardbest subsetbackward : 1/4 efekty

27 / 30

Shrnutí “Přesnosti odhadu regresní funkce”

Pro m=5 poskytla kroková metoda přesnější odhad regresnífunkce (měřeno MSE) a potažmo přesnější předpovědi než plnýmodel.Metoda best subset není záchranou.

28 / 30




4 Inference



29 / 30

Domníváme se, že analogické výsledky lze očekávat i v případězobecněných lineárních modelů.

30 / 30

metodabackwardvýběruproměnnýchvlineární regresiajejívlastnosti ·...

Documents