Download - Anvendt Statistik Lektion 10
![Page 1: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/1.jpg)
1
Anvendt StatistikLektion 10
Regression med både kvantitative og kvalitative forklarende variable
Modelsøgning Modelkontrol
![Page 2: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/2.jpg)
2
Opsummering I forbindelse med multipel lineær regression så vi på
modeller på formen
hvor x1, x2, …, xk er kvantitative variable, fx højde, alder og areal.
I forbindelse med variansanalyse så vi på modeller på formen
hvor z1, z2, …, zk er (0/1) dummy-variable, der omkoder en kvalitativ variabel med 4 kategorier.
Bemærk: Begge modeller er på samme form! Lad os kombinere dem!
kk xxxxxyE ...][ 44332211
332211][ zzzyE
![Page 3: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/3.jpg)
3
Lineær regressionsmodel Generel form
yi. er kvantitativ afhængig variabel (for i’te observation) xji er enten
kvantitativ variabel eller dummy-variabel
ei er fejlledet for i’te observation. ei’erne er uafhængige og normalfordelte med middelværdi nul og konstant varians.
Middelværdien for yi er
ikikiiiii xxxxxy e ...44332211
kikiiiii xxxxxyE ...44332211
![Page 4: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/4.jpg)
4
Eksempel: Indkomst vs Race og Udd. 80 personer har
angivet: Race
Sort, hispanic el. hvid
Uddannelse Målt i år
Indkomst $1000 / år.
Plot: Simpel lineær
regression forhver race. Graphs → Chart Builder → Scatter/Dot →
Grouped Scatter : Race under ’Set Color’
![Page 5: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/5.jpg)
5
Statistisk model Statistisk model:
y : Indkomst (afhængig var. /respons) x : Uddannelse (kvantitativ forklarende var.) Race er omkodet vha. to dummy-variable, z1 og z2
Bemærk: Kategorien ’Hvid’ er reference-gruppen.
Race z1 = z2 =
Black 1 0
Hispanic 0 1
White 0 0
2211][ zzxyE
![Page 6: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/6.jpg)
6
Fortolkning
For hvide har vi z1=0 og z2=0
Ligningen for en ret linje med Skæring Hældning
Hvert ekstra års ekstra uddannelse øger gennemsnits-indkomsten med .
Nul års uddannelse giver en gennemsnitsindtægt på
x
xyE
00][ 21
1
Hvid: x
![Page 7: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/7.jpg)
7
Fortolkning
For sorte har vi z1=1 og z2=0
For hispanic har vi z1=0 og z2=1
Tre linjer med samme hældning = samme effekt af uddannelse. Fortolkning af på 1 og 2
1 : Forskel i gennemsnits indkomst for sorte i forhold til hvide ved samme antal års uddannelse.
2 : Forskel i indkomst for hispanics i forhold til hvide.
xyE 1][
xyE )(][ 2
2
Hisp.: 2x
Sort: 1x
Hvid: x
1
![Page 8: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/8.jpg)
8
Estimation i SPSS
SPSS: Analyze →General Linear Model → Univarite
Dependent Variable: Kvantitativ/kontinuerte afhængige variabel.
Fixed Factors:Kvalitative/ kategoriske forklarende variable.
Covariate:Kvantitative/ kontinuerte forklarende variable.
Under ’Options’ vælg ’Parameter Estimates’
![Page 9: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/9.jpg)
9
Modelspecifikation i SPSS
Vores model har ingen vekselvirkning mellem uddannelse og race.
Unde Model vælger vi Custom.
Vælg Type som Main effects.
Marker de to forklarende variable og før dem over i Model-kassen.
![Page 10: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/10.jpg)
10
SPSS output
Estimerede model:
Bemærk at der står ‘0’ ud for [race=w], da hvid er referencegruppen.
b1
b2
b
a
21
2211
934,4874.10432,4663,15ˆ
zzxzbzbbxay
![Page 11: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/11.jpg)
11
Fortolkning Estimerede model:
For hvide har vi z1=0 og z2=0
For sorte har vi z1=1 og z2=0
For hispanic har vi z1=0 og z2=1 Hisp.: (2x
Hvid: x
Sort: (1x
21 934,4874.10432,4663,15ˆ zzxy
xy 432,4663,15ˆ
xy 432,4547,26ˆ
xy 432,4597,20ˆ
![Page 12: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/12.jpg)
12
Vekselvirkning
Plot af data antyder, at effekten af uddannelse (hældningen) afhænger af gruppen (race).
Dvs. der er en vekselvirkning mellem race og uddannelse i effekten på indkomst.
Som sædvanligt opnår vi en model med vekselvirkning ved at gange de to variable sammen:
22112211][ xzxzzzxyE
Hovedeffekt af udd.
Hovedeffekt af race
Vekselvirkning
![Page 13: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/13.jpg)
13
Fortolkning Model:
For hvid har vi z1=0 og z2=0:
Dvs. ret linje med skæring hældning
Hvert års ekstra uddannelser øger gennemsnitsindkomsten med .
24132211][ xzxzzzxyE
xxxxyE
0000][ 4321
![Page 14: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/14.jpg)
14
Fortolkning Model:
For hvide har vi z1=0 og z2=0:
For sorte har vi z1=1 og z2=0:
Dvs. ret linje med skæring 1
hældning 3
Bemærk: Både skæring og hældning afviger fra referencen.
24132211][ xzxzzzxyE
xyE ][
xxxxyE
31
4321 0101][
![Page 15: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/15.jpg)
15
Fortolkning
For hvide har vi z1=0 og z2=0:
For sorte har vi z1=1 og z2=0:
Afvigelser for sorte i forhold til referencen (hvide) skæring: 1
hældning: 3
Dvs. 3 angiver, hvordan effekten af uddannelser på indkomst for den sorte gruppe afviger fra den hvide gruppe.
xyE ][
xyE 31][
![Page 16: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/16.jpg)
16
Modelspecifikation i SPSS
Vi tilføjer vekselvirkningen: Som Type vælg
Interaction. Marker de to forklarende
variable og før dem over i Model-kassen.
![Page 17: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/17.jpg)
17
SPSS output
Estimerede model:
b1
b2
b
a
2121
24132211
121,1411.2264,9333,19210,5669,25ˆ
xzxzzzxxzbxzbzbzbbxay
b3
b4
![Page 18: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/18.jpg)
18
Fortolkning Estimerede model
Hvid
Hver ekstra års uddannelse øger indkomsten med $5210 Sort
Effekten af uddannelse er reduceret med $2411 til $2799 Hispanic
Effekten af uddannelse er reduceret med $1121 til $4089
2121 121,1411,2264,9333,19210,5669,25ˆ xzxzzzxy
xxxy 089,44329,16121,1264,9210,5669,25ˆ
xy 210,5669,25ˆ
xxxy 799.2336,6411,2333,19210,5669,25ˆ
![Page 19: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/19.jpg)
19
Hypotesetest Som ”sædvanligt” tester vi vha. et F-test. Et F-test sammenligner to modeller:
en ”komplet” model og en ”reduceret” model.
Eksempel: H0: Ingen vekselvirkning Ha: Vekselvirkning er med. Komplette model: Model med vekselvirkning Reducerede model: Model uden vekselvirkning
F-testet skal afgøre om det er ok, at gå fra den komplette til den reducerede model.
![Page 20: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/20.jpg)
20
F-test: Intuition
For begge modeller finder vi SSE og R2: Komplette model: SSEc og Reducerede model: SSEr og
F-teststørrelse:
Intuition: Hvis den reducerede model er næsten lige så god som den komplette, så har vi , dvs. F er lille.
Hvis der er en stor forskel, så har vi , dvs. F er stor.
2cR
22cr RR
2
21
22
2
1
1 dfRdfRR
dfSSEdfSSESSEF
c
rc
c
cr
22cf RR
22cr RR
df1 = forskel i antal ’er
df2 = n – (1+ antal ’er)
![Page 21: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/21.jpg)
21
F-test: Eksempel Hypoteser:
H0: Ingen vekselvirkning (race*educ) (3 4 0 Ha: Vekselvirkning
F-teststørrelse:
Omdøb: SSrace*educ = SSEr – SSEC (Forskel i SSE) SSE = SSEc
F-teststørrelse:
Bemærk: Forholdet mellem to mean sequares.
2
1
dfSSEdfSSESSEF
c
cr
MSEMS
dfSSEdfSSF educraceeducrace *
2
1*
![Page 22: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/22.jpg)
22
F-test af vekselvirkning Model:
Hypoteser: H0: 3 4 0 vs Ha: Enten 3 0 eller 4
0 Teststørrelse
Konklusion: Da P-værdi = 0.238> 0.05 kan vi ikke afvise at vekselvirkningen er unødvendig.
24132211][ xzxzzzxyE
465.1236346
74174722691
*
2
1*
MSE
MSdfSSE
dfSSF educraceeducrace
F = 1.465
P-værdi
![Page 23: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/23.jpg)
23
F-test af hovedeffekt af race Vekselvirkningen er borte. Model:
Spørgsmål: Kan modellen simplificeres yderligere?
H0: 1 2 0 Ingen hovedeffekt af race Ha: Enten 1 0 eller 2 0 Der er en
hovedeffekt af race
F = 730/239 = 3,1 P-værdi = 0.053
Konklusion:Der er nogen, men ikkestærke tegn på en effektaf race på indkomst.
2211][ zzxyE
![Page 24: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/24.jpg)
24
F-test af hovedeffekt af uddannelse Vekselvirkningen er borte. Model:
Spørgsmål: Kan modellen simplificeres yderligere?
H0: 0 Ingen effekt af uddannelse Ha: 0 Der er en effekt af uddannelse
F = 12245/239 = 51,2 P-værdi ≈ 0
Konklusion:Der er stærke tegn påat uddannelse har eneffekt på indkomst.
2211][ zzxyE
![Page 25: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/25.jpg)
Modelsøgning En statistiske analyse involverer ofte et stort antal
forklarende variable.
For at få overblik over, hvilke forklarende variable, der har betydning for den afhængige variabel udføres en modelsøgning.
I en modelsøgning, søger man en model, der kun indeholder de forklarende variable, der har en reel betydning for den afhængige variabel.
Der findes et utal af måder at udføre modelsøgning. De mest almindelige er…
![Page 26: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/26.jpg)
Modelsøgning: Prøv alle muligheder Vi udfører en regression på alle tænkelige kombinationer af
forklarende variable.
Har vi k forklarende variable giver det 2k forskellige modeller. Ved k = 4 forklarende variable har vi allerede 24 = 16 modeller. For k = 15 => 25 = 32768 modeller.
Vi udvælger vores model blandt de 2k modeller fx. den med største R2, mindste MSE eller et andet mål for ”model-kvalitet”.
![Page 27: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/27.jpg)
Modelsøgning: Backward søgning Start med en model, hvor alle forklarende variable af interesse er
inkluderet. Den mindst vigtige ryger ud…
For alle variable fortager vi et F-test for den tilsvarende parameter.
Den variabel med højst P-værdi over fx 0.10 fjernes fra modellen. Hvem er nu mindst vigtig?
I den reducerede model foretages et (nyt) F-test for hver af de tilbageværende variable.
Igen fjernes den variabel, der har højst P-værdi over 0.10. Dette gentages indtil alle tilbageværende variable er signifikante,
dvs. deres F-test alle har en P-værdi under 0.10.
![Page 28: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/28.jpg)
Multipel lineær regressionEksempel:
Y = Export Eksport til Singapore i millioner $X1 = M1 Money supplyX2 = Lend UdlånsrenteX3 = Price PrisindexX4 = Exchange Vekselkurs ml. S’pore $ og US $
Model:
iiiiii xxxxy e 44332211
),0( i.i.d 2e Ni
![Page 29: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/29.jpg)
Backward: Eksempel Den fulde model (start-model):
Fjerner ’Lend’. Reducerede model:
Fjern ’Exchange’. Reduceret model (slut-model):
Støreste p-værdi over 0.10
Støreste p-værdi over 0.10
Ingen p-værdi over 0.10
![Page 30: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/30.jpg)
Modelsøgning i SPSS I ’Linear Regression’ kan
man i menuen ’Method’ bl.a. vælge mellem
Enter (Uden søgning) Backward ’Independent(s)’ indeholder
variable, der skal indgå i model-søgningen.
Bemærk: Denne automatiske modelsøgning virker kun med ’Linear Regression’-funktionen. Dvs. for ’General Linear Model’ skal man lave søgningen manuelt.
![Page 31: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/31.jpg)
31
Lineær Regressionsmodel Vi har set på en lang række modeller på formen
Hvert x er enten kvantitativ variabel dummy-variabel relateret til en kvalitativ variabel
Om fejlleddene ei antager vi Uafhængige Normalfordelte Middelværdi 0 Konstant standardafvigelse . (homoskedastiske fejlled)
ikikiiiii xxxxxy e ...44332211
kikiiiii xxxxxyE ...44332211
![Page 32: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/32.jpg)
32
Estimerede model Vha. mindste kvadraters metode får vi
Dvs. a er et estimat af b1 er et estimat af 1
… bk er et estimat af k
Residualet ei er et estimat af fejlledet ei. Hvis moddel er korrekt, bør ei’erne opføre sig (ca.) som
fejlleddene.
iii eyy ˆ
kikiiiii xbxbxbxbxbay ...ˆ 44332211
![Page 33: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/33.jpg)
33
Fejlled: Antagelser ei er fejlledet for i’te observation. ei’erne er
uafhængige normalfordelte med
middelværdi nul og konstant varians (homoskedastiske)
Residualerne bør (ca.) opfylde disse antagelser. Gennemsnittet af residualerne er pr. konstruktion nul, så
det skal ikke tjekkes. De andre antagelser tjekker vi grafisk vha. plots.
![Page 34: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/34.jpg)
Residualplot
x or y
0
Residualer
Homoskedastisk: Residualerne ser ud til at variere lige meget for alle x eller . Desuden er residualerne ufahængige af hinanden og x.
0
Residualer
Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.
0
Residualer
Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.
Tid
0
Residualer
Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.
x or y
x or y
٪
٪
٪
√
y
![Page 35: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/35.jpg)
35
Vriste ei og ud af SPSS
Vælg ’Save…’ I ’Save’ vinduet vælges
’Unstandardized’ både under ’Residuals’ (ei’erne) og ’Predicted Values’ ( ’erne) .
iy
iy
iy ei
![Page 36: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/36.jpg)
36
Residual plot Scatterplot af ei mod .
Check af uafhængighed: Ser usystematisk ud. Check af konstant varians: Tendens til stigende varians.
iy
![Page 37: Anvendt Statistik Lektion 10](https://reader036.vdocuments.pub/reader036/viewer/2022081422/568164b1550346895dd6bc02/html5/thumbnails/37.jpg)
37
Residualplot Histogram af ei
Check af normalfordelingsantagelse: Ser ok ud.