regression i spss -...
TRANSCRIPT
Regression i SPSS
Här är en liten genomgång av hur man gör en regressionsanalys i SPSS. Datat som ag här använt finns i filen ex53.sav, där vi har uppgifter på några variabler för 206 individer (i USA). Variablerna är OBS=observation nr, WAGE = lön (tusen dollar), SEX = kön (1=kvinna), ED = utbildning i år, AGE = ålder i år, NONWH = minoritetsdummy 1 (1=icke vit, icke spansk kärkomst), HISP = minoritetsdummy 2 (1=av spansk härkomst). Öppna datafilen från kurssidan. Vi skall först försöka oss på en enkel regressionsanalys där vi förklarar lönen med utbildning. Under Analyze väljer vi då Regression och Linear
Som beroende (dependent) variabel har vi WAGE och oberoende (independent) ED.
Sen är det bara att köra med OK. Vi får:
Model Summary
Model
R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 .496a .246 .242 4.560023142
a. Predictors: (Constant), ED
Här får vi bl.a. att R2 = 0.246, d.v.s. inte speciellt högt, vi förklara knappa 25% av lönen med utbildningen.
ANOVAb
Model Sum of Squares df Mean Square F Sig.
Regression 1383.029 1 1383.029 66.512 .000a
Residual 4241.937 204 20.794
1
Total 5624.967 205
a. Predictors: (Constant), ED
b. Dependent Variable: WAGE
I variansanalystabellen är det intressanta värdet F = 66.512 vars Sig.-värde
är 0.000, d.v.s. Sig < 0.05, så vi kan förkasta H0: β1 = 0 på 5% nivån.
Coefficientsa
Unstandardized Coefficients
Standardized
Coefficients
Model
B Std. Error Beta t Sig.
(Constant) -3.600 1.649 -2.183 .030 1
ED .999 .122 .496 8.155 .000
a. Dependent Variable: WAGE
Här har vi då skattningarna fär regressionsparametrarna eller för β0 = -3.6
och β1 0.999 (nästan 1). Ser vi på t-värdena (och dess Sig) för dessa märker
vi att bägge är signifikant olika 0. Observera att F-värdet i föregående tabell
är t för β1 kvadrerad.
Att förklaringsgraden inte är speciellt god ser vi om vi ritar ut variablerna i
ett spridningsdiagram
För spridningen kring linje är stor och kanske inte lika stor överallt längs
linjen (heteroskedasticitet?).
Vi skall se huruvida de andra variablerna har något inflytande på lönen
genom att först sätta till till AGE som oberoende variabel. Detta ger
Model Summary
Model
R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 .546a .299 .292 4.408744148
a. Predictors: (Constant), AGE, ED
ANOVAb
Model Sum of Squares df Mean Square F Sig.
Regression 1679.251 2 839.625 43.197 .000a
Residual 3945.716 203 19.437
1
Total 5624.967 205
a. Predictors: (Constant), AGE, ED
b. Dependent Variable: WAGE
Coefficientsa
Unstandardized Coefficients
Standardized
Coefficients
Model
B Std. Error Beta t Sig.
(Constant) -7.591 1.894 -4.008 .000
ED 1.017 .118 .505 8.580 .000
1
AGE .101 .026 .230 3.904 .000
a. Dependent Variable: WAGE
R2 ökar lite, F är signifikant liksom t-värdena.
Nu sätter jag ännu till SEX, som är en 0/1 variabel (dummyvariabel) och får
Model Summary
Model
R R Square
Adjusted R
Square
Std. Error of the
Estimate
1 .603a .364 .354 4.209849200
a. Predictors: (Constant), SEX, ED, AGE
ANOVAb
Model Sum of Squares df Mean Square F Sig.
Regression 2044.955 3 681.652 38.462 .000a
Residual 3580.012 202 17.723
1
Total 5624.967 205
a. Predictors: (Constant), SEX, ED, AGE
b. Dependent Variable: WAGE
Coefficientsa
Unstandardized Coefficients
Standardized
Coefficients
Model
B Std. Error Beta t Sig.
(Constant) -6.321 1.830 -3.454 .001
ED .975 .114 .484 8.594 .000
AGE .117 .025 .266 4.692 .000
1
SEX -2.702 .595 -.259 -4.543 .000
a. Dependent Variable: WAGE
R2 blir ganska mycket större. Koefficienten för kön -2.702 kan tolkas som så
att lönen för kvinnorna är 2.702 enheter lägre än för männen då vi
kontrollerar för urbildning och ålder.
Sätt även in de två andra dummyvariablerna och se vad som händer.