statikstik ii 3. lektion

42
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller

Upload: maisie

Post on 23-Feb-2016

70 views

Category:

Documents


0 download

DESCRIPTION

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller. Definitioner: Repetition. Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statikstik II 3.  Lektion

Statikstik II3. Lektion

Multipel Logistisk regressionGenerelle Lineære Modeller

Page 2: Statikstik II 3.  Lektion

Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en

dreng skrives:

Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives:

Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

)DrengKøn|Jalæser God( P

)DrengKøn|Jalæser God(1)PigeKøn|Jalæser God( PP

)Dreng|Ja(1)Dreng|Ja()Dreng|Ja(

PPOdds

)Dreng|Ja(1

)Dreng|Ja(ln)Dreng|Ja(ln)Dreng|Ja(P

POddsLogit

Page 3: Statikstik II 3.  Lektion

Hvis ingen afhængighed…

Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende:

)Pige|Ja()Dreng|Ja( PP

1)Pige|Ja()Dreng|Ja( PP

)Pige|Ja()Dreng|Ja( OddsOdds

1)Dreng|Ja()Pige|Ja( OddsOdds

0)Dreng|Ja()Pige|Ja(ln OddsOdds

0Dreng)|Ja(logitPige)|Ja(logit

Odds-ratio

Logit-forskel

Page 4: Statikstik II 3.  Lektion

Kategorisk forklarende variabel Eksempel:

Sammenhængen ml. læsehastighed og selvvurdering?

Er du en god læser

Nej Ja TotalSætnings-læsning

Hurtig 806.3%

119993.7%

1279100.0%

Langsom 8028.1%

20571.9%

285100.0%

Usikker 1135.5%

2064.5%

31100.0%

Total 17111.2%

142488.8%

1595100.0%

Odds for ”Ja” givet hastighed

1199/80 = 14.99

205/80 = 2.56

20/11 = 1.81

Logit for ”Ja” givet hastighed

ln(14.99) = 2.707

ln(2.56) = 0.94

ln(1.81) = 0.59

Page 5: Statikstik II 3.  Lektion

Logistisk Regressionsmodel

Model: Logit(Ja|Hastighed) = a + bHastighed

Logit(Ja|Hurtig) = a + bHurtig

Logit(Ja|Langsom) = a + bLangsom

Logit(Ja|Usikker) = a + bUsikker

For reference-kategorien sæt bHurtig = 0.

Page 6: Statikstik II 3.  Lektion

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =

a + bLangsom) - a = bLangsom

Logit(Ja|Usikker) - Logit(Ja|Hurtig) =a + bUsikker) - a = bUsikker

Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

Hypotesetest H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0

Page 7: Statikstik II 3.  Lektion

For hver kategori introducer en binær variabel: xHurtig , xLangsom og xUsikker.

xHurtig = 0 altid nul (reference-kategori)

xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom

xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

Alternativ: Dummy-variable

Page 8: Statikstik II 3.  Lektion

Dummy-variable: Nu Som Tabel

Hastighed xLangsom xUsikker

Hurtig 0 0Langsom 1 0Usikker 0 1

Page 9: Statikstik II 3.  Lektion

Dummy-variable

Model:

Eksempel:

Bemærk struktur:

UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit bbba )|(

Langsom

UsikkerLangsomHurtigLangsomJaLogitba

bbba

010)|(

i

iikkkk xxxxxJaLogit babbab 111 ),,|(

Page 10: Statikstik II 3.  Lektion

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den

logistiske regression skrives på den generelle form:

Og som sandsynlighed:

i

ii xXYLogit ba)|1(

iii

iii

x

x

x

x

e

eXYPi

ii

iii

ba

baba

ba

exp1

exp

1)|1(

Page 11: Statikstik II 3.  Lektion

Skala forklarende variabel Eksempel:

Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)

Plot: Andel Ja’er for hver score.

Page 12: Statikstik II 3.  Lektion

Model: Logit(Ja|Score = x) = a + bx

Sandsynlighed:

Plot: Logit(Ja|Score=x)

Logistisk Regressionsmodel

x

x

eexScoreJaP ba

ba

1)|(

Page 13: Statikstik II 3.  Lektion

Logistiske funktion

x

x

ee1

x

x

ee

5.05.1

5.05.1

1

Page 14: Statikstik II 3.  Lektion

Fortolkning af b Logit-forskel:

Så hver gang ’score’ stiger med 1 stiger logit med b.

Odds-ratio:

Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

bbabbababa

xxxx

xScoreJaLogitxScoreJaLogit1

)|()1|(

b

ba

ba

ee

exScoreJaOdds

xScoreJaOddsx

x

1

)|()1|(

Page 15: Statikstik II 3.  Lektion

Hypotesetest

H0: b = 0

H1: b ≠ 0

Teststørrelse:

Jo større ”Wald” jo mindre tror vi på H0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H0 siger vi at b er signifikant.

0)ˆ(

ˆ 2

bb

SEWald

Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.

Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

Page 16: Statikstik II 3.  Lektion

SPSS Output

Estimerede model:

Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger.

Sandsynligheder

xxScoreJaLogit 189.0402.0)|(

72.0

7189.0402.0exp17189.0402.0exp)7|(

ScoreJaP

Page 17: Statikstik II 3.  Lektion

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:

Logit(Ja|Score=x) = a + b1x + b2x2

Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

Page 18: Statikstik II 3.  Lektion

Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede

antal Ja’er i den tilpassede model.

Ox = observerede antal personer med score x, der svarer ”Ja”.

Nx = antal personer med score x. Ex = forventede antal personer med score x, der

svarer ”Ja”.

x

x

xxx eeNxScoreJaPNE ba

ba

1)|(

Page 19: Statikstik II 3.  Lektion

Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse:

Hvis vores værdier af a og b er korrekte gælder

Hvor df = ”antal led i summen” – ”antal parametre i modellen”

Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen

kikset.

x x

xx

EOE 2

2c

df22 ~ cc

Page 20: Statikstik II 3.  Lektion

SPSS Output

Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0.

Dvs. vi kan ikke afvise at modellen er korrekt.

Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

Page 21: Statikstik II 3.  Lektion

Multipel Logistisk Regression Ide: Mere end en forklarende variabel.

Model:

Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0

EksemplerLogit(Ja|Dreng,Hurtig) = a +bDreng +bHurtig = a + 0 + 0 = a

Logit(Ja|Pige,Langsom) = a +bPige +bLangsom

HastighedKønHastighedKønJaLogit bba ,|

Page 22: Statikstik II 3.  Lektion

Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed:

Logit(Ja|Køn,Langsom) Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) (a+bKøn+bHurtig) = bLangsom

Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.

Logit-forskelle

Page 23: Statikstik II 3.  Lektion

Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed:

Logit(Ja|Pige,Hastighed) Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) (a+bDreng+bHastighed) = bPige.

Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Logit-forskelle

Page 24: Statikstik II 3.  Lektion

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge

faktisk afhænger af hastigheden – at der er en interaktion?

Indfør interaktionsled bKøn,Hastighed.

Model: Logit(Ja|Køn,Hastighed) =

a bKøn bHastighed bKøn,Hastighed

Page 25: Statikstik II 3.  Lektion

Parametere der refererer til en eller flere reference- kategorier sættes lig nul:

bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0

bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

Interaktion / Vekselvirkning

Page 26: Statikstik II 3.  Lektion

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)

Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.

KønDreng Pige

Læsehastighed Hurtig a abPige

Langsom abLangsom abPigebLangsom

bPige,Langsom

Usikker abUsikker abPigebUsikker

bPige,Usikker

Page 27: Statikstik II 3.  Lektion

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige +

bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker +

bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

Page 28: Statikstik II 3.  Lektion

Hypotse

H0: bPige,Langsom = bPige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og

Hastighed.

H1: bPige,Langsom ≠ 0 og/eller bPige,Usikker ≠ 0 Dvs. der er interaktion mellem Køn og Hastighed.

Page 29: Statikstik II 3.  Lektion

SPSS

SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på

’>a*b>’ Husk at angive kategoriske variable under ’Categorical’

*Klik*

Page 30: Statikstik II 3.  Lektion

SPSS: Output

Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’

H-L Test: p-værdi = 1, da modellen er mættet.

Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

Page 31: Statikstik II 3.  Lektion

Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære

Model: Middelværdien af Y givet X

Mere præcist: i’te observation ud af n er givet ved

xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

k

i iikk xxxXYE111)|( babba

iikkii xxY ebba ,,11

IID

Page 32: Statikstik II 3.  Lektion

Simpel lineær regression

X

Y

Xi

Yi { β1

1a0

εi

E[Y|X] = a + β1X

iii xy eba 1),0( 2se Ni iid

GLM med én skala forklarende variabel (k=1)

Modellen er

Modellen siger: E(Y|X) = a + b1X V(Y|X) = σ2

Y|X ~ N(a + β1X, σ2)

Page 33: Statikstik II 3.  Lektion

Endnu en tegning…

X

Y

i.i.d. normalfordelte fejlled

Yi|xi~N(a + β1xi,σ2)

x1 x3x2 x4 x5

xY 1ba

Page 34: Statikstik II 3.  Lektion

Estimation Model:

yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!

Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?

xbay 1ˆ

Page 35: Statikstik II 3.  Lektion

er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

Y

X

iY

iY

Xi

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Page 36: Statikstik II 3.  Lektion

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

n

i ieSSE1

2

n

i iin

i iin

i i xbayyye1

211

21

2 )()ˆ(

Page 37: Statikstik II 3.  Lektion

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

aSSE

b1

Page 38: Statikstik II 3.  Lektion

Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 1110 bb vs HH

)( 1

1

bSEbt

Page 39: Statikstik II 3.  Lektion

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.

0 . 8

0 . 7

0 . 6

0 . 5

0 . 4

0 . 3

0 . 2

0 . 1

0 . 0

tOrange område = p-værdi

t0

t-fordeling med n-2 frihedsgrader

Page 40: Statikstik II 3.  Lektion

Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?

H0: b1 = 0 ingen lineær sammenhængH1: b1 0 lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

Page 41: Statikstik II 3.  Lektion

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Page 42: Statikstik II 3.  Lektion

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring (a) og hældning (b1) er signifikante!xy 290.0486,5ˆ