Download - Statikstik II 3. Lektion
![Page 1: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/1.jpg)
Statikstik II3. Lektion
Multipel Logistisk regressionGenerelle Lineære Modeller
![Page 2: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/2.jpg)
Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en
dreng skrives:
Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives:
Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
)DrengKøn|Jalæser God( P
)DrengKøn|Jalæser God(1)PigeKøn|Jalæser God( PP
)Dreng|Ja(1)Dreng|Ja()Dreng|Ja(
PPOdds
)Dreng|Ja(1
)Dreng|Ja(ln)Dreng|Ja(ln)Dreng|Ja(P
POddsLogit
![Page 3: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/3.jpg)
Hvis ingen afhængighed…
Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende:
)Pige|Ja()Dreng|Ja( PP
1)Pige|Ja()Dreng|Ja( PP
)Pige|Ja()Dreng|Ja( OddsOdds
1)Dreng|Ja()Pige|Ja( OddsOdds
0)Dreng|Ja()Pige|Ja(ln OddsOdds
0Dreng)|Ja(logitPige)|Ja(logit
Odds-ratio
Logit-forskel
![Page 4: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/4.jpg)
Kategorisk forklarende variabel Eksempel:
Sammenhængen ml. læsehastighed og selvvurdering?
Er du en god læser
Nej Ja TotalSætnings-læsning
Hurtig 806.3%
119993.7%
1279100.0%
Langsom 8028.1%
20571.9%
285100.0%
Usikker 1135.5%
2064.5%
31100.0%
Total 17111.2%
142488.8%
1595100.0%
Odds for ”Ja” givet hastighed
1199/80 = 14.99
205/80 = 2.56
20/11 = 1.81
Logit for ”Ja” givet hastighed
ln(14.99) = 2.707
ln(2.56) = 0.94
ln(1.81) = 0.59
![Page 5: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/5.jpg)
Logistisk Regressionsmodel
Model: Logit(Ja|Hastighed) = a + bHastighed
Logit(Ja|Hurtig) = a + bHurtig
Logit(Ja|Langsom) = a + bLangsom
Logit(Ja|Usikker) = a + bUsikker
For reference-kategorien sæt bHurtig = 0.
![Page 6: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/6.jpg)
Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =
a + bLangsom) - a = bLangsom
Logit(Ja|Usikker) - Logit(Ja|Hurtig) =a + bUsikker) - a = bUsikker
Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.
Hypotesetest H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0
![Page 7: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/7.jpg)
For hver kategori introducer en binær variabel: xHurtig , xLangsom og xUsikker.
xHurtig = 0 altid nul (reference-kategori)
xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom
xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker
Alternativ: Dummy-variable
![Page 8: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/8.jpg)
Dummy-variable: Nu Som Tabel
Hastighed xLangsom xUsikker
Hurtig 0 0Langsom 1 0Usikker 0 1
![Page 9: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/9.jpg)
Dummy-variable
Model:
Eksempel:
Bemærk struktur:
UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit bbba )|(
Langsom
UsikkerLangsomHurtigLangsomJaLogitba
bbba
010)|(
i
iikkkk xxxxxJaLogit babbab 111 ),,|(
![Page 10: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/10.jpg)
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den
logistiske regression skrives på den generelle form:
Og som sandsynlighed:
i
ii xXYLogit ba)|1(
iii
iii
x
x
x
x
e
eXYPi
ii
iii
ba
baba
ba
exp1
exp
1)|1(
![Page 11: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/11.jpg)
Skala forklarende variabel Eksempel:
Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)
Plot: Andel Ja’er for hver score.
![Page 12: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/12.jpg)
Model: Logit(Ja|Score = x) = a + bx
Sandsynlighed:
Plot: Logit(Ja|Score=x)
Logistisk Regressionsmodel
x
x
eexScoreJaP ba
ba
1)|(
![Page 13: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/13.jpg)
Logistiske funktion
x
x
ee1
x
x
ee
5.05.1
5.05.1
1
![Page 14: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/14.jpg)
Fortolkning af b Logit-forskel:
Så hver gang ’score’ stiger med 1 stiger logit med b.
Odds-ratio:
Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.
bbabbababa
xxxx
xScoreJaLogitxScoreJaLogit1
)|()1|(
b
ba
ba
ee
exScoreJaOdds
xScoreJaOddsx
x
1
)|()1|(
![Page 15: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/15.jpg)
Hypotesetest
H0: b = 0
H1: b ≠ 0
Teststørrelse:
Jo større ”Wald” jo mindre tror vi på H0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H0 siger vi at b er signifikant.
0)ˆ(
ˆ 2
bb
SEWald
Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.
Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
![Page 16: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/16.jpg)
SPSS Output
Estimerede model:
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger.
Sandsynligheder
xxScoreJaLogit 189.0402.0)|(
72.0
7189.0402.0exp17189.0402.0exp)7|(
ScoreJaP
![Page 17: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/17.jpg)
Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:
Logit(Ja|Score=x) = a + b1x + b2x2
Hvis b2 ikke er signifikant, så er en logit-lineær model passende.
![Page 18: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/18.jpg)
Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede
antal Ja’er i den tilpassede model.
Ox = observerede antal personer med score x, der svarer ”Ja”.
Nx = antal personer med score x. Ex = forventede antal personer med score x, der
svarer ”Ja”.
x
x
xxx eeNxScoreJaPNE ba
ba
1)|(
![Page 19: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/19.jpg)
Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse:
Hvis vores værdier af a og b er korrekte gælder
Hvor df = ”antal led i summen” – ”antal parametre i modellen”
Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen
kikset.
x x
xx
EOE 2
2c
df22 ~ cc
![Page 20: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/20.jpg)
SPSS Output
Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0.
Dvs. vi kan ikke afvise at modellen er korrekt.
Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.
![Page 21: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/21.jpg)
Multipel Logistisk Regression Ide: Mere end en forklarende variabel.
Model:
Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0
EksemplerLogit(Ja|Dreng,Hurtig) = a +bDreng +bHurtig = a + 0 + 0 = a
Logit(Ja|Pige,Langsom) = a +bPige +bLangsom
HastighedKønHastighedKønJaLogit bba ,|
![Page 22: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/22.jpg)
Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed:
Logit(Ja|Køn,Langsom) Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) (a+bKøn+bHurtig) = bLangsom
Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.
Logit-forskelle
![Page 23: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/23.jpg)
Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed:
Logit(Ja|Pige,Hastighed) Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) (a+bDreng+bHastighed) = bPige.
Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.
Logit-forskelle
![Page 24: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/24.jpg)
Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge
faktisk afhænger af hastigheden – at der er en interaktion?
Indfør interaktionsled bKøn,Hastighed.
Model: Logit(Ja|Køn,Hastighed) =
a bKøn bHastighed bKøn,Hastighed
![Page 25: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/25.jpg)
Parametere der refererer til en eller flere reference- kategorier sættes lig nul:
bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0
bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0
Interaktion / Vekselvirkning
![Page 26: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/26.jpg)
Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)
Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.
KønDreng Pige
Læsehastighed Hurtig a abPige
Langsom abLangsom abPigebLangsom
bPige,Langsom
Usikker abUsikker abPigebUsikker
bPige,Usikker
![Page 27: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/27.jpg)
Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige +
bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige
og usikre læsere.
logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker +
bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige
og usikre læsere.
![Page 28: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/28.jpg)
Hypotse
H0: bPige,Langsom = bPige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og
Hastighed.
H1: bPige,Langsom ≠ 0 og/eller bPige,Usikker ≠ 0 Dvs. der er interaktion mellem Køn og Hastighed.
![Page 29: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/29.jpg)
SPSS
SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på
’>a*b>’ Husk at angive kategoriske variable under ’Categorical’
*Klik*
![Page 30: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/30.jpg)
SPSS: Output
Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’
H-L Test: p-værdi = 1, da modellen er mættet.
Hverken ’køn’ eller ’hastighed*køn’ er signifikante.
![Page 31: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/31.jpg)
Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære
Model: Middelværdien af Y givet X
Mere præcist: i’te observation ud af n er givet ved
xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)
k
i iikk xxxXYE111)|( babba
iikkii xxY ebba ,,11
IID
![Page 32: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/32.jpg)
Simpel lineær regression
X
Y
Xi
Yi { β1
1a0
εi
E[Y|X] = a + β1X
iii xy eba 1),0( 2se Ni iid
GLM med én skala forklarende variabel (k=1)
Modellen er
Modellen siger: E(Y|X) = a + b1X V(Y|X) = σ2
Y|X ~ N(a + β1X, σ2)
![Page 33: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/33.jpg)
Endnu en tegning…
X
Y
i.i.d. normalfordelte fejlled
Yi|xi~N(a + β1xi,σ2)
x1 x3x2 x4 x5
xY 1ba
![Page 34: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/34.jpg)
Estimation Model:
yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!
Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.
Estimerede regressions linje
a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?
xbay 1ˆ
![Page 35: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/35.jpg)
er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).
)ˆ( iii yye
Residual led
iYiYieˆ
Y
X
iY
iY
Xi
iXYiY givet for værdi eforvendted den ˆ
),( ii YX
XbaY 1ˆ
Den estimerede regressionslinje
datapunkt eobservered Det
![Page 36: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/36.jpg)
Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.
Dvs, vi vil minimere
SSE er Sum of Squared Errors. Skrevet ud:
Bemærk: Funktion af to variable (a og b1).
n
i ieSSE1
2
n
i iin
i iin
i i xbayyye1
211
21
2 )()ˆ(
![Page 37: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/37.jpg)
SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig.
Minimering
aSSE
b1
![Page 38: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/38.jpg)
Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:
Teststørrelse:
Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.
Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
0:0: 1110 bb vs HH
)( 1
1
bSEbt
![Page 39: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/39.jpg)
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen
Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.
0 . 8
0 . 7
0 . 6
0 . 5
0 . 4
0 . 3
0 . 2
0 . 1
0 . 0
tOrange område = p-værdi
t0
t-fordeling med n-2 frihedsgrader
![Page 40: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/40.jpg)
Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?
H0: b1 = 0 ingen lineær sammenhængH1: b1 0 lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
![Page 41: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/41.jpg)
SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variableSkala forklarende variable
![Page 42: Statikstik II 3. Lektion](https://reader036.vdocuments.pub/reader036/viewer/2022081503/568164d3550346895dd7053d/html5/thumbnails/42.jpg)
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring (a) og hældning (b1) er signifikante!xy 290.0486,5ˆ