statistik lektion 6
DESCRIPTION
Statistik Lektion 6. Konfidensinterval for varians Hypoteseteori Hypotesetest af middelværdi og varians. Repetition: Konfidensinterval. Et (1- a )100% konfidensinterval er et interval, der indeholder værdien af populationsparameteren med (1- a )100% sikkerhed ( ikke sandsynlighed). - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/1.jpg)
StatistikLektion 6
Konfidensinterval for variansHypoteseteori Hypotesetest af middelværdi og varians
![Page 2: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/2.jpg)
Repetition: Konfidensinterval
Et (1-a)100% konfidensinterval er et interval, der indeholder værdien af populationsparameteren med (1-a)100% sikkerhed (ikke sandsynlighed).
Hvis jeg i fremtiden gentager mit eksperiment, vil der være (1-a)100% sandsynlighed for at intervallet indeholder den sande populationsværdi.
![Page 3: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/3.jpg)
Repetition: Konfidensinterval for middelværdienHvis variansen s2 er kendt og populationen enten er normalfordelt eller stikprøven er stor, så er et (1-a)100% konfidensinterval for populationsmiddelværdien, m, givet ved
nzx
2
Hvis variansen s2 er ukendt og populationen er normalfordelt, så er et (1-a)100% konfidensinterval for m givet ved
n
stx
2
z
t
Husk: n-1 frihedsgrader
![Page 4: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/4.jpg)
Konfidensinterval for s2
Hvis populationen er normalfordelt med varians s2, så gælder der at
hvor S2 er stikprøvevariansen.
212
2
~)1(
n
Sn
a
2
Kritisk værdi: Antag X2 ~c2(n-1) . Da er den kritiske værdi c2
n-1,a defineret ved
P(X 2 > c2n-1,a) = a
Dvs. vi har
1))1(
( 22,12
22
21,1 nn
SnP
![Page 5: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/5.jpg)
Konfidensinterval for s2
Hvis populationen er normalfordelt, så er et (1-a)100% konfidensinterval for s2 givet ved
hvor n er antallet af observationer i stikprøven.
1)1()1(
221,1
22
22,1
2
nn
SnSnP
2
21,1
2
22,1
2 )1(;
)1(
nn
snsn
Bemærk, at estimatoren S2 er erstattet af estimatet s2.
Resultatet kommer sig af, at sandsynligheden på forrige slide kan omskrives til
![Page 6: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/6.jpg)
EksempelEn maskine fylder kaffekander - med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians- estimat på s2 = 18,540. Giv et 95% konfidensinterval for populations-variansen, s2.
Løsning:
2
21,1
2
22,1
2 )1(,
)1(
nn
snsn
706050403020100
0.06
0.05
0.04
0.03
0.02
0.01
0.00
2
f (2)
Chi-Square Distribution: df = 29
0.0250.025
0.95
05.162975.0 72.452
025.0
![Page 7: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/7.jpg)
Løsning i R
Først ”gemmer” vi stikprøvestørrelsen og variansen
> n = 30> s2 = 18540
Vi kan finde og vha
> qchisq(p=c(0.975,0.025),df=n-1)[1] 45.72229 16.04707
Bemærk at resultatet er en vektor. Konfidensintervallet kan nu udregnes vha.
> (n-1)*s2/qchisq(p=c(0.975,0.025),df=n-1)[1] 11759.25 33505.18
221,1 n
22,1 n
![Page 8: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/8.jpg)
Hypoteser og Hypotesetest
En hypotese er typisk et udsagn om en populationsparameter, fx middelværdien.
En hypotesetest er en procedure, der afgører om vi vil afvise eller ikke afvise vores hypotese.
Vi afviser vores hypotese, hvis vores data er passer ”usandsynligt dårligt” med vores hypotese.
![Page 9: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/9.jpg)
Case: Hypotesetest på dåse
Baggrund: I egenskab af brygmestre hos Bryggeriet har vi fået installeret et nyt tappeanlæg, der fylder på 0.5l dåser. Vi tømmer 25 dåser og finder at gennemsnitsvolumen er 497.1ml…
Producenten af anlægget har oplyst at standardafvigelsen for den påfyldte volumen er 6.7ml.
Anklage: Producenten har sjusket med installationen
Spørgsmål: Er producenten skyldig i sjusk eller ej?
![Page 10: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/10.jpg)
Trin I en Hypotesetest
En hypotesetest består af 5 elementer:
I. Antagelser
II. Hypoteser
III. Teststørrelser
IV. Beslutning/konklusion
a) Vha. p-værdi
b) Vha. kritisk værdi
![Page 11: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/11.jpg)
I: Antagelser
Type af data: Se på om det er diskrete eller kontinuerte data.
Populationsfordeling: Se på hvilken fordeling populationen har.
Stikprøve: Hvilken metode er brugt til at indsamle data. Skal være en simpel stikprøve i de test vi bruger.
Stikprøvestørrelse: Hvor stor er den stikprøve vi har til at beregne test størrelsen?
I bryggeri-eksemplet antager vi at vi har n=25 observationer og at populationen af volumener er normalfordelt.
![Page 12: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/12.jpg)
II: Hypoteser Nul-hypotesen H0:
En påstand om en populations-parameter. Er typisk mere specifik end alternativ-hypotesen.
Den alternative hypotese H1:
En påstand om alle situationer, der ikke er dækket af H0, dvs. det ”modsatte af H0”.
Generelt princip:
Nul-hypotesen er sand indtil det modsatte er bevist.
Strafferetsanalogi: H0 = uskyldig. Uskyldig indtil det det modsatte er bevist.
I bryggeri-eksemplet har vi to hypoteser:
H0: m = m0 (her: m0 = 500) (ingen sjusk, uskyldig)
H1: m m0 (sjusk, ikke uskyldig)
![Page 13: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/13.jpg)
Teststørrelsen beregnes fra stikprøve data og bruges til at vurdere nul-hypotesen H0.
Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien.
Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H0, dvs. hvilke værdier, der taler imod H0- hypotesen.
I Bryggeri-eksemplet skal vi bruge
Teststørrelsen er
Hvis H0 er sand ved vi at
Værdier af z langt fra nul er kritiske for H0.
III: Teststørrelsen
1.497x
16.2257.6
5001.4970
n
xz
)1,0(~0 Nn
XZ
![Page 14: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/14.jpg)
IV: Konklusion/Beslutningsregel En beslutningsregel for en hypotese test, er en regel for under hvilke
betingelser nul-hypotesen kan forkastes på baggrund af stikprøven.
Intuitivt bygger beslutningsreglen på at vi afviser H0, hvis teststørrelsen ligger for langt fra hvad man ville forvente hvis H0 er sand.
Mest almindeligt er at bruge en p-værdi. En p-værdi er et udtryk for hvor ”trovædig” H0-hypotesen er på baggrund af en stikprøve. Hvis p-værdien er for lille afviser vi H0.
Lidt mere old-school er at bruge kritiske værdier. Her er ideen at afvise H0-hypotesen, hvis teststørrelsen er mere ”esktrem” end den/de kritiske værdier.
For begge metoder gælder, at sandsynligheden for at forkaste H0-hypotesen når H0 er sand betegnes signifikansniveauet og angives ved a.
![Page 15: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/15.jpg)
a) p-værdi og beslutningsregelDefinition: p-værdien for en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H0 som den observerede teststørrelse, under antagelse af at nul hypotesen er sand.
Fortolkning: Jo mere ekstrem teststørrelsen er, jo mindre er p-værdien. p-værdien bliver et udtryk for hvor meget vi tror på H0. Så når p-værdien bliver for lille, så tror vi så lidt på H0, at vi afviser H0.
Procedure:1. Vælg et signifikansniveau a, typisk =0.05a .2. Udfør testen, dvs. beregn teststørrelsen3. Beregn p-værdien4. Beslutning: Hvis p-værdien < a, så afvises H0 (H1 accepteres)
Hvis p-værdien > a, så kan vi ikke afvise H0
![Page 16: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/16.jpg)
Eksempler på dåserAntag at volumen i populationen af 0.5l Bryggeri-dåser er normalfordelt med ukendt middelværdi m og kendt varians s2.
Vi opstiller to hypoteserH0: m = m0 (her: m0 = 500)H1: m m0
I udgangspunktet er H0 sand, dvs.
Teststørrelsen er:
Skal vi afvise H0?
nNX 20 ,~ 1,0~0 N
n
XZ
16.2257.6
5001.4970
n
xz
![Page 17: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/17.jpg)
Beslutning vha. kritiske værdierBeslutningsregel: Vi afviser H0 hvis
Eller ækvivalent kan vi afvise H0, hvis
Sandsynligheden for at afvise en sand H0 er præcis a.
Ovenfor har vi benyttet:
22 zzzz eller
nzx
nzx
2020 eller
nzx
n
xz
0
0
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
/2a
2z
/2a
2z
Kritiske værdier
Kritiske værdier
![Page 18: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/18.jpg)
Eksempel: p-værdier på dåseBryggeri-eksemplet: Vi har observeret et gennemsnit på 497.1 ml for 25 observation fra en normalfordelt population.
Teststørrelsen:
En mere kritisk værdi ville være en teststørrelse mindre end -2.16 eller større end 2.16.
p-værdien er derfor
Da 0.03 < 0.05 afviser vi H0.
03.0)16.2(2)16.2()16.2( ZPZPZP
16.2257.6
5001.4970
n
xz
![Page 19: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/19.jpg)
Test af middelværdi (to-sidet test) Antagelse: Test af m, X kvantitativ variabel og n>30.
Hypoteser:
Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdi m0 og standard afvigelse
Teststørrelse:
01
00
:H
:H
n
XZ
0
X
n
z0
![Page 20: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/20.jpg)
Eksempel Hypoteser: H0: m = 30
H1: mm 30
Stikprøve: n = 50 = 31.5 s = 5
Teststørrelse:
p-værdi:
Lille p-værdi, så H0 forkastes. Fordeling:
12,2505
305.31
Z
034.0017.02)12,2(2
)12,2|(|
Zp
Zpp
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
.017 .017
x
12.2 z 12.2z
![Page 21: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/21.jpg)
Summe opgave
H0: m = 30
H1: mm 30
Stikprøve: n = 20 = 31.5 s = 5
Beregn værdien af test størrelsen og p-værdien.
H0: m = 30
H1: mm 30
Stikprøve: n = 100 = 31.5 s = 5
Beregn værdien af test størrelsen og p-værdien
x x
![Page 22: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/22.jpg)
Højresidet test (et en-sidet test) Antagelse: Test af m, X kontinuert variabel og n>30.
Hypoteser:
Stikprøve-fordeling af når H0 er sand er approksimativ normal med middelværdi m og standard afvigelse
Teststørrelse:
p-værdien: p( Z > observeret z værdi)
0
000
:
:
1H
eller H
n
XZ
0
Xn
![Page 23: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/23.jpg)
Eksempel højresidet test
H0: m = 30
H1: m > 30
Stikprøve: n = 50 = 31.5 s = 5
Test størrelse:
p-værdi:
Lille p-værdi, så H0 forkastes.
12,2505
305.31
Z
017.0)21,2( ZP
0. 80. 70. 60. 50. 40. 30. 20. 10. 0
0
.017
Z=2,12
x
![Page 24: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/24.jpg)
Test af middelværdi for ukendt varians Antagelse: Population normalfordelt med ukendt middelværdi
m og ukendt varians σ² Hypoteser:
Teststørrelse t er t-fordelt med (n-1) frihedsgrader:
p-værdien: 2·P(T > |t|), hvor T ~ tn-1 (kræver computer)
Venstre- og højre-sidet test efter samme princip som før.
:H
:H
01
00
ns
Xt 0
![Page 25: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/25.jpg)
Eksempel
H0: m = 30 H1: mm 30
Signifikansniveau: = 0.05a
Stikprøve: n = 50 = 31.5 s = 5
Teststørrelse:
Teststørrelsens fordeling:
p-værdi:
Da p-værdi < a, forkastes H0.12,2505
305.31
t
040.0020.02
)12,2(2
|)12,2|(2
tP
TP
0.80.70.60.50.40.30.20.10.0
0
.020 .020
2.12-2.12
x
![Page 26: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/26.jpg)
Eksempel - fortsat
H0: m = 30 H1: mm 30
Signifikansniveau: = 0.05a
Stikprøve: n = 50 = 31.5 s = 5
Teststørrelse:
Teststørrelsens fordeling:
Slå tn-1, /a 2 op, enten vha. tabel eller R.
t49,a/2 = 2,01 Da 2,12 er større end 2,01
forkastes H0.
Hvis t = -2,12 ville vi forkaste H0 fordi da -2,12 er mindre end -2.01.
12,2505
305.31
t
0.80.70.60.50.40.30.20.10.0
0
.025 .025
2.02-2.01
x
2.12
![Page 27: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/27.jpg)
Hypotesetest for middelværdi i R Vi ønsker at teste om middelhøjden er forskellig fra nul (?!)
H0 : m = 0 vs H1: m 0 I R gøres det vha.
> t.test(sundby$hoejde)
One Sample t-test
data: sundby$hoejde t = 918.6152, df = 2626, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 172.3263 173.0635 sample estimates:mean of x 172.6949
P-værdi
![Page 28: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/28.jpg)
Hypotesetest for middelværdi i R Vi ønsker at teste om middelhøjden er højere end 175 cm.
H0 : m = 175 vs H1: m > 175 I R gøres det vha.
> t.test(sundby$hoejde,alternativ="greater",mu=175)
One Sample t-test
data: sundby$hoejde t = -12.2615, df = 2626, p-value = 1alternative hypothesis: true mean is greater than 175 95 percent confidence interval: 172.3856 Inf sample estimates:mean of x 172.6949
![Page 29: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/29.jpg)
Hypotesetest for middelværdi i R Generel kommando for test af middelværdi i én stikprøve:
t.test(data, alternative = alternativ, mu = m0)
Nul-hypotese H0 : m = m0 (default m0 = 0)
Alternativ hypotese H1 : m m0 alternativ = "two.sided” (default) H1 : m > m0 alternativ = ”greater” H1 : m < m0 alternativ = ”less”
I kan finde en komplet beskrivelse vha. ?t.test
![Page 30: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/30.jpg)
Test af Variansen Antagelse: Populationen er normalfordelt med varians s2.
Hypoteser:
Teststørrelse:
Under H0 følger c2 en c2-fordeling med n-1 frihedsgrader
Kritiske værdier:
p-værdi: hvis c2>c2n-1,0.5 og
ellers, hvor C 2~c2n-1.
Højresidet og venstresidet test efter samme princip som før.
20
21
20
20
:H
:H
20
2)1(
sn
2
)(2 22 ΧP
22,1
221,1 nn og
)(2 22 χΧP
![Page 31: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/31.jpg)
Test af varians - Eksempel H0: s2=1 H1: s2<1 =0.05 , a s2=0.8659, n=25
Venstre-sidet test, så H0 forkastes, hvis .
Da kan vi ikke forkaste H0.
78.201
8659.0)125()1(20
22
sn
)1(21
2 n
85.13)24()1( 295.0
21 n
13.85 20.78
0.05
)1(21
2 n
0
p Da p-værdi > 0.05 kan vi ikke afvise H0. p-værdien findes i R vha. pchisq(20.78,df=24)
3483.0)78.20())1(( 220
22 PsnPværdi
![Page 32: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/32.jpg)
Opsummering: Test af middelværdi 1 Antagelser: Kendt varians + normalfordelt population eller stor
stikprøve: Z-test. Nul-hypotese
H0: m = m0
Teststørrelse:
Alternativ hypoteser H1: m < m0 p-værdi = P( Z<z ) H1: m > m0 p-værdi = P( Z>z ) H1: m = m0 p-værdi = P( |Z|>|z| ) = 2⋅P( Z>|z| )
Beslutning: Hvis p-værdi < a : Afvis H0 og accepter H1. Hvis p-værdi > a : Ej afvis H0 og ej accepter H1.
n
xz
0
Test vha. p-værdier
![Page 33: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/33.jpg)
Opsummering: Test af middelværdi 1.1 Antagelser: Kendt varians + normalfordelt population eller stor
stikprøve: Z-test Nul-hypotese
H0: m = m0
Teststørrelse:
Alternativ hypoteser H1: m < m0
Afvis H0 hvis z < -Za
H1: m > m0
Afvis H0 hvis z > Za
H1: m = m0
Afvis H0 hvis |z| > Z /2a
n
xz
0
Test vha. kritiske værdier
![Page 34: Statistik Lektion 6](https://reader031.vdocuments.pub/reader031/viewer/2022031922/56812b35550346895d8f43b3/html5/thumbnails/34.jpg)
Opsummering: Test af middelværdi 2 Antagelser: Ukendt varians + normalfordelt population: t-test Nul-hypotese
H0: m = m0
Teststørrelse:
Alternativ hypoteser H1: m < m0
Afvis H0 hvis t < -t ,a n-1
H1: m > m0
Afvis H0 hvis t > t ,a n-1
H1: m = m0
Afvis H0 hvis |t| > t /2,a n-1
ns
xt 0
Test vha. kritiske værdier