statistik lektion 6

41
Statistik Lektion 6 Konfidensinterval for andele 2 -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele

Upload: emmanuel-dalton

Post on 30-Dec-2015

56 views

Category:

Documents


0 download

DESCRIPTION

Statistik Lektion 6. Konfidensinterval for andele c 2 -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele. Repetition fra sidst: Konfidensintervaller. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statistik Lektion 6

StatistikLektion 6

Konfidensinterval for andele2-fordelingen og konfidensinterval for variansenHypoteseteori Hypotesetest af middelværdi, varians og andele

Page 2: Statistik Lektion 6

Repetition fra sidst: Konfidensintervaller Et punkt-estimatpunkt-estimat estimerer værdien af en ukendt populations-

parameter ved en enkelt værdi. Fx: Middelhøjden blandt oecon studernde .

Et konfidens intervalkonfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimatinterval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauetkonfidens niveauet.

Et punkt estimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat?

Et interval estimat indeholder flere informationer, for eksempel: Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande

middelværdi μ. Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den

sande middelværdi μ.

73,172x

Page 3: Statistik Lektion 6

Repetition fra sidst (1-α)100% konfidens interval for:

Populations middelværdi μ, når X er normal fordelt (eller stikprøven er stor) og σ er kendt:

Populations middelværdi μ, når X er normal fordelt og σ er ukendt:

n

stx

2

nzx

2

z

tHusk: n-1 frihedsgrader

Page 4: Statistik Lektion 6

Konfidensinterval for andelen i en stor stikprøve Estimatet af populations-andelen, p, er stikprøve-andelen

, ,dvs. andelen af succeser i stikprøven.

Hvis np(1-p)>9, så er stikprøve-fordelingen af stikprøve-andelen ca. normalfordelt:

Et (1-α)100% konfidensinterval for p er

n

pppNP

)1(,~ˆ

nxp ˆ

n

ppzp

)ˆ1(ˆˆ

2

Page 5: Statistik Lektion 6

For en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder?

En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt.

Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

For en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder?

En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt.

Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

4328.0,2472.0

0928.034.0

)04737.0)(96.1(34.0

100

)66.0)(34.0(96.134.0

)ˆ1(ˆˆ

2

n

ppzp

Eksempel

Page 6: Statistik Lektion 6

2-fordelingen [ki-i-anden]

En 2 fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre.

Fordelingen er højreskæv. En 2 fordeling er specificeret

ved antallet af frihedsgrader. Notation: En stokastisk

variabel Y, der følger en 2

fordeling med frihedsgrader angives som

100500

0.10

0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00

2

f(2

)

Chi-Square D istribution: d f=10 , df=30, df=50

df = 10

df = 30

df = 50

2-fordelingen nærmer sig en normal-fordelingen, når antallet af frihedsgrader vokser.

2~ Y

Page 7: Statistik Lektion 6

Mere om2 fordelingen

Hvis Y er -fordelt med frihedsgrader:

Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer

Da gælder

222

21

2nXXXX

2][][ YVYE og

22 ~ nX

[ny]

Page 8: Statistik Lektion 6

Stikprøvevariansen og dens fordeling Stikprøve-variansen for en tilfældig stikprøve er

Generelt gælder

Hvis populationen er normalfordelt gælder

1

1

2

2

n

XXS

n

i i

212

22 ~

)1(

n

Sn

)1(2][][ 4222 nSVSE og

Page 9: Statistik Lektion 6

Areal i højre hale (α)

.995 .990 .975 .950 .900 .100 .050 .025 .010 .005

1 0.0000393 0.000157 0.000982 0.000393 0.0158 2.71 3.84 5.02 6.63 7.88 2 0.0100 0.0201 0.0506 0.103 0.211 4.61 5.99 7.38 9.21 10.60 3 0.0717 0.115 0.216 0.352 0.584 6.25 7.81 9.35 11.34 12.84 4 0.207 0.297 0.484 0.711 1.06 7.78 9.49 11.14 13.28 14.86 5 0.412 0.554 0.831 1.15 1.61 9.24 11.07 12.83 15.09 16.75 6 0.676 0.872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55 7 0.989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28 8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.95 9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.5910 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.1911 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.72 26.7612 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.3013 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.8214 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.3215 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.8016 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.2717 5.70 6.41 7.56 8.67 10.09 24.77 27.59 30.19 33.41 35.7218 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16

Sandsynligheder i 2 fordelingenTabel 4 s778

2

R cmdr: Distributions → Continuous Distributions → Chi-squared distribution → Chi-squared quantiles… (vælg upper tail)

R: qchisq(p=…,df=…,lower.tail=FALSE)

Page 10: Statistik Lektion 6

Et (1-)100% konfidens interval for populations variansen 2 (hvis populationen er normal fordelt) er givet som:

hvor er fraktilen i 2 fordelingen og er fraktilen.

( ),( )n s n s

1 12

2

2

2

12

2

2

2 1

2

2

2

12

Bemærk: Fordi 2 fordelingen er skæv, er konfidens-intervallet for populations-variansen ikke symmetrisk omkring s2.

Bemærk: Fordi 2 fordelingen er skæv, er konfidens-intervallet for populations-variansen ikke symmetrisk omkring s2.

Konfidens-interval for populations-variansen, 2

Page 11: Statistik Lektion 6

En maskine fylder kaffekander (med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s2 = 18,540. Giv et 95% konfidens interval for populations-variansen, 2.

En maskine fylder kaffekander (med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s2 = 18,540. Giv et 95% konfidens interval for populations-variansen, 2.

2

21

2

2

2

2 )1(,

)1(

snsn

2

21

2

2

2

2 )1(,

)1(

snsn

Eksempel

Page 12: Statistik Lektion 6

706050403020100

0.06

0.05

0.04

0.03

0.02

0.01

0.00

2

f (2

)

Chi-Square Distribution: df = 29

0.0250.025

0.95

0 975

2 16 05. . 0 025

2 4572. .

Eksempel

Areal i højre hale

df .995 .990 .975 .950 .900 .100 .050 .025 .010 .005

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .28 12.46 13.56 15.31 16.93 18.94 37.92 41.34 44.46 48.28 50.9929 13.12 14.26 16.05 17.71 19.77 39.09 42.56 45.72 49.59 52.3430 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67

2

21

2

2

2

2 )1(,

)1(

snsn

Page 13: Statistik Lektion 6

Hypoteser og Hypotesetest En hypotese er et udsagn om nogle karakteristika af en variabel

eller mængde af variable Fx ”Middelhøjden af Oecon studerende er 175cm.”

I en hypotesetest testes værdier, der er opstillet i en hypotese, ved at sammenligne med værdier beregnet fra data.

For eksempel kan gennemsnittet af en stikprøve af jeres højder beregnes til 172,7 cm. Selvfølgelig er 172,7cm forskelligt fra 175, skal vi derfor konkludere at middelhøjden er forskellig fra 175cm? Eller skal vi, med stikprøvefordelingen i tankerne, lade tvivlen komme hypotesen til gode?

Page 14: Statistik Lektion 6

Trin I en Hypotesetest

En hypotesetest består af 5 elementer:

I. Antagelser

II. Hypoteser

III. Teststørrelser

IV. p-værdi

V. Beslutning/konklusion

Page 15: Statistik Lektion 6

I: Antagelser

Type af data: Se på om det er diskrete eller kontinuerte data.

Populationsfordeling: Se på hvilken fordeling populationen har.

Stikprøve: Hvilken metode er brugt til at indsamle data. Skal være en simpel stikprøve i de test vi bruger.

Stikprøvestørrelse: Hvor stor er den stikprøve vi har til at beregne test størrelsen?

Page 16: Statistik Lektion 6

II: Hypoteser

5:5:

5:5:

5:5:

1

0

0

1

0

H H

H H

H H

1

Eksempel: Nul- og alternativ-hypoteser for middelværdien

Oecon eksempel: H0: μ = 175 vs H1: μ ≠ 175

Nul-hypotesen H0: En påstand om en populationsparameter. Er sand indtil vi statistisk har ”bevist” at den er usand.

Den alternative hypotese H1: En påstand om alle situationer, der ikke er dækket af H0, dvs. det ”modsatte af H0”.

Princip: Nul-hypotesen er sand indtil det modsatte er bevist.

Page 17: Statistik Lektion 6

III: Teststørrelsen Teststørrelsen beregnes fra stikprøve data og bruges til at vurdere

nul-hypotesen H0.

Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien.

Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H0, dvs. hvilke værdier, der taler imod H0- hypotesen.

Oecon eksempel: Stikprøvegennemsnittet er teststørrelsen til test af H0 hypotesen μ = 175. Konkret , hvilket er kritisk for H0 , men er det bevis nok til at afvise H0 eller er det bare tilfældighedernes spil?

x

1757.172 x

Page 18: Statistik Lektion 6

IV: p-værdi

Uformelt: p-værdien er et mål for troværdigheden af H0 set i lyset af den aktuelle stikprøve. Jo større p-værdi, jo mere tror vi på H0.

Formelt er p-værdien af en test, sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H0 som den observerede teststørrelse, når nul hypotesen er sand.

Jo mindre p-værdi jo mere signifikant siger man testet er. Bemærk: Selvom H0 er sand kan man godt få en lille p-

værdi – og omvendt.

Page 19: Statistik Lektion 6

V: Konklusion/Beslutningsregel En beslutningsregel for en hypotese test, er en regel for under hvilke

betingelser nul-hypotesen kan forkastes.

Eksempel: Betragt H0: 175. Beslutnings reglen kan her være at forkaste H0, når stikprøve gennemsnittet er under 170.

Typisk bruges dog p-værdien for testen. Så en beslutningsregel er for eksempel at forkaste H0, når p-værdien er mindre end 0.05.

Vi accepterer/beviser aldrig, at nul hypotesen er sand. Hvis vi ikke kan forkaste nul hypotesen, siger vi, at der ikke er nok beviser til at forkaste den.

Hvis vi forkaster nul hypotesen, kan vi konkludere, at der er beviser nok til at sige, at den alternative hypotese er sand.

Page 20: Statistik Lektion 6

Signifikansniveau Signifikansniveauet er et tal,

således at H0 forkastes, hvis p-værdien er mindre end

er normalvis 0.05 eller 0.01.

Vælges før analysen foretages.

Konklusion

p-værdi H0 H1

p < α Forkast Accepter

p > α Forkast ikke

Accepter ikke

Hvor lille et signifikans niveau man vælger, afhænger af hvilke konsekvenser beslutningen om at forkaste H0 har. Hvis det er et spørgsmål om liv eller død, for eksempel i medicinske forsøg, vælges α meget lille. Men hvis det ”bare” er at teste om ét folketingsparti er større end et andet, kan man godt bruge et større α.

Page 21: Statistik Lektion 6

Test af middelværdi(to-sidet test) Antagelse: Test af , X kvantitativ variabel og n>30.

Hypoteser:

Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

01

00

:H

:H

n

XZ

0

X

n

x0

z0

standardisering

Page 22: Statistik Lektion 6

Beregning af p-værdi Når H0 er sand, er fordelingen af Z approksimativt standard normal-

fordelt (dvs. normal-fordelt med middelværdi 0 og standard afvigelse 1).

p-værdien er sandsynligheden for at observere en teststørrelse mindst så kritisk, som den observerede, givet at H0 er sand.

I formler: P( |Z| > beregnet z værdi), svarende til sandsynligheden for at observere et gennemsnit der er længere fra 0 end , hvis H0 er sand.

Sansynligheden ovenfor bestemmes ved tabelopslag (det er derfor vi standardiserer).

Meget nemmere at se ved hjælp af et eksempel…

x

Page 23: Statistik Lektion 6

Eksempel Hypoteser: H0: = 30

H1: 30

Stikprøve: n = 50 = 31.5 = 5

Teststørrelse:

p-værdi:

Lille p-værdi, så H0 forkastes. Fordeling:

12,2505

305.31

Z

034.0017.02)12,2(2

)12,2|(|

Zp

Zpp

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

.017 .017

x

12.2 z 12.2z

Page 24: Statistik Lektion 6

Summe opgave

H0: = 30

H1: 30

Stikprøve: n = 20 = 31.5 = 5

Beregn værdien af test størrelsen og p-værdien.

H0: = 30

H1: 30

Stikprøve: n = 100 = 31.5 = 5

Beregn værdien af test størrelsen og p-værdien

x x

Page 25: Statistik Lektion 6

Relation til konfidens-intervaller

= 30

32.8830.11 x = 31.5

Middelværdi under H0

95% konfidensinterval omkring observeret middelværdi

50

596.15.3196.1

nx

95% konfidensinterval for , dvs. :

Da konfidensintervallet ikke overlapper er p-værdien mindre end , dvs. vi forkaster H0.

Page 26: Statistik Lektion 6

Hvorfor ”=” i Nul-hypotesen?

Indtil nu har vi ved en-sidet test skrevet

I det følgende skriver i H0 som

Grunden til dette, er at man på den måde ”lader tvivlen komme H0 til gode”. Dsden er vi kun interesseret i, om er større (eller mindre hvis <) enden givet værdi - ikke hvor meget den evt. er mindre.

0

00

:

:

1H

H

H

H

01

00

:

:

Page 27: Statistik Lektion 6

Højresidet test (et en-sidet test) Antagelse: Test af , X kontinuert variabel og n>30.

Hypoteser:

Stikprøve-fordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

p-værdien: p( Z > observeret z værdi)

01

00

:H

:H

n

XZ

0

Xn

Page 28: Statistik Lektion 6

Eksempel højresidet test

H0: = 30

H1: > 30

Stikprøve: n = 50 = 31.5 = 5

Test størrelse:

p-værdi:

Lille p-værdi, så H0 forkastes.

Fordeling:

12,2505

305.31

Z

017.0)21,2( zpp

0.80.70.60.50.40.30.20.10.0

0=30

.017

x

0. 80. 70. 60. 50. 40. 30. 2

0. 10. 0

0

.017

Z=2,12

x

Page 29: Statistik Lektion 6

Venstresidet test

Antagelse: Test af , X kvantitativ variabel og n>30.

Hypoteser:

Stikprøve- fordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

p-værdien: p( Z < observeret z værdi)

01

00

:H

:H

n

XZ

0

Xn

Page 30: Statistik Lektion 6

Eksempel venstresidet test

H0: = 30 H1: < 30

Stikprøve: n = 50 = 31.5 = 5

Test-størrelse:

P-værdi:

Stor p-værdi, så H0 forkastes ikke.

Fordeling:

12,2505

305.31

Z

017.01)12,2( zpp

0.80.70.60.50.40.30.20.10.0

0=30

1-.017

x

0. 80. 70. 60. 50. 40. 30. 20. 10. 0

0

1-.017

Z=2,12

x

Page 31: Statistik Lektion 6

Eksempel: Ny Cafe?

Kafe KjeldKafe Kjeld vil starte en ny cafe i en ny by! Erfaringen viser, at det bliver en succes, hvis

gennemsnits indkomsten er mindst 300.000kr. Det vides at SD for indkomst er 25.000kr. En stikprøve på n = 36 indbyggere har et indkomsts-

gennemsnit på 311.500kr. Kafe Kjelds spørgsmål: Skal jeg åbne en ny cafe? Mit spørgsmål: Hvilken hypotese vil jeg teste?

Page 32: Statistik Lektion 6

Test af middelværdi for ukendt varians Antagelse: Test af , X normalfordelt variabel og σ² ukendt

(estimeret ved s²).

Hypoteser:

Teststørrelse t er t-fordelt med (n-1) frihedsgrader:

p-værdien: P( |t| > observeret t værdi) – kan ikke bestemmes ved tabel opslag.

Venstre og højre sidet test efter samme princip som før.

:H

:H

01

00

ns

Xt 0

Page 33: Statistik Lektion 6

Eksempel

H0: = 30 H1: 30

Stikprøve: n = 50 = 31.5 s = 5

Test størrelse:

Svært at slå op i tabel. Ligger mellem 0.025 og 0.01.

P-værdi:

Lille p-værdi, så H0 forkastes. Fordeling:

12,2505

305.31

t

040.0020.02

)12,2(2

)12,2|(|

tp

tpp

0.80.70.60.50.40.30.20.10.0

0=30

.020 .020

x x

x

Page 34: Statistik Lektion 6

Eksempel - fortsat

H0: = 30 H1: 30

Stikprøve: n = 50 = 31.5 s = 5

Test størrelse:

Svært at slå op i tabel. Ligger mellem 0.025 og 0.01.

I stedet for p-værdi, vælges signifikans niveau α, for eksempel α=0,05.

Slå op i t-tabellen med 49 frihedsgrader under 0,025, da det er en 2-sidet test.

t-værdien er cirka lig med 2.01. Da 2,12 er større end 2,01, forkastes H0.

Hvis t=-2,12 skulle vi have sagt, da -2,12 er mindre end -2.01, forkastes H0.

12,2505

305.31

t

x

Page 35: Statistik Lektion 6

Hypotesetest for middelværdi i R cmdr

Da p-værdien mindre end 0.05 forkaster vi H0 hypotesen og accepterer H1 hypotesen, dvs. at er forskellig fra 175.

t-teststørrelseantal frihedsgrader

p-værdi

H1 hypotese

Vælg mellem to- og en-sidede test

Middelværdi under H0

Statistics → Means → Single-sample t-test…

Page 36: Statistik Lektion 6

Test af en Andel

Antagelse: Test af populationsandel p, når np(1-p) > 9.

Hypoteser:

Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

p-værdien: P( |Z| > beregnet z værdi)

Højresidet og venstresidet test efter samme princip som før.

:H

:H

01

00

pp

pp

npp

ppz

/)1(

ˆ

00

0

p̂npp /)1( 00

0p

Page 37: Statistik Lektion 6

Test af Variansen Antagelse: Test af populations variansen σ², X normal fordelt.

Hypoteser:

Teststørrelse:

P-værdi: p(|Χ²|> beregnet Χ² værdi) – kan ikke beregnes ved tabel opslag.

Højresidet og venstresidet test efter samme princip som før.

20

21

20

20

:H

:H

der)frihedsgra 1)-(n med fordelt 2

2

(

)1(2

2sn

Page 38: Statistik Lektion 6

Test af varians - Eksempel H0: H1: sn

Venstre sidet test, så H0 forkastes, hvis .

Da kan vi ikke forkaste H0.

78.201

8659.0)125()1(2

22

sn

)1(21

2 n

85.13)24()1( 295.0

21 n

13.85 20.78

0.05

)1(21

2 n

0

R cmdr: Distributions → Continuous Distributions → Chi-squared distribution → Chi-squared probabilities

R: pchisq(20.78,df=24) Resultat: 0.3483

Page 39: Statistik Lektion 6

Opsummering: Test af middelværdi 1 Antagelser: Kendt varians + normalfordelt population eller stor

stikprøve: Z-test. Nul-hypotese

H0:

Teststørrelse:

Alternativ hypoteser H1: p-værdi = P( Z<z ) H1: p-værdi = P( Z>z ) H1: p-værdi = P( |Z|>|z| ) = 2⋅P( Z>|z| )

Beslutning: Hvis p-værdi < : Afvis H0 og accepter H1. Hvis p-værdi > : Ej afvis H0 og ej accepter H1.

n

xz0

Test vha. p-værdier

Page 40: Statistik Lektion 6

Opsummering: Test af middelværdi 1.1 Antagelser: Kendt varians + normalfordelt population eller stor

stikprøve: Z-test Nul-hypotese

H0:

Teststørrelse:

Alternativ hypoteser H1:

Afvis H0 hvis z < -Z

H1: Afvis H0 hvis z > Z

H1: Afvis H0 hvis |z| > Z

n

xz0

Test vha. kritiske værdier

Page 41: Statistik Lektion 6

Opsummering: Test af middelværdi 2 Antagelser: Ukendt varians + normalfordelt population: t-test Nul-hypotese

H0:

Teststørrelse:

Alternativ hypoteser H1:

Afvis H0 hvis t < -t n-1

H1: Afvis H0 hvis t > tn-1

H1: Afvis H0 hvis |t| > tn-1

ns

xt 0

Test vha. kritiske værdier