statistik lektion 5

36
Statistik Lektion 5 Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller

Upload: khoi

Post on 13-Jan-2016

84 views

Category:

Documents


2 download

DESCRIPTION

Statistik Lektion 5. Flere stikprøvefordelinger Estimatore og estimater Konfidensintervaller. Stikprøvefordeling. Antag at vi vil udtale os om en populationsparameter (fx middelværdien m ) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ). - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Statistik Lektion 5

StatistikLektion 5

Flere stikprøvefordelinger

Estimatore og estimater

Konfidensintervaller

Page 2: Statistik Lektion 5

Stikprøvefordeling

Antag at vi vil udtale os om en populationsparameter (fx middelværdien på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ).

Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve

Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)

x

x

Page 3: Statistik Lektion 5

Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig

stikprøve fra en population m. middelværdi og varians 2.

Stikprøve-gennemsnittet af disse SV er

Den forventede værdi og varians for stikprøve-gennemsnittet er

n

iiX

nX

1

1

XE n

XV2

og

Hvis stikprøve er lille i forhold til population

Page 4: Statistik Lektion 5

Den Centrale Grænseværdi Sætning (CLT) Lad X1, X2,…, Xn, er være n uafhængige stokastiske

variable fra samme fordeling med middelværdi og varians 2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af

nærme sig mere og mere en standard normal-fordeling.

Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse.

n

nX

n

XZ

(Central limit theorem)

Page 5: Statistik Lektion 5

Populations og stikprøve andele Populations-andelen er andelen af ”succeser” i

populationen:

Stikprøve-andelen i en tilfældig stikprøve er andelen af succeser i stikprøven:

N

Xp

n

XP ˆ

Page 6: Statistik Lektion 5

Stikprøve-fordelingen af Andele Hvis stikprøven er lille i forhold til populationen kan vi

antage at antallet er succeser er binomialt med sandsynlighedsparameter p og antals parameter n:

Eksempel: n = 10 og p = 0.40

Da X ~ B(10,0.4) kan vi slå op i Tabel 3 side 848 for den kumulerede binomialfordeling:

),(~ pnBX

55.05.0ˆ

XP

n

XPPP

834.05 XP

Page 7: Statistik Lektion 5

Stikprøve-andel: Middelværdi og Varians Vi ved om binomial-fordelingen

Heraf følger, at middelværdien er

og variansen er

)1(][][ pnpXVnpXE og

pnpn

XEnn

XEPE

P

11ˆˆ

n

pppnp

nXV

nn

XVPV

P

)1()1(

11ˆ2

22ˆ

Page 8: Statistik Lektion 5

Stikprøve-fordelingen af Andele Genkald, at hvis X = X1+…+Xn , hvor Xi’erne er uafhængige

Bernoulli forsøg, hvor sandsynligheden for succes er

P(Xi = 1) = p, så gælder X ~ B(n,p).

Derfor E[Xi] = p og V[Xi] = p(1p). Ifølge CLT har vi (approksimativt):

Approksimationen er god, hvis np(1 p) er større end 9.

n

pppN

n

XP

1,~ˆ

Page 9: Statistik Lektion 5

Stikprøve-fordelingen af Andele

Eksempel: 43% af alle cand.oecon. studerende mener at et kursus i forretnings-etik er vigtig.

Vi udvælger 80 tilfældige cand.oecon studrende. Hvad er sandsynligheden for at mere end 50% mener det samme?

Vi har

Standardafvigelsen for stikprøve-andelen:

Normalfordelings-approksimationen giver

608,19)1(8043.0 pnpnp

055,080)43.01(43.0)1(ˆ nppP

1020.0)27.1(5,0ˆ

)5.0ˆ(ˆˆ

ZP

ppPPPP

PP

Page 10: Statistik Lektion 5

2-fordelingen [ki-i-anden]

En 2 fordelt stokastisk variabel kan ikke være negativ, så den er begrænset af 0 til venstre.

Fordelingen er højreskæv. En 2 fordeling er specificeret

ved antallet af frihedsgrader. Notation: En stokastisk

variabel Y, der følger en 2

fordeling med frihedsgrader angives som

100500

0.10

0.09

0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0.00

2

f(2

)

Chi-Square D istribution: d f=10 , df=30, df=50

df = 10

df = 30

df = 50

2-fordelingen nærmer sig en normal-fordelingen, når antallet af frihedsgrader vokser.

2~ Y

Page 11: Statistik Lektion 5

Mere om2 fordelingen

Hvis Y er -fordelt med frihedsgrader:

Lad X1, X2,…, Xn være uafhængige, standard normalfordelte stokastiske variable. Definer

Da gælder

222

21

2nXXXX

2][][ YVYE og

22 ~ nX

[ny]

Page 12: Statistik Lektion 5

Stikprøvevariansen og dens fordeling Stikprøve-variansen for en tilfældig stikprøve er

Generelt gælder

Hvis populationen er normalfordelt gælder

1

1

2

2

n

XXS

n

i i

212

22 ~

)1(

n

Sn

)1(2][][ 4222 nSVSE og

Page 13: Statistik Lektion 5

• En estimatorestimator af en populations parameter er en stikprøve statistik, der bruges til at estimere populations parameteren.

• Et estimatestimat a af en parameter er en bestemt numerisk værdi af en stikprøve statistik.

• Et punkt-estimatpunkt-estimat er en enkelt værdi, der bruges som et estimat for en populations parameter.

• Et interval-estimat interval-estimat er et interval, der bruges som et estimat for en populations parameter.

En populations parameterpopulations parameter er et numerisk mål for en opsummerende karakteristik af populationen.

Estimator og estimat En stikprøve statistik stikprøve statistik er et

numerisk mål for en opsummerende karakteristik af stikprøven.

fx x fx

Eksempel: er en estimator for . er et (punkt) estimat af .

X

x

Page 14: Statistik Lektion 5

Estimatore: Egenskaber

Lad være en generel populations-parameter, fx Lad være en estimator for , fx.

Vi vil se på tre ønskelige egenskaber for estimatore Central Konsistent Effektiv

X

Page 15: Statistik Lektion 5

Central og ikke-central estimator Definiton: Hvis en estimator opfylder er den

central (unbiased).

Definiton:

]ˆ[E

BiasEn central estimator rammer i gennemsnit plet. En ikke-central (biased) estimator

rammer i gennemsnit ikke plet.

]([ˆ EBias

Page 16: Statistik Lektion 5

Effektiv Estimator Definiton: Antag at og er to centrale estimatore. Hvis

Var( ) < Var( ), så siger vi at er en mere effektiv estimator end .

1

En effektiv estimator er i gennemsnit tættere på at ramme plet.

En in effektiv estimator er i gennemsnit længere fra at ramme plet.

21 2 1

2

Page 17: Statistik Lektion 5

Konsistent En estimator er konsistent hvis sandsynligheden for at

ligge tæt på den parameter, den estimerer, stiger, når størrelsen på stikprøven stiger.

n = 100n = 10

Page 18: Statistik Lektion 5

Konfidensintervaller

Konfidensintervaller generelt

Konfidensintervaller for middelværdi

Page 19: Statistik Lektion 5

Konfidens-intervaller

Et punkt-estimatpunkt-estimat estimerer værdien af en ukendt populations parameter ved en enkelt værdi. Fx: Middelhøjden blandt oecon studernde .

Et konfidens intervalkonfidens interval er et interval, der estimerer værdien af en ukendt populations parameter. Kaldes også et interval estimatinterval estimat. Sammen med intervallet gives et mål for, hvor sikker man er på, at den sande populations parameter ligger i intervallet. Dette mål kaldes for konfidens niveauetkonfidens niveauet.

Et punkt estimat indeholder ikke meget information om den faktiske værdi af μ – fx hvor sikkert er vores punkt estimat?

Et interval estimat indeholder flere informationer, for eksempel: Vi er 95% sikre på, at intervallet [164,8 ; 180,7] indeholde den sande

middelværdi μ. Eller vi er 90% sikre på, at intervallet [166,1 ; 179,3] indeholder den

sande middelværdi μ.

73,172x

Page 20: Statistik Lektion 5

Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor Da gælder følgende:

En 95% konfidensinterval for middelværdikonfidensinterval for middelværdi

95.096.196.1

95.096.196.1

nX

nXP

nX

nP

95.096.196.1

95.096.196.1

nX

nXP

nX

nP

),(~2

nNX

nx

96.1

nx

96.1 Bemærk at estimatoren er

er ersattet med estimatet .xX

Page 21: Statistik Lektion 5

Mellemregninger….

95.096,196.1

95.096,196.1

95.096,196.1

95.096,1/

96.1

)(

)1,0(95.0)96,196.1(2

nX

nXP

nX

nP

nX

nP

n

XP

n

σμ,~NX

Z ~NZP

:at gælder Da

hvor ,

0,0250,025

0,95

Page 22: Statistik Lektion 5

Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet

Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet. .

Konfidens-interval for middelværdi

196 196. , .n n

196.n

196.n

0.4

0.3

0.2

0.1

0.0x

f(x)

Sampling Distribution of the Mean

x

x

x

x

x

x

x

x

2.5%

95%

2.5%

196.

n 196.

n

x

2.5% falder over intervallet

2.5% falder nedenfor intervallet

95% falder indenfor intervallet

Page 23: Statistik Lektion 5

Approksimativt 95% af intervallerne omring stikprøve middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, .

*5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikkeikke at inkludere den faktiske værdi af populations middelværdien.

x xx

nx 96.1

0.4

0.3

0.2

0.1

0.0x

f(x)

Sampling Distribution of the Mean

x

x

x

x

x

x

x

x

2.5%

95%

2.5%

196.

n 196.

n

x

xx*

*

Konfidens-interval for middelværdi

Page 24: Statistik Lektion 5

Et (1-)100% konfidens-interval for Vi definerer som den z-værdi, hvor sandsynligheden for at Z er

højere end denne værdi, er . Kaldes også fraktilen eller den

kritiske værdi.

(1-α)100% kaldes konfidens-niveauet.

2

z2

P Z z

P Z z

P z Z z

2

2

2 2

1( )

100% konfidens interval:543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Z

f(z)

Stand ard Norm al

( )1

2

2

fordeling

2

nzx

2

2

z2

z

Page 25: Statistik Lektion 5

0.99 0.005 2.576

0.98 0.010 2.326

0.95 0.025 1.960

0.90 0.050 1.645

0.80 0.100 1.282

( )1 2

z2

Kritiske værdier for z og konfidens-niveauer

543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Z

f(z)

Stand ard Norm al Distrib ution

z2

( )1

z2

2

2

Bemærk: 21)(2

zF

Page 26: Statistik Lektion 5

Eksempel Spørgsmål: Antag Find z/2

Løsning: og Vi ved Fz/2

Dvs.z/2

Page 27: Statistik Lektion 5

Når man tager stikprøver fra den samme population og bruger den samme

stikprøve størrelse, så jo højere et konfidens-niveau, jo bredere et

konfidens-interval.

543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Z

f(z)

Stand ard Nor m al Dis tri buti on

nx

28.1

: for interval konfidens 80%

543210-1-2-3-4-5

0.4

0.3

0.2

0.1

0.0

Zf(

z)

Stand ard Nor m al Distri buti on

nx

96.1

: for interval konfidens 95%

Konfidens niveau og bredden af konfidens-intervallet

Page 28: Statistik Lektion 5

Stikprøvestørrelsen og bredden af konfidens-intervallet

Når man tager stikprøver fra den samme population og bruger det

samme konfidens niveau, så jo større stikprøvestørrelse, n, jo

smallere et konfidens interval.

Når man tager stikprøver fra den samme population og bruger det

samme konfidens niveau, så jo større stikprøvestørrelse, n, jo

smallere et konfidens interval.

0 .9

0 .8

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0

x

f(x)

S am p ling D is trib utio n o f the M e an

95% konfidensinterval: n = 40

0 .4

0 .3

0 .2

0 .1

0 .0

x

f(x)

S am p ling D is trib utio n o f the M e an

95% konfidensinterval: n = 20

Page 29: Statistik Lektion 5

Eksempel på tavlen

Page 30: Statistik Lektion 5

Student’s t fordeling Antag populationen er normalfordelt med middelværdi

og varians 2. Gammel viden: Hvis vi kender variansen 2, så kan vi

bruge:

Ny viden: Hvis vi ikke kender variansen 2, så kan vi erstatte 2 med stikprøve-variansen s2:

”følger en t-fordeling med n-1 frihedsgrader”.

1,0~ Nn

X

1~

ntns

X

Page 31: Statistik Lektion 5

Student’s t fordeling t fordelingen er klokkeformet

og symmetrisk og defineret ved antal frihedsgrader (df).

Middelværdien er altid lig 0. Variansen af t er større end 1,

men går mod 1, når antallet af frihedsgrader vokser.

Standard normal

t, df=20

t, df=10

t fordelingen er fladere og har ”tykkere haler” en standard normal fordelingen.

t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser.

Page 32: Statistik Lektion 5

Et (1-)100% konfidens interval for når er ukendt (og man antager en normalfordelt population):

hvor er værdien i t fordelingen med n-1

frihedsgraders, hvor sandsynligheden for at t er

højere end denne værdi, er

Et (1-)100% konfidens interval for når er ukendt (og man antager en normalfordelt population):

hvor er værdien i t fordelingen med n-1

frihedsgraders, hvor sandsynligheden for at t er

højere end denne værdi, er

t2

2

Konfidens interval for når er ukendt - t fordelingen

n

stx

2

Page 33: Statistik Lektion 5

df t0.100 t0.050 t0.025 t0.010 t0.005

--- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 2 1.886 2.920 4.303 6.965 9.925 3 1.638 2.353 3.182 4.541 5.841 4 1.533 2.132 2.776 3.747 4.604 5 1.476 2.015 2.571 3.365 4.032 6 1.440 1.943 2.447 3.143 3.707 7 1.415 1.895 2.365 2.998 3.499 8 1.397 1.860 2.306 2.896 3.355 9 1.383 1.833 2.262 2.821 3.250 10 1.372 1.812 2.228 2.764 3.169 11 1.363 1.796 2.201 2.718 3.106 12 1.356 1.782 2.179 2.681 3.055 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 16 1.337 1.746 2.120 2.583 2.921 17 1.333 1.740 2.110 2.567 2.898 18 1.330 1.734 2.101 2.552 2.878 19 1.328 1.729 2.093 2.539 2.861 20 1.325 1.725 2.086 2.528 2.845 21 1.323 1.721 2.080 2.518 2.831 22 1.321 1.717 2.074 2.508 2.819 23 1.319 1.714 2.069 2.500 2.807 24 1.318 1.711 2.064 2.492 2.797 25 1.316 1.708 2.060 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 28 1.313 1.701 2.048 2.467 2.763 29 1.311 1.699 2.045 2.462 2.756 30 1.310 1.697 2.042 2.457 2.750 40 1.303 1.684 2.021 2.423 2.704 60 1.296 1.671 2.000 2.390 2.660120 1.289 1.658 1.980 2.358 2.617

1.282 1.645 1.960 2.326 2.576

For store frihedsgrader kan t fordelingen approksimeres ved en standard normal fordeling.

Tabel for t-fordelingen

t

Page 34: Statistik Lektion 5

En aktie analytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standard afvigelse på s = 3.5%. Antag en normal population og giv et 95% konfidens interval for den gennemsnitlige gevinst på denne aktie.

En aktie analytiker vil estimere den gennemsnitlige gevinst på en bestemt aktie. En stikprøve på 15 dage giver en gennemsnitlig gevinst på og en standard afvigelse på s = 3.5%. Antag en normal population og giv et 95% konfidens interval for den gennemsnitlige gevinst på denne aktie.

Den kritiske værdi af t for df = (n -1) = (15 -1) = 14 og et højre halet areal på α/2 = 0.025 er:

Konfidens intervallet er:

t0 025 2.145.

x tsn

0 025

10 37 2.1453515

10 37 1948 4312.31

.

..

. .. ,

Eksempel

%37.10x

df t0.100 t0.050 t0.025 t0.010 t0.005

--- ----- ----- ------ ------ ------ 1 3.078 6.314 12.706 31.821 63.657 . . . . . . . . . . . . . . . . . . 13 1.350 1.771 2.160 2.650 3.012 14 1.345 1.761 2.145 2.624 2.977 15 1.341 1.753 2.131 2.602 2.947 . . . . . . . . . . . . . . . . . .

Page 35: Statistik Lektion 5

R Commander Man kan slå t op i R Commander:

Distributions → Continuous distributions → t distribution → t quantiles

Indsæt værdien af /2 i ‘Probabilities’ Indsæt antal frihedsgrader i ’Degrees of freedom’ Vælg ’Upper tail’

Resultat:

Page 36: Statistik Lektion 5

Konfidensintervaller for Middelværdien i R Commander R Commander har kun en indbygget funktion til at beregne

konfidensintervallet for under antagelse af ukendt varians: Statistics → Means → Single-sample t-test… Derefter skal i vælge den variabel I vil finde konfidens-interval for

samt på hvilket konfidens-niveau. Eksempel: 95% konfidens interval for højde i Sundby95: