tmiii vt 2013statistik - hhdixon.hh.se/.../appliedmath/notes/statlecture6-8.pdf · mats gunnarsson...

Tillämpad matematik III/Statistik - Sida 83Mats Gunnarsson

Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund?Hur säkra uttalande kan göras om resultatet?

Statistisk analys


Exempel på stickprovsundersökning

Parti med felaktiga enheter

Man har ett parti med N enheter.Felkvoten p i partiet är okänd.För att få information om p tar man ut ett stickprov om n st enheter och x st visar sej vara felaktiga.

Vad kan man säga om p?

Modell:

Låt ξ = antal felaktiga i urvaletDå blir ξ ∈ Hyp(N,n,p)


• Punktskattningsproblem:

Hur skattar man p på bästa sätt?Att använda felkvoten i stickprovet, x/n, är en möjlighet.

• Intervallskattningsproblem:

Ange ett intervall som med given säkerhet innehåller det okända värdet på p, tex. ett intervall på formen

�� ,

��

Denna typ av intervall kallas konfidensintervall.




• Hypotesprövningsproblem•

Man vill kanske pröva hypotesen � � ��.Är stickprovets resultat förenligt med denna hypotes eller finns det anledning att förkasta den och tro att � � ��?

(Signifikanstest)


Punktskattningar - även dessa beror av slumpen

�Ett slumpmässigt stickprov x1, ..., xn från någon fördelning F utgörs av oberoende stokastiska variabler ξ1, ..., ξn

(stickprovets slumpvariabler) var och en med fördelningen F.

Ex: ξ ∈ N(μ;σ) eller ξ ∈ Bin(n;p)μ och p okända parametrar i resp. fördelning.

�En (punkt)skattning av en okänd parameter i fördelning gjord med hjälp av det observerade stickprovet kallas för observerad (punkt)skattning.Ex:


En punktskattnings fördelning� Anta att vi vill skatta väntevärdet µ för en normalfördelad

stokastisk variabel ξ genom beräkning av medelvärde av stickprov av storleken 5– ξ är normalfördelad N(µ,σ)

– Stickprovens slumpvariabler ξ1, ξ2, ξ3, ξ4 och ξ5

– Skattningen av µ betecknas µ∗ = +̅

– Ett utfall (observerat stickprov) är x1, x2, x3, x4 och x5

– En observerad punktskattning är µ*obs = ̅

� Punktskattningens fördelning: µ* = +̅ - . /;0

1


Krav på en punktskattning

�Väntevärdesriktig medför att skattningens, Θ*, väntevärde är lika med Θ, dvs

E[ΘΘΘΘ*] = ΘΘΘΘ.

Med Θ* hamnar man i genomsnitt ”rätt”.

�Effektiv, om Θ1* och Θ2* är två väntevärdesriktiga skattningar av Θ. Om V[Θ1*] < V[Θ2*] är Θ1* en effektivare - sannolikt bättre - skattning av Θ än Θ2*.


Allmänna väntevärdesriktiga punktskattningar– Låt ξ1, ξ2, ..., ξn vara ett stickprov från samma

fördelning

då ξi är oberoende, E[ξi] = µ och D[ξi] = σ

– Låt x1, x2, ..., xn vara en observation av stickprovet

µ ξ*=

σ ξ ξ2 2

1

1

1* ( )=

−−

=∑

n ii

n

σ σ* *= 2

µ*obs x=

σ2 2 2

1

1

1* ( )obs i

i

n

sn

x x= =−

−=∑

σ *obs s s= = 2


Intervallskattning

�En intervallskattning av en parameter är ett intervall med slumpvariabler som gränser

�Konfidensgraden, 1- a, för en intervallskattning är sannolikheten att parametern tillhör intervallet

�En observerad intervallskattning kallas för konfidensintervall– Metoder som inte kräver känd fördelning kallas för icke-

parametriska

– Metoder som kräver känd fördelning kallas för parametriska


Teckenintervall - en icke-parametrisk metodKonfidensintervall för medianen m

� Låt ξ1, ξ2, ..., ξn vara ett stickprov av storleken n,

� Storleksordna stickprovet så att: ξ(1) ≤ξ(2)≤... ≤ξ(n)

� Ett konfidensintervall för m är [ξ(1), ξ(n)], (minsta och största värde)

Konfidensgrad: 1- a = 1-2×0.5n

� Konfidensgraden minskas om mani stället tar [ξ(2), ξ(n-1)], och så vidare ...

Konfidensgrad: 1- a =1 � 2 0.51 ��

10.51 osv…

ξ(1) ξ(n)

m


Konfidensintervall för µ där σσσσ är känt -normalfördelning

� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende


Ett konfidensintervall för µ med konfidensgraden 1-α fås då av

där λα/2 fås ur

+−n

σλx,

n

σλx α/α/ 22

α/21)Φ(λα/2 −=


Konfidensintervall för µ där σ är okänt -normalfördelning

� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende


Ett konfidensintervall med konfidensgraden 1-α fås då av

+− −−

n

stx,

n

stx nn

α/α/

)1()1(

22

t-fördelningen är en släkting till normalfördelningen och finns tabellerad för olika

antal frihetsgrader och olika sannolikheter, αααα/2 (eller 1- αααα/2)

Då antalet frihetsgrader blir stort, närmar sig t-fördelningen en normalfördelning

)t(nnσ*/

µξ1−∈

−

α)F(t

n-xFtt

)(n

α/

n

α/

−=−

−

1

der.frihetsgra 1 med )( ensfördelning-ur fås Där

1

2

)1(

2


Stickprov i par - normalfördelning

� Vi har parvisa observationer (ξi, ηi), i = 1, ...,n

� ξi är normalfördelad N(µi,σξ)

� ηi är normalfördelad N(µi+∆, ση)

� Paren (ξi, ηi), i = 1, ...,n är oberoende

Studera ζi= ηi -ξi, vilket är normalfördeladvilket också kan skrivas N(∆,σ)

Studera de n observationerna av ζi

[ ]]ξV[η∆,N ii −


Två stickprov - normalfördelning

� ξ1, ξ2, ..., ξn1är stickprov med fördelningen N(µ1,σ)

� η1, η2, ..., ηn2är stickprov med fördelningen N(µ2,σ)

� Stickproven är oberoende

Studera ξ -η, vilket är normalfördelad

Standardavvikelsen ovan är standardavvikelsen förξ -η

Nn n

µ µσ σ

1 2

2

1

2

2

− +

, Observera att antalet frihetsgrader är

n1+n2-2, om t-fördelningen används


Konfidensintervall för varians - N(µ,σ)�ξ är en stokastisk variabel

– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)


– Man kan visa att

Ett konfidensintervall, som är uppåt begränsat och med undre gräns 0, med konfidensgraden 1-α fås då av

där χ2(1-α),(n-1) fås ur χ2-

fördelningen, F(x), med n-1

frihetsgrader: F(χ2(1-α),(n-1) ) = α

−=

−

−−−−

=∑

2)1(),1(

2

2)1(),1(

1

2

)1(,0

)(

,0nn

n

i

isn

xx

αα χχ

11

22

1

2

σξ ξ χ( ) ( )i

i

n

n− ∈ −=∑ )1(

)1( 2

2

2

−∈−

nsn χ

σ


Tvåsidigt konfidensintervall för varians - N(µ,σ)

� En tvåsidig intervallskattning av variansen, σσσσ², där det är lika stor sannolikhet att missa över som under intervallet, med konfidensgraden 1-α fås av

och för standardavvikelsen, σ

−−

−−−2

)1(),2/1(

2

2)1(),2/(

2 )1(,

)1(

nn

snsn

αα χχ

−−

−−−2

)1(),2/1(

2

2)1(),2/(

2 )1(,

)1(

nn

snsn

αα χχ


Om man inte har normalfördelning?�Teckenintervall är en icke-parametrisk metod för

intervallskattning av medianvärde

�Om vi har stora stickprov från en fördelning med väntevärde E[ξi] = µ och V[ξi] = σ2, så är

enligt centrala gränsvärdessatsen. Detsamma gäller

)()1,0(/

smedskattasokändNns

σσσσµµµµξξξξ

≈≈≈≈−−−−

)()1,0(/

kändNn

σσσσσσσσ

µµµµξξξξ≈≈≈≈

−−−−


”Väljarbarometer” - konfidensintervall för pI en mängd med N element är en andel p av speciellt slag. Bland de N elementen väljs n element. ξ är antal speciella element bland de n utvalda

– Då gäller: ξξξξ ∈ Hyp(N, n, p)

– Om N stort och n/N<0.1 gäller ξ º Bin(n, p)

– Om n stort (n>30) gäller: ξ º N ��, ��(1 � �)

– Om p* skattas med ξ/n, ger detta följande konfidensintervall:

p*obs � 67

�

p*obs(1-p*

obs)

�; p∗

obs � 67/�

p∗obs(1−p∗

obs)

�

– Med approximativa konfidensgraden 1-α


Hypotesprövning� Enkel hypotesprövning

– Vi sätter upp en nollhypotes H0

– Vi sätter också upp en mothypotes H1

– Vi ska pröva nollhypotesen H0 mot mothypotesen H1 med hjälp av en test på en testvariabel

� Testet har en felrisk, som kallas signifikansnivå, α,– α = P(förkasta H0H0 sann)

� Testet har också en styrka– Testets styrka = P(förkasta H0H1 sann)

H0: µ = 100H1: µ = 110

Observera att om vi inte förkastar H0, så drar vi ingen slutsats


Sammansatta mothypoteser - normalfördelning

�En hypotes som innehåller många parametervärden kallas sammansatt, till exempel: µ > 100 (jämför föregående)– Ovan är ett ensidigt test

– Ett tvåsidigt test är till exempel µ ≠ 100

�Signifikansnivån fungerar på samma sätt som vid enkla hypoteser

�Testets styrka blir en funktion av den parameter som testet avser (inom H1)


Test av µ, σ känt - normalfördelning

� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och

normalfördelade N(µ,σ)– Låt x1, x2, ..., xn vara en observation av stickprovet

där λα fås ur

� Ensidig hypotesprövning på signifikansnivån α– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)

– Förkasta H0 om (alternativt )

� Tvåsidig hypotesprövning på signifikansnivån α– H0: µ = µ0; H1: m ≠ µ0

– Förkasta H0 om

xn

> +µ λσ

α0 xn

< −µ λσ

α0

xn

eller xn

< − > +µ λσ

µ λσ

α α0 2 0 2/ /

Φ( )λ αα = −1


Test av µ, σ okänt - normalfördelning

� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och

normalfördelade N(µ,σ)– Låt x1, x2, ..., xn vara en observation av stickprovet

� Ensidig hypotesprövning med signifikans α– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)

– Förkasta H0 om (alternativt )

� Tvåsidig hypotesprövning med signifikans α– H0: µ = µ0; H1: m ≠ µ0

– Förkasta H0 om

x ts

nn< − −µ α0 1,( ) x ts

nn> + −µ α0 1,( )

x ts

neller x t

s

nn n< − > +− −µ µα α0 2 1 0 2 1/ , ( ) / ,( )

där tα,(n-1) fås ur t-fördelningen, F(x), F(tα,(n-1)) = 1-α


Konfidensintervall ./. hypotesprövningnormalfördelning

x ts

nn< − −µ α0 1,( )

x ts

nn> + −µ α0 1,( )

x ts

neller x t

s

nn n< − > +

− −µ µα α0 2 1 0 2 1/ , ( ) / ,( )

xn

> +µ λσ

α0xn

< −µ λσ

α0

xn

eller xn

< − > +µ λσ

µ λσ

α α0 2 0 2/ /

x ts

nx t

s

nn n− +

− −α α/ , ( ) / , ( ),2 1 2 1

xn

xn

− +

λσ

λσ

α α/ /,2 2

Konfidensintervall HypotesprövningFör µ, σ känt

För µ, σ okänt

För µ, σ känt

För µ, σ okänt

Ensidig hypotesprövning

Ensidig hypotesprövning


Direktmetoden

� H0: nollhypotesen (om ett visst värde)

� Utgå från en observation

� Räkna ut sannolikheten, α0, att få ett lika extremt eller extremare värde på testvariabeln under förutsättning att H0 är sann

� Jämför med signifikansnivån α– Om α0 < α så förkastas H0

– Om α0 > α så förkastas inte H0

� Speciellt användbar för diskreta fördelningar


Teckentest

� Fördelningsoberoende

� Observationer i par , (xi, yi), i =1, ..., n där variation mellan paren söks– H0 : lika resultat

– H1 : x är extremare än y

� Jämför varje par– Räkna de gånger, ξ, då xi är extremare än yi vid parvis jämförelse

� Direktmetoden: beräkna sannolikheten för utfallet eller extremare– Bin(n, 0.5) i detta fall

� Jämför med signifikansnivån α


to be continued ...

… another time ?

tmiii vt 2013statistik - hhdixon.hh.se/.../appliedmath/notes/statlecture6-8.pdf · mats gunnarsson...

Documents