tmiii vt 2013statistik - hhdixon.hh.se/.../appliedmath/notes/statlecture6-8.pdf · mats gunnarsson...
TRANSCRIPT
Tillämpad matematik III/Statistik - Sida 83Mats Gunnarsson
Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund?Hur säkra uttalande kan göras om resultatet?
Statistisk analys
Tillämpad matematik III/Statistik - Sida 84Mats Gunnarsson
Exempel på stickprovsundersökning
Parti med felaktiga enheter
Man har ett parti med N enheter.Felkvoten p i partiet är okänd.För att få information om p tar man ut ett stickprov om n st enheter och x st visar sej vara felaktiga.
Vad kan man säga om p?
Modell:
Låt ξ = antal felaktiga i urvaletDå blir ξ ∈ Hyp(N,n,p)
Tillämpad matematik III/Statistik - Sida 85Mats Gunnarsson
• Punktskattningsproblem:
Hur skattar man p på bästa sätt?Att använda felkvoten i stickprovet, x/n, är en möjlighet.
• Intervallskattningsproblem:
Ange ett intervall som med given säkerhet innehåller det okända värdet på p, tex. ett intervall på formen
�� �,
�� �
Denna typ av intervall kallas konfidensintervall.
Exempel på stickprovsundersökning
Tillämpad matematik III/Statistik - Sida 86Mats Gunnarsson
Exempel på stickprovsundersökning
• Hypotesprövningsproblem•
Man vill kanske pröva hypotesen � � ��.Är stickprovets resultat förenligt med denna hypotes eller finns det anledning att förkasta den och tro att � � ��?
(Signifikanstest)
Tillämpad matematik III/Statistik - Sida 87Mats Gunnarsson
Punktskattningar - även dessa beror av slumpen
�Ett slumpmässigt stickprov x1, ..., xn från någon fördelning F utgörs av oberoende stokastiska variabler ξ1, ..., ξn
(stickprovets slumpvariabler) var och en med fördelningen F.
Ex: ξ ∈ N(μ;σ) eller ξ ∈ Bin(n;p)μ och p okända parametrar i resp. fördelning.
�En (punkt)skattning av en okänd parameter i fördelning gjord med hjälp av det observerade stickprovet kallas för observerad (punkt)skattning.Ex:
Tillämpad matematik III/Statistik - Sida 88Mats Gunnarsson
En punktskattnings fördelning� Anta att vi vill skatta väntevärdet µ för en normalfördelad
stokastisk variabel ξ genom beräkning av medelvärde av stickprov av storleken 5– ξ är normalfördelad N(µ,σ)
– Stickprovens slumpvariabler ξ1, ξ2, ξ3, ξ4 och ξ5
– Skattningen av µ betecknas µ∗ = +̅
– Ett utfall (observerat stickprov) är x1, x2, x3, x4 och x5
– En observerad punktskattning är µ*obs = ̅
� Punktskattningens fördelning: µ* = +̅ - . /;0
1
Tillämpad matematik III/Statistik - Sida 89Mats Gunnarsson
Krav på en punktskattning
�Väntevärdesriktig medför att skattningens, Θ*, väntevärde är lika med Θ, dvs
E[ΘΘΘΘ*] = ΘΘΘΘ.
Med Θ* hamnar man i genomsnitt ”rätt”.
�Effektiv, om Θ1* och Θ2* är två väntevärdesriktiga skattningar av Θ. Om V[Θ1*] < V[Θ2*] är Θ1* en effektivare - sannolikt bättre - skattning av Θ än Θ2*.
Tillämpad matematik III/Statistik - Sida 90Mats Gunnarsson
Allmänna väntevärdesriktiga punktskattningar– Låt ξ1, ξ2, ..., ξn vara ett stickprov från samma
fördelning
då ξi är oberoende, E[ξi] = µ och D[ξi] = σ
– Låt x1, x2, ..., xn vara en observation av stickprovet
µ ξ*=
σ ξ ξ2 2
1
1
1* ( )=
−−
=∑
n ii
n
σ σ* *= 2
µ*obs x=
σ2 2 2
1
1
1* ( )obs i
i
n
sn
x x= =−
−=∑
σ *obs s s= = 2
Tillämpad matematik III/Statistik - Sida 91Mats Gunnarsson
Intervallskattning
�En intervallskattning av en parameter är ett intervall med slumpvariabler som gränser
�Konfidensgraden, 1- a, för en intervallskattning är sannolikheten att parametern tillhör intervallet
�En observerad intervallskattning kallas för konfidensintervall– Metoder som inte kräver känd fördelning kallas för icke-
parametriska
– Metoder som kräver känd fördelning kallas för parametriska
Tillämpad matematik III/Statistik - Sida 92Mats Gunnarsson
Teckenintervall - en icke-parametrisk metodKonfidensintervall för medianen m
� Låt ξ1, ξ2, ..., ξn vara ett stickprov av storleken n,
� Storleksordna stickprovet så att: ξ(1) ≤ξ(2)≤... ≤ξ(n)
� Ett konfidensintervall för m är [ξ(1), ξ(n)], (minsta och största värde)
Konfidensgrad: 1- a = 1-2×0.5n
� Konfidensgraden minskas om mani stället tar [ξ(2), ξ(n-1)], och så vidare ...
Konfidensgrad: 1- a =1 � 2 0.51 ��
10.51 osv…
ξ(1) ξ(n)
m
Tillämpad matematik III/Statistik - Sida 93Mats Gunnarsson
Konfidensintervall för µ där σσσσ är känt -normalfördelning
� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende
– Låt x1, x2, ..., xn vara en observation av stickprovet
Ett konfidensintervall för µ med konfidensgraden 1-α fås då av
där λα/2 fås ur
+−n
σλx,
n
σλx α/α/ 22
α/21)Φ(λα/2 −=
Tillämpad matematik III/Statistik - Sida 94Mats Gunnarsson
Konfidensintervall för µ där σ är okänt -normalfördelning
� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende
– Låt x1, x2, ..., xn vara en observation av stickprovet
Ett konfidensintervall med konfidensgraden 1-α fås då av
+− −−
n
stx,
n
stx nn
α/α/
)1()1(
22
t-fördelningen är en släkting till normalfördelningen och finns tabellerad för olika
antal frihetsgrader och olika sannolikheter, αααα/2 (eller 1- αααα/2)
Då antalet frihetsgrader blir stort, närmar sig t-fördelningen en normalfördelning
)t(nnσ*/
µξ1−∈
−
α)F(t
n-xFtt
)(n
α/
n
α/
−=−
−
1
der.frihetsgra 1 med )( ensfördelning-ur fås Där
1
2
)1(
2
Tillämpad matematik III/Statistik - Sida 95Mats Gunnarsson
Tillämpad matematik III/Statistik - Sida 96Mats Gunnarsson
Stickprov i par - normalfördelning
� Vi har parvisa observationer (ξi, ηi), i = 1, ...,n
� ξi är normalfördelad N(µi,σξ)
� ηi är normalfördelad N(µi+∆, ση)
� Paren (ξi, ηi), i = 1, ...,n är oberoende
Studera ζi= ηi -ξi, vilket är normalfördeladvilket också kan skrivas N(∆,σ)
Studera de n observationerna av ζi
[ ]]ξV[η∆,N ii −
Tillämpad matematik III/Statistik - Sida 97Mats Gunnarsson
Två stickprov - normalfördelning
� ξ1, ξ2, ..., ξn1är stickprov med fördelningen N(µ1,σ)
� η1, η2, ..., ηn2är stickprov med fördelningen N(µ2,σ)
� Stickproven är oberoende
Studera ξ -η, vilket är normalfördelad
Standardavvikelsen ovan är standardavvikelsen förξ -η
Nn n
µ µσ σ
1 2
2
1
2
2
− +
, Observera att antalet frihetsgrader är
n1+n2-2, om t-fördelningen används
Tillämpad matematik III/Statistik - Sida 98Mats Gunnarsson
Konfidensintervall för varians - N(µ,σ)�ξ är en stokastisk variabel
– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)
– Låt x1, x2, ..., xn vara en observation av stickprovet
– Man kan visa att
Ett konfidensintervall, som är uppåt begränsat och med undre gräns 0, med konfidensgraden 1-α fås då av
där χ2(1-α),(n-1) fås ur χ2-
fördelningen, F(x), med n-1
frihetsgrader: F(χ2(1-α),(n-1) ) = α
−=
−
−−−−
=∑
2)1(),1(
2
2)1(),1(
1
2
)1(,0
)(
,0nn
n
i
isn
xx
αα χχ
11
22
1
2
σξ ξ χ( ) ( )i
i
n
n− ∈ −=∑ )1(
)1( 2
2
2
−∈−
nsn χ
σ
Tillämpad matematik III/Statistik - Sida 99Mats Gunnarsson
Tvåsidigt konfidensintervall för varians - N(µ,σ)
� En tvåsidig intervallskattning av variansen, σσσσ², där det är lika stor sannolikhet att missa över som under intervallet, med konfidensgraden 1-α fås av
och för standardavvikelsen, σ
−−
−−−2
)1(),2/1(
2
2)1(),2/(
2 )1(,
)1(
nn
snsn
αα χχ
−−
−−−2
)1(),2/1(
2
2)1(),2/(
2 )1(,
)1(
nn
snsn
αα χχ
Tillämpad matematik III/Statistik - Sida 100Mats Gunnarsson
Om man inte har normalfördelning?�Teckenintervall är en icke-parametrisk metod för
intervallskattning av medianvärde
�Om vi har stora stickprov från en fördelning med väntevärde E[ξi] = µ och V[ξi] = σ2, så är
enligt centrala gränsvärdessatsen. Detsamma gäller
)()1,0(/
smedskattasokändNns
σσσσµµµµξξξξ
≈≈≈≈−−−−
)()1,0(/
kändNn
σσσσσσσσ
µµµµξξξξ≈≈≈≈
−−−−
Tillämpad matematik III/Statistik - Sida 101Mats Gunnarsson
”Väljarbarometer” - konfidensintervall för pI en mängd med N element är en andel p av speciellt slag. Bland de N elementen väljs n element. ξ är antal speciella element bland de n utvalda
– Då gäller: ξξξξ ∈ Hyp(N, n, p)
– Om N stort och n/N<0.1 gäller ξ º Bin(n, p)
– Om n stort (n>30) gäller: ξ º N ��, ��(1 � �)
– Om p* skattas med ξ/n, ger detta följande konfidensintervall:
p*obs � 67
�
p*obs(1-p*
obs)
�; p∗
obs � 67/�
p∗obs(1−p∗
obs)
�
– Med approximativa konfidensgraden 1-α
Tillämpad matematik III/Statistik - Sida 102Mats Gunnarsson
Hypotesprövning� Enkel hypotesprövning
– Vi sätter upp en nollhypotes H0
– Vi sätter också upp en mothypotes H1
– Vi ska pröva nollhypotesen H0 mot mothypotesen H1 med hjälp av en test på en testvariabel
� Testet har en felrisk, som kallas signifikansnivå, α,– α = P(förkasta H0H0 sann)
� Testet har också en styrka– Testets styrka = P(förkasta H0H1 sann)
H0: µ = 100H1: µ = 110
Observera att om vi inte förkastar H0, så drar vi ingen slutsats
Tillämpad matematik III/Statistik - Sida 103Mats Gunnarsson
Sammansatta mothypoteser - normalfördelning
�En hypotes som innehåller många parametervärden kallas sammansatt, till exempel: µ > 100 (jämför föregående)– Ovan är ett ensidigt test
– Ett tvåsidigt test är till exempel µ ≠ 100
�Signifikansnivån fungerar på samma sätt som vid enkla hypoteser
�Testets styrka blir en funktion av den parameter som testet avser (inom H1)
Tillämpad matematik III/Statistik - Sida 104Mats Gunnarsson
Test av µ, σ känt - normalfördelning
� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och
normalfördelade N(µ,σ)– Låt x1, x2, ..., xn vara en observation av stickprovet
där λα fås ur
� Ensidig hypotesprövning på signifikansnivån α– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)
– Förkasta H0 om (alternativt )
� Tvåsidig hypotesprövning på signifikansnivån α– H0: µ = µ0; H1: m ≠ µ0
– Förkasta H0 om
xn
> +µ λσ
α0 xn
< −µ λσ
α0
xn
eller xn
< − > +µ λσ
µ λσ
α α0 2 0 2/ /
Φ( )λ αα = −1
Tillämpad matematik III/Statistik - Sida 105Mats Gunnarsson
Test av µ, σ okänt - normalfördelning
� ξ är en stokastisk variabel– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och
normalfördelade N(µ,σ)– Låt x1, x2, ..., xn vara en observation av stickprovet
� Ensidig hypotesprövning med signifikans α– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)
– Förkasta H0 om (alternativt )
� Tvåsidig hypotesprövning med signifikans α– H0: µ = µ0; H1: m ≠ µ0
– Förkasta H0 om
x ts
nn< − −µ α0 1,( ) x ts
nn> + −µ α0 1,( )
x ts
neller x t
s
nn n< − > +− −µ µα α0 2 1 0 2 1/ , ( ) / ,( )
där tα,(n-1) fås ur t-fördelningen, F(x), F(tα,(n-1)) = 1-α
Tillämpad matematik III/Statistik - Sida 106Mats Gunnarsson
Konfidensintervall ./. hypotesprövningnormalfördelning
x ts
nn< − −µ α0 1,( )
x ts
nn> + −µ α0 1,( )
x ts
neller x t
s
nn n< − > +
− −µ µα α0 2 1 0 2 1/ , ( ) / ,( )
xn
> +µ λσ
α0xn
< −µ λσ
α0
xn
eller xn
< − > +µ λσ
µ λσ
α α0 2 0 2/ /
x ts
nx t
s
nn n− +
− −α α/ , ( ) / , ( ),2 1 2 1
xn
xn
− +
λσ
λσ
α α/ /,2 2
Konfidensintervall HypotesprövningFör µ, σ känt
För µ, σ okänt
För µ, σ känt
För µ, σ okänt
Ensidig hypotesprövning
Ensidig hypotesprövning
Tillämpad matematik III/Statistik - Sida 107Mats Gunnarsson
Direktmetoden
� H0: nollhypotesen (om ett visst värde)
� Utgå från en observation
� Räkna ut sannolikheten, α0, att få ett lika extremt eller extremare värde på testvariabeln under förutsättning att H0 är sann
� Jämför med signifikansnivån α– Om α0 < α så förkastas H0
– Om α0 > α så förkastas inte H0
� Speciellt användbar för diskreta fördelningar
Tillämpad matematik III/Statistik - Sida 108Mats Gunnarsson
Teckentest
� Fördelningsoberoende
� Observationer i par , (xi, yi), i =1, ..., n där variation mellan paren söks– H0 : lika resultat
– H1 : x är extremare än y
� Jämför varje par– Räkna de gånger, ξ, då xi är extremare än yi vid parvis jämförelse
� Direktmetoden: beräkna sannolikheten för utfallet eller extremare– Bin(n, 0.5) i detta fall
� Jämför med signifikansnivån α
Tillämpad matematik III/Statistik - Sida 109Mats Gunnarsson
to be continued ...
… another time ?