070 統計的推測 母集団と推定

49
統計的推測 Statistical Inference 推定と検定 母集団と標本 点推定 区間推定 2007.07.04 母平均のまとめ追加 2007.05.25 情報統計学 R より編集 2008.06.20 一部編集 2012.07.13 信頼区間 2012.07.17 t- 分布表の引き方 参考アニメーション http://case.f7.ems.okayama-u.ac.jp/animation/population.html

Upload: t2tarumi

Post on 05-Jul-2015

321 views

Category:

Education


2 download

TRANSCRIPT

Page 1: 070 統計的推測 母集団と推定

統計的推測  Statistical Inference

推定と検定母集団と標本点推定区間推定2007.07.04  母平均のまとめ追加2007.05.25 情報統計学 R より編集2008.06.20 一部編集2012.07.13  信頼区間2012.07.17   t- 分布表の引き方

参考アニメーションhttp://case.f7.ems.okayama-u.ac.jp/animation/population.html

Page 2: 070 統計的推測 母集団と推定

母集団と標本

� 母集団 population� 調査したい全体 θ1θ2...θN

� 母集団の特性値� 母平均    μ� 母分散    σ2

� 全数調査� 時間がかかる� 費用がかかる� もともと不可能な場合

Page 3: 070 統計的推測 母集団と推定

標本調査 sample survey

� 標本 sample� 母集団よりランダムに標本を抽出し、

観測してデータ    x1,x2,...,xn

が得られる� データの値は標本により異なる� 確率変数

    X1,X2,...,Xn

の実現値

母集団

標本

Page 4: 070 統計的推測 母集団と推定

可能な標本の組数

� 有限母集団の場合母集団の構成要素(岡山大学の全学生数)    N         (    N=13,000    )

標本数    n        (   n=10      )

� 可能な標本の組数    M  =  NCn

� どの組を標本に選ぶか?!

Page 5: 070 統計的推測 母集団と推定

無作為抽出 random sampling

� 独立性の保証� 乱数

� 乱数表� 乱数賽(サイコロ)

� 非復元無作為抽出 without replacement� 復元無作為抽出  with replacement� 層別抽出法      stratified sampling

Page 6: 070 統計的推測 母集団と推定

乱数賽

Page 7: 070 統計的推測 母集団と推定

乱数表

Page 8: 070 統計的推測 母集団と推定

乱数表

� 通常6頁� さいころで利用する頁� 鉛筆を落として

最初に使用する値� 必要な桁数で� 通常下に読んでいく

Page 9: 070 統計的推測 母集団と推定

47 都道府県� 1 北海道� 2 青森� 3 岩手� 4 秋田� 5 宮城� 6 山形� 7 福島� 8 茨城� 9 栃木� 10 群馬� 11 埼玉� 12 千葉� 13 東京� 14 神奈川� 15 新潟� 16 富山� 17 石川� 18 福井� 19 山梨� 20 長野� 21 岐阜� 22 静岡� 23 愛知

� 24 三重� 25 滋賀� 26 京都� 27 大阪� 28 兵庫� 29 奈良� 30 和歌� 31 鳥取� 32 島根� 33 岡山� 34 広島� 35 山口� 36 徳島� 37 香川� 38 愛媛� 39 高知� 40 福岡� 41 佐賀� 42 長崎� 43 熊本� 44 大分� 45 宮崎� 46 鹿児島� 47 沖縄

Page 10: 070 統計的推測 母集団と推定

層別無作為抽出法

� 市区町村、町丁字別、性別、学年別のように、できるだけ均一な集団(層)に分け

� 各層から無作為抽出

� 各層からどんな割合で標本をとるか� 各層の大きさに比例して� 各層のばらつきに比例して

Page 11: 070 統計的推測 母集団と推定

推定と検定

� 推定 estimation� 母集団の特性値に何の情報もない� 特性値の値はどんな値か知りたい

� 点推定   point estimation� 区間推定 interval estimation/ confidence interval

� 検定 testing� 母集団の特性値についてある情報を持ってい

る� その情報が正しいか否かを知りたい

� 帰無仮説と対立仮説null hypothesis/ alternative hypothesis

Page 12: 070 統計的推測 母集団と推定

点推定

� 仮想的な母集団

i 名前 θi1 A 1482 B 1603 C 1594 D 1535 E 1516 F 140

> p1 <- c(148, 160, 159, 153, 151, 140) > p1 [1] 148 160 159 153 151 140> mean(p1) [1] 151.8333   母平均> var(p1) [1] 54.96667   母分散

Page 13: 070 統計的推測 母集団と推定

標本の取り出し方標本 x1 x2 x3 x4 標本平均

1 A B C D 148 160 159 153 155.00

2 A B C E 148 160 159 151 154.50

3 A B C F 148 160 159 140 151.75

4 A B D E 148 160 153 151 153.00

5 A B D F 148 160 153 140 150.25

6 A B E F 148 160 151 140 149.75

7 A C D E 148 159 153 151 152.75

8 A C D F 148 159 153 140 150.00

9 A C E F 148 159 151 140 149.50

10 A D E F 148 153 151 140 148.00

11 B C D E 160 159 153 151 155.75

12 B C D F 160 159 153 140 153.00

13 B C E F 160 159 151 140 152.75

14 B D E F 160 153 151 140 151.00

15 C D E F 159 153 151 140 150.75総平均 151.833

> mean(c(159, 153, 151, 140)) [1] 150.75途中省略

> mean(c(159, 153, 151, 140)) [1] 150.75> mean(c(155.00, 154.50, 151.75, 153.00, 150.25, + 149.75, 152.75, 150.00, 149.50, 148.00, + 155.75, 153.00, 152.50, 151.00, 150.75)) [1] 151.8333

1512

5646 =

⋅⋅=== CCM nN

Page 14: 070 統計的推測 母集団と推定

点推定

� 標本確率変数 X1,X2,...,Xn の関数として 母集団の特性値(パラメータ) θ を定め

� すなわち

となる関数 f を定める

),...,,(ˆ21 XXX n

f=θ

Page 15: 070 統計的推測 母集団と推定

点推定に望まれる性質

� 不偏性 unbiasedness� 一致性 consistency� 有効性 efficiency� 最尤法 maximum likelihood method

� 最尤推定  MLE maximum likelihood estimator

Page 16: 070 統計的推測 母集団と推定

不偏性 unbiasedness

.

.

.

標本 1  推定値

標本 2  推定値

標本 L  推定値Lθ

θ

θ

ˆ

ˆ

ˆ

2

1

Page 17: 070 統計的推測 母集団と推定

不偏性

� 推定値の期待値が推定したい値

LL

E

θθθ

θθˆˆˆ

ˆ

...21

)(

+++=

=

Page 18: 070 統計的推測 母集団と推定

例 表 7.1 の母平均の推定

33318333333333.151

15/)75.15050.15400.155()ˆ(

1),,(ˆ

33318333333333.151

6/)140151153159160148(

12,1

=+++=

===

=+++++=

∑=

   

  とおくと

母平均

µ

µ

µ

E

Xn

XXXXfn

iin

Page 19: 070 統計的推測 母集団と推定

一致性 consistency

� 標本数 n を大きくする(全数調査に近づける)

� 推定値  は母集団のパラメータ  に一致

θθ̂

θθθ ==∞→∞→

),...,,(21ˆlimˆlim XXX n

nn

Page 20: 070 統計的推測 母集団と推定

例 一致性

)(6

140151153159160148

1

),,,(ˆˆ

1

21limlim

Nn

Xn

X

XXX

n

ii

nnn

→=+++++→

=

==

∑=

∞→∞→

       µ

θθθ

Page 21: 070 統計的推測 母集団と推定

有効性 efficiency

� 推定値  は、できるだけ  に近い値が現れることが望ましい。

( 分散は小さいほどよい )

^

θ θ

最小化⇒)(^

θVar

Page 22: 070 統計的推測 母集団と推定

例 全て不偏・一致推定量

22

143211

2143212

32143213

43214321

)ˆ())ˆ(ˆ()ˆ(

1),,,(ˆˆ

2),,,(ˆˆ

3),,,(ˆˆ

4),,,(ˆˆ

θθθθθ

θθ

θθ

θθ

θθ

−=−=

==

+==

++==

+++==

EEEV

XXXXX

XXXXXX

XXXXXXX

XXXXXXXX

Page 23: 070 統計的推測 母集団と推定

BLUE   Best Linear Unbiased Estimator

� データ           の線形結合の形式の推定値

の中で分散最小のもの

XXX n,...,,

21

XcXcXcXXX

nn

n

+++=

=

...

),...,,(

2211

21

^^

θθ

最小化⇒)(^

θVar

Page 24: 070 統計的推測 母集団と推定

最尤法maximum likelihood method

� 尤度関数  Likelihood Functionn 個の観測値 x1,x2,...,xn の同時密度   をパラメータ θ の関数として   

みたものが、パラメータ θ の「もっともらしさ」 = 「尤度」

);,,,(),,,(

),,,;()(

);,,,(),,,(

2121

21

2121

θθθ

θ

nn

n

nn

xxxfxxxf

xxxLL

xxxfxxxf

===

=

   

Page 25: 070 統計的推測 母集団と推定

最尤法

� 最尤法尤度関数  L(θ) を最大にする θ を推定値

∑=

==

=

n

iin xfxxxLL

LL

121 );(log),,,;(log)(log

)()ˆ( max

θθθ

θθθ

 

Page 26: 070 統計的推測 母集団と推定

最尤法

� データが独立にとられている場合

∑∏

==

=

===

==

n

ii

n

ii

n

iin

xfxfLl

xfxxxfL

11

121

);(log);(log)(log)(

);();,...,,()(

θθθθ

θθθ

対数尤度関数

Page 27: 070 統計的推測 母集団と推定

正規分布の平均の点推定

� のとき、対数尤度関数

� すなわち平均の最尤推定は標本平均

),(~,...,, 2

21σµNXXX n

∑∑

∑∑

=

=⇒=−⇒=∂∂

−=∂∂

−−+===

ii

ii

ii

ii

i

i

ii

Xn

nXXl

XCl

XKXfl

1

0)(0

)(2)(

}2

)({);(log)(

ˆ

2

2

1

µ

µµµ

µµµ

σµµµ

Page 28: 070 統計的推測 母集団と推定

正規分布の平均の点推定

� 標本平均が� 不偏性� 一致性� 有効性 (BLUE)� 最尤性

� のすべての意味で、一番良い推定量である。

∑=i

iXn

1µ̂

Page 29: 070 統計的推測 母集団と推定

正規分布の分散の点推定

� 平均 μ が既知の場合

� 平均 μ が未知の場合� 最尤推定� 不偏推定

=

=

=

−−

=

−=

−=

n

ii

n

ii

n

ii

XXn

XXn

Xn

1

22

1

22

1

22

)(1

1

)(1

)(1

σ

σ

µσ

Page 30: 070 統計的推測 母集団と推定

=

=

=

=

−=

=

−−−−=

−−−−∂

∂=

−−∂

∂=∂

n

ii

n

i

i

n

i

i

n

i

i

xn

nx

nnx

xL

1

22

1222

2

1

22

2

2

12

2

22

2

)(1

ˆ

0

1

2)

)(

1(

2

)(

]log2

)2log(22

)([)(

]2

)(exp[

2

1log

)()(log

)(

µσ

σσµ

σπσ

µσ

σµ

σπσσ

σ

Page 31: 070 統計的推測 母集団と推定

2

1

22

1

22

2

1

22

2

12

22

)(1

ˆ

0),(log)(

0),(log

log2

)2log(2

]2

)([

]2

)(exp[

2

1log),(log

sxxn

xxn

L

L

nnx

xL

n

ii

n

ii

n

i

i

n

i

i

=−=

==

=∂

=∂∂

−−−

−=

−−=

=

=

=

=

σ

µ

σµσ

σµµ

σπσ

µσ

µσπ

σµ

Page 32: 070 統計的推測 母集団と推定

不偏分散

2

22

22

1

22

1

2

1

1

22

)1(

])[(])([

])()([

])}(){([

])([][

σ

σσ

µµ

µµ

µµ

−=

−=

−−−=

−−−=

−−−=

−=

=

=

=

=

n

nnn

XnEXE

XnXE

XXE

XXESE

i

n

i

i

n

i

i

n

i

n

ii

2222

2

1

22

)1(1

1][

1

1][

)(1

1

1

1

σσ =−−

=−

=

−−

=−

= ∑=

nn

SEn

UE

XXn

Sn

U i

n

i

Page 33: 070 統計的推測 母集団と推定

区間推定 interval estimation

� 区間     をデータ         に基づいて

と定める� 区間の幅

� 定めた区間に母数がはいる確率

)),...,,(ˆ),,...,,(ˆ()ˆ,ˆ( 2121 nUnLUL XXXXXX θθθθ =

)ˆ,ˆ( UL θθ nXXX ,...,, 21

LU θθ ˆˆ −

)ˆˆPr( UL θθθ <<

Page 34: 070 統計的推測 母集団と推定

信頼度  confidence level

� 「区間の幅は狭く、確率は大きく」� 同時には満たせない

� 条件付で考える� 「確率は最低限(悪くとも) 1-α 」以上という

条件のもとで、幅を最少にするように定める

� この確率 1-α を信頼度という。� 定めた区間を信頼区間 (confidence interval) とい

Page 35: 070 統計的推測 母集団と推定

区間推定の定式化

最小化  間の幅という条件の下で。区

   このとき

点を定める。の関数として区間の端標本  

⇒−

−≥<<

=

LU

UL

nUnLUL

n

XXXXXX

XXX

θθ

αθθθ

θθθθ

1)Pr(

)),,,(),,,,((),(

,,,

2121

21

Page 36: 070 統計的推測 母集団と推定

確率 95% の区間

36

Page 37: 070 統計的推測 母集団と推定

正規分布の母平均 μ の区間推定

2/)Pr(

1)Pr(

1)Pr(

)1,0(~

),(~1

),(~,,,

2/

2

2

1

221

αα

α

σµ

σµ

σµ

α =>−=<<−

−=<<

−=

= ∑=

kZ

kZk

bZa

N

n

XZ

nNX

nX

NIDXXXn

ii

n

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

区間の幅が一番短くなるのは左右対称にとった場合

Page 38: 070 統計的推測 母集団と推定

正規分布の母平均 μ の区間推定

2/)Pr(

1)Pr(

1)Pr(

)1,0(~

),(~1

),(~,,,

2/

2

2

1

221

αα

α

σµ

σµ

σµ

α =>−=<<−

−=<<

−=

= ∑=

kZ

kZk

bZa

N

n

XZ

nNX

nX

NIDXXXn

ii

n

Page 39: 070 統計的推測 母集団と推定

nkX

nkX

nkX

nkX

nkX

nkX

nkX

nkX

nk

kn

Xk

kZk

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2/

2

2/

2/2/

),(

1)Pr(

1)Pr(

1)Pr(

1)/)(Pr(

1)Pr(

σσσ

ασµσ

ασµσ

ασµσ

ασµ

α

ααα

αα

αα

αα

αα

αα

±+−

−=+<<−

−=+−<−<−−

−=<−<−

−=<−<−

−=<<−

   

信頼区間

Page 40: 070 統計的推測 母集団と推定

> r <- sim.conf.interval(100, 10, 0.95)

> r[apply(r, 1, prod) > 0, ] [,1] [,2][1,] -1.257169 -0.01757909[2,] -1.300771 -0.06118130[3,] -1.323769 -0.08417887[4,] -1.415869 -0.17627881> (1:100)[apply(r, 1, prod) > 0][1] 48 64 96 99

> plot.conf.interval(r)- 2 - 1 0 1 2

020

4060

8010

0

g x

gy

本番

Page 41: 070 統計的推測 母集団と推定

正規分布の母平均 μの区間推定(母分散が未知の場合)

� 母分散σ2の代わりに推定値u2を代入しよう

 

~  

],[

1)//Pr(

1)/

Pr(

1)Pr(

)1,0(/

),,(~1

),(~,,,

2

2/

2

2/

22/

22/

2/22/

2/2/

2

2

1

221

nkX

nkX

nkXnkX

kn

Xk

kZk

Nn

XZ

nNX

nX

NXXXn

ii

n

σσ

ασµσ

ασ

µα

σµσµ

σµ

αα

αα

αα

αα

+−

−=+<<−

−=<−<−

−=<<−

−== ∑=

Page 42: 070 統計的推測 母集団と推定

2

12

12

2

1)

2(

)2

1(

)(

tm

~/

)1,0(/n

+−

+

Γ

+Γ=

−=

−=

m

m

n

m

xm

m

m

xf

tnu

XT

NX

Z

π

µσ

µ

分布の密度関数の自由度

自由度 n-1 の t-分布

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x密度関数

黒:標準正規分布赤:自由度9 t分布青:自由度3 t分布

Page 43: 070 統計的推測 母集団と推定

t-分布表

Page 44: 070 統計的推測 母集団と推定

自由度10 上側確率0.025

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

2281.2)025.0(

05.02025.0)2281.2|Pr(|

025.0)2281.2Pr(

10 ==×=>

=>

t

T

T

Page 45: 070 統計的推測 母集団と推定

自由度 8 両側確率 0.1

8595.1)05.0(

05.0)8595.1Pr(

05.0)8595.1Pr(

1.0205.0)8595.1|Pr(|

8 ==−<

=>=×=>

t

T

T

T

下側確率  上側確率  両側確率  

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 8

)

Page 46: 070 統計的推測 母集団と推定

])2/(,)2/([

1))2/()2/(Pr(

1))2/()2/(Pr(

~/

2

1

2

1

2

1

2

1

11

12

n

utX

n

utX

n

utX

n

utX

tTt

tnu

XT

nn

nn

nn

n

αα

ααµα

ααα

µ

−−

−−

−−

+−

−=+<<−

−=<<−

−=

信頼区間

ασµσ

ασ

µ

αα

αα

−=+<<−

−=<<−

−=

1)//Pr(

1)Pr(

)1,0(/

22/

22/

2/2/

2

nkXnkX

kZk

Nn

XZ ~

Page 47: 070 統計的推測 母集団と推定

区間推定のシミュレーション(分散未知)

> t .t e s t(rnorm(10), con f . l eve l=0.95)

One Sample t - te s t

data: rnorm(10) t = -1.0439, df = 9, p-value = 0.3237al ternat ive hypothes i s : t rue mean i s not equal to 0 95 percen t conf idence in terval : -0.9129610 0.3364108 sample e s t imate s : mean of x -0.2882751

> t .t e s t(rnorm(10), con f . l eve l=0.95)$conf . in t[1] -0.4416194 1.4037247attr(, " conf . l eve l ")[1] 0.95

Page 48: 070 統計的推測 母集団と推定

n=10、 1-α=0.95、 σ 2 =未知

> sim.t.conf.interval <- function(nsim, n, conf) {+ result <- c()+ for (i in 1:nsim){+ result <- rbind(result, t.test(rnorm(n), conf.level=conf)$conf.int)+ }+ result+ }> set.seed(1231)> rt<-sim.t.conf.interval(100,10,0.95)> rt[apply(rt,1,prod)>0,] [,1] [,2][1,] -0.99062123 -0.12569906[2,] -1.10211619 -0.03000526[3,] -0.54445510 -0.01016643[4,] 0.01700083 1.08047258> which(apply(rt,1,prod)>0)[1] 32 69 72 93> plot.conf.interval(rt)

- 2 - 1 0 1 20

2040

6080

100

g x

gy

Page 49: 070 統計的推測 母集団と推定

2つの信頼区間の比較

- 2 - 1 0 1 2

020

4060

8010

0

g x

gy

- 2 - 1 0 1 2

020

4060

8010

0

g x

gy