070 統計的推測　母集団と推定

統計的推測　 Statistical Inference

推定と検定母集団と標本点推定区間推定2007.07.04 　母平均のまとめ追加2007.05.25 情報統計学 R より編集2008.06.20 一部編集2012.07.13 　信頼区間2012.07.17 　 t- 分布表の引き方

参考アニメーションhttp://case.f7.ems.okayama-u.ac.jp/animation/population.html

母集団と標本

� 母集団 population� 調査したい全体 θ1θ2...θN

� 母集団の特性値� 母平均　　　 μ� 母分散　　　 σ2

� 全数調査� 時間がかかる� 費用がかかる� もともと不可能な場合

標本調査 sample survey

� 標本 sample� 母集団よりランダムに標本を抽出し、

観測してデータ　　　 x1,x2,...,xn

が得られる� データの値は標本により異なる� 確率変数

　　　 X1,X2,...,Xn

の実現値

母集団

標本

可能な標本の組数

� 有限母集団の場合母集団の構成要素（岡山大学の全学生数）　　　 N 　　　　　　　　（　　　 N=13,000　　　　）

標本数　　　ｎ　　　　　　　　（　　　ｎ＝１０　　　　　　）

� 可能な標本の組数　　　 M 　＝　 NCn

� どの組を標本に選ぶか？！

無作為抽出 random sampling

� 独立性の保証� 乱数

� 乱数表� 乱数賽（サイコロ）

� 非復元無作為抽出 without replacement� 復元無作為抽出　 with replacement� 層別抽出法　　　　　 stratified sampling

乱数賽

乱数表

乱数表

� 通常６頁� さいころで利用する頁� 鉛筆を落として

最初に使用する値� 必要な桁数で� 通常下に読んでいく

47 都道府県� 1 北海道� 2 青森� 3 岩手� 4 秋田� 5 宮城� 6 山形� 7 福島� 8 茨城� 9 栃木� 10 群馬� 11 埼玉� 12 千葉� 13 東京� 14 神奈川� 15 新潟� 16 富山� 17 石川� 18 福井� 19 山梨� 20 長野� 21 岐阜� 22 静岡� 23 愛知

� 24 三重� 25 滋賀� 26 京都� 27 大阪� 28 兵庫� 29 奈良� 30 和歌� 31 鳥取� 32 島根� 33 岡山� 34 広島� 35 山口� 36 徳島� 37 香川� 38 愛媛� 39 高知� 40 福岡� 41 佐賀� 42 長崎� 43 熊本� 44 大分� 45 宮崎� 46 鹿児島� 47 沖縄

層別無作為抽出法

� 市区町村、町丁字別、性別、学年別のように、できるだけ均一な集団（層）に分け

� 各層から無作為抽出

� 各層からどんな割合で標本をとるか� 各層の大きさに比例して� 各層のばらつきに比例して

推定と検定

� 推定 estimation� 母集団の特性値に何の情報もない� 特性値の値はどんな値か知りたい

� 点推定　　 point estimation� 区間推定 interval estimation/ confidence interval

� 検定 testing� 母集団の特性値についてある情報を持ってい

る� その情報が正しいか否かを知りたい

� 帰無仮説と対立仮説null hypothesis/ alternative hypothesis

点推定

� 仮想的な母集団

i 名前 θi1 A 1482 B 1603 C 1594 D 1535 E 1516 F 140

> p1 <- c(148, 160, 159, 153, 151, 140) > p1 [1] 148 160 159 153 151 140> mean(p1) [1] 151.8333 　　母平均> var(p1) [1] 54.96667 　　母分散

標本の取り出し方標本 x1 x2 x3 x4 標本平均

1 A B C D 148 160 159 153 155.00

2 A B C E 148 160 159 151 154.50

3 A B C F 148 160 159 140 151.75

4 A B D E 148 160 153 151 153.00

5 A B D F 148 160 153 140 150.25

6 A B E F 148 160 151 140 149.75

7 A C D E 148 159 153 151 152.75

8 A C D F 148 159 153 140 150.00

9 A C E F 148 159 151 140 149.50

10 A D E F 148 153 151 140 148.00

11 B C D E 160 159 153 151 155.75

12 B C D F 160 159 153 140 153.00

13 B C E F 160 159 151 140 152.75

14 B D E F 160 153 151 140 151.00

15 C D E F 159 153 151 140 150.75総平均 151.833

> mean(c(159, 153, 151, 140)) [1] 150.75途中省略

> mean(c(159, 153, 151, 140)) [1] 150.75> mean(c(155.00, 154.50, 151.75, 153.00, 150.25, + 149.75, 152.75, 150.00, 149.50, 148.00, + 155.75, 153.00, 152.50, 151.00, 150.75)) [1] 151.8333

1512

5646 =

⋅⋅=== CCM nN

点推定

� 標本確率変数 X1,X2,...,Xn の関数として母集団の特性値（パラメータ） θ を定め

る

� すなわち

となる関数 f を定める

),...,,(ˆ21 XXX n

f=θ

点推定に望まれる性質

� 不偏性 unbiasedness� 一致性 consistency� 有効性 efficiency� 最尤法 maximum likelihood method

� 最尤推定　 MLE maximum likelihood estimator

不偏性 unbiasedness

.

.

.

標本 1　　推定値

標本 2　　推定値

標本 L　　推定値Lθ

θ

θ

ˆ

ˆ

ˆ

2

1

不偏性

� 推定値の期待値が推定したい値

LL

E

θθθ

θθˆˆˆ

ˆ

...21

)(

+++=

=

例　表 7.1 の母平均の推定

33318333333333.151

15/)75.15050.15400.155()ˆ(

1),,(ˆ

33318333333333.151

6/)140151153159160148(

12,1

=+++=

===

=+++++=

∑=

　　　

　　とおくと

母平均

µ

µ

µ

E

Xn

XXXXfn

iin

一致性 consistency

� 標本数 n を大きくする（全数調査に近づける）

� 推定値　は母集団のパラメータ　に一致

θθ̂

θθθ ==∞→∞→

),...,,(21ˆlimˆlim XXX n

nn

例　一致性

)(6

140151153159160148

1

),,,(ˆˆ

1

21limlim

Nn

Xn

X

XXX

n

ii

nnn

→=+++++→

=

==

∑=

∞→∞→

　　　　　　 µ

θθθ

有効性 efficiency

� 推定値　　は、できるだけ　　に近い値が現れることが望ましい。

( 分散は小さいほどよい )

^

θ θ

最小化⇒)(^

θVar

例　全て不偏・一致推定量

22

143211

2143212

32143213

43214321

)ˆ())ˆ(ˆ()ˆ(

1),,,(ˆˆ

2),,,(ˆˆ

3),,,(ˆˆ

4),,,(ˆˆ

θθθθθ

θθ

θθ

θθ

θθ

−=−=

==

+==

++==

+++==

EEEV

XXXXX

XXXXXX

XXXXXXX

XXXXXXXX

BLUE 　 Best Linear Unbiased Estimator

� データ　　　　　　　　　　　の線形結合の形式の推定値

の中で分散最小のもの

XXX n,...,,

21

XcXcXcXXX

nn

n

+++=

=

...

),...,,(

2211

21

^^

θθ

最小化⇒)(^

θVar

最尤法maximum likelihood method

� 尤度関数　 Likelihood Functionn 個の観測値 x1,x2,...,xn の同時密度　　　をパラメータ θ の関数として　　　

みたものが、パラメータ θ の「もっともらしさ」 = 「尤度」

);,,,(),,,(

),,,;()(

);,,,(),,,(

2121

21

2121

θθθ

θ

nn

n

nn

xxxfxxxf

xxxLL

xxxfxxxf

===

=

　　　

最尤法

� 最尤法尤度関数　 L(θ) を最大にする θ を推定値

∑=

==

=

n

iin xfxxxLL

LL

121 );(log),,,;(log)(log

)()ˆ( max

θθθ

θθθ

　

最尤法

� データが独立にとられている場合

∑∏

∏

==

=

===

==

n

ii

n

ii

n

iin

xfxfLl

xfxxxfL

11

121

);(log);(log)(log)(

);();,...,,()(

θθθθ

θθθ

対数尤度関数

正規分布の平均の点推定

� のとき、対数尤度関数

� すなわち平均の最尤推定は標本平均

),(~,...,, 2

21σµNXXX n

∑

∑∑

∑

∑∑

=

=⇒=−⇒=∂∂

−=∂∂

−−+===

ii

ii

ii

ii

i

i

ii

Xn

nXXl

XCl

XKXfl

1

0)(0

)(2)(

}2

)({);(log)(

ˆ

2

2

1

µ

µµµ

µµµ

σµµµ

正規分布の平均の点推定

� 標本平均が� 不偏性� 一致性� 有効性 (BLUE)� 最尤性

� のすべての意味で、一番良い推定量である。

∑=i

iXn

1µ̂

正規分布の分散の点推定

� 平均 μ が既知の場合

� 平均 μ が未知の場合� 最尤推定� 不偏推定

∑

∑

∑

=

=

=

−−

=

−=

−=

n

ii

n

ii

n

ii

XXn

XXn

Xn

1

22

1

22

1

22

)(1

1

)(1

)(1

σ

σ

µσ

∑

∑

∑

∑

=

=

=

=

−=

=

−−−−=

−−−−∂

∂=

−−∂

∂=∂

∂

n

ii

n

i

i

n

i

i

n

i

i

xn

nx

nnx

xL

1

22

1222

2

1

22

2

2

12

2

22

2

)(1

ˆ

0

1

2)

)(

1(

2

)(

]log2

)2log(22

)([)(

]2

)(exp[

2

1log

)()(log

)(

µσ

σσµ

σπσ

µσ

σµ

σπσσ

σ

2

1

22

1

22

2

1

22

2

12

22

)(1

ˆ

1ˆ

0),(log)(

0),(log

log2

)2log(2

]2

)([

]2

)(exp[

2

1log),(log

sxxn

xxn

L

L

nnx

xL

n

ii

n

ii

n

i

i

n

i

i

=−=

==

=∂

∂

=∂∂

−−−

−=

−−=

∑

∑

∑

∑

=

=

=

=

σ

µ

σµσ

σµµ

σπσ

µσ

µσπ

σµ

不偏分散

2

22

22

1

22

1

2

1

1

22

)1(

])[(])([

])()([

])}(){([

])([][

σ

σσ

µµ

µµ

µµ

−=

−=

−−−=

−−−=

−−−=

−=

∑

∑

∑

∑

=

=

=

=

n

nnn

XnEXE

XnXE

XXE

XXESE

i

n

i

i

n

i

i

n

i

n

ii

2222

2

1

22

)1(1

1][

1

1][

)(1

1

1

1

σσ =−−

=−

=

−−

=−

= ∑=

nn

SEn

UE

XXn

Sn

U i

n

i

区間推定 interval estimation

� 区間　　　　　をデータ　　　　　　　　　に基づいて

と定める� 区間の幅

� 定めた区間に母数がはいる確率

)),...,,(ˆ),,...,,(ˆ()ˆ,ˆ( 2121 nUnLUL XXXXXX θθθθ =

)ˆ,ˆ( UL θθ nXXX ,...,, 21

LU θθ ˆˆ −

)ˆˆPr( UL θθθ <<

信頼度　 confidence level

� 「区間の幅は狭く、確率は大きく」� 同時には満たせない

� 条件付で考える� 「確率は最低限（悪くとも） 1-α 」以上という

条件のもとで、幅を最少にするように定める

� この確率 1-α を信頼度という。� 定めた区間を信頼区間 (confidence interval) とい

う

区間推定の定式化

最小化　　間の幅という条件の下で。区

　　　このとき

点を定める。の関数として区間の端標本　　

⇒−

−≥<<

=

LU

UL

nUnLUL

n

XXXXXX

XXX

θθ

αθθθ

θθθθ

1)Pr(

)),,,(),,,,((),(

,,,

2121

21

確率 95% の区間

36

正規分布の母平均 μ の区間推定

2/)Pr(

1)Pr(

1)Pr(

)1,0(~

),(~1

),(~,,,

2/

2

2

1

221

αα

α

σµ

σµ

σµ

α =>−=<<−

−=<<

−=

= ∑=

kZ

kZk

bZa

N

n

XZ

nNX

nX

NIDXXXn

ii

n

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

区間の幅が一番短くなるのは左右対称にとった場合

正規分布の母平均 μ の区間推定

2/)Pr(

1)Pr(

1)Pr(

)1,0(~

),(~1

),(~,,,

2/

2

2

1

221

αα

α

σµ

σµ

σµ

α =>−=<<−

−=<<

−=

= ∑=

kZ

kZk

bZa

N

n

XZ

nNX

nX

NIDXXXn

ii

n

nkX

nkX

nkX

nkX

nkX

nkX

nkX

nkX

nk

kn

Xk

kZk

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2

2/

2/

2

2/

2/2/

),(

1)Pr(

1)Pr(

1)Pr(

1)/)(Pr(

1)Pr(

σσσ

ασµσ

ασµσ

ασµσ

ασµ

α

ααα

αα

αα

αα

αα

αα

±+−

−=+<<−

−=+−<−<−−

−=<−<−

−=<−<−

−=<<−

　　　

信頼区間

> r <- sim.conf.interval(100, 10, 0.95)

> r[apply(r, 1, prod) > 0, ] [,1] [,2][1,] -1.257169 -0.01757909[2,] -1.300771 -0.06118130[3,] -1.323769 -0.08417887[4,] -1.415869 -0.17627881> (1:100)[apply(r, 1, prod) > 0][1] 48 64 96 99

> plot.conf.interval(r)- 2 - 1 0 1 2

020

4060

8010

0

g x

gy

本番

正規分布の母平均 μの区間推定（母分散が未知の場合）

� 母分散σ2の代わりに推定値u2を代入しよう

　

～　　

],[

1)//Pr(

1)/

Pr(

1)Pr(

)1,0(/

),,(~1

),(~,,,

2

2/

2

2/

22/

22/

2/22/

2/2/

2

2

1

221

nkX

nkX

nkXnkX

kn

Xk

kZk

Nn

XZ

nNX

nX

NXXXn

ii

n

σσ

ασµσ

ασ

µα

σµσµ

σµ

αα

αα

αα

αα

+−

−=+<<−

−=<−<−

−=<<−

−== ∑=

2

12

12

2

1)

2(

)2

1(

)(

tm

~/

)1,0(/n

+−

−

+

Γ

+Γ=

−=

−=

m

m

n

m

xm

m

m

xf

tnu

XT

NX

Z

π

µσ

µ

分布の密度関数の自由度

～

自由度 n-1 の t-分布

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x密度関数

黒：標準正規分布赤：自由度９　ｔ分布青：自由度３　ｔ分布

t-分布表

自由度１０　上側確率0.025

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 1

0)

2281.2)025.0(

05.02025.0)2281.2|Pr(|

025.0)2281.2Pr(

10 ==×=>

=>

t

T

T

自由度 8　両側確率 0.1

8595.1)05.0(

05.0)8595.1Pr(

05.0)8595.1Pr(

1.0205.0)8595.1|Pr(|

8 ==−<

=>=×=>

t

T

T

T

下側確率　　上側確率　　両側確率　　

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dt(

x, 8

)

])2/(,)2/([

1))2/()2/(Pr(

1))2/()2/(Pr(

~/

2

1

2

1

2

1

2

1

11

12

n

utX

n

utX

n

utX

n

utX

tTt

tnu

XT

nn

nn

nn

n

αα

ααµα

ααα

µ

−−

−−

−−

−

+−

−=+<<−

−=<<−

−=

信頼区間

ασµσ

ασ

µ

αα

αα

−=+<<−

−=<<−

−=

1)//Pr(

1)Pr(

)1,0(/

22/

22/

2/2/

2

nkXnkX

kZk

Nn

XZ ～

区間推定のシミュレーション（分散未知）

> t .t e s t(rnorm(10), con f . l eve l=0.95)

One Sample t - te s t

data: rnorm(10) t = -1.0439, df = 9, p-value = 0.3237al ternat ive hypothes i s : t rue mean i s not equal to 0 95 percen t conf idence in terval : -0.9129610 0.3364108 sample e s t imate s : mean of x -0.2882751

> t .t e s t(rnorm(10), con f . l eve l=0.95)$conf . in t[1] -0.4416194 1.4037247attr(, " conf . l eve l ")[1] 0.95

n=10、 1-α=0.95、 σ ２ =未知

> sim.t.conf.interval <- function(nsim, n, conf) {+ result <- c()+ for (i in 1:nsim){+ result <- rbind(result, t.test(rnorm(n), conf.level=conf)$conf.int)+ }+ result+ }> set.seed(1231)> rt<-sim.t.conf.interval(100,10,0.95)> rt[apply(rt,1,prod)>0,] [,1] [,2][1,] -0.99062123 -0.12569906[2,] -1.10211619 -0.03000526[3,] -0.54445510 -0.01016643[4,] 0.01700083 1.08047258> which(apply(rt,1,prod)>0)[1] 32 69 72 93> plot.conf.interval(rt)

- 2 - 1 0 1 20

2040

6080

100

g x

gy

２つの信頼区間の比較

- 2 - 1 0 1 2

020

4060

8010

0

g x

gy

- 2 - 1 0 1 2

020

4060

8010

0

g x

gy

070 統計的推測 母集団と推定

Education

070 統計的推測　母集団と推定