k070k80 点推定 区間推定

Post on 05-Jul-2015

174 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

統計的推測  Statistical Inference

推定と検定母集団と標本点推定区間推定

2007.07.04 母平均のまとめ追加2007.05.25 情報統計学 Rより編集

2008.06.20 一部編集2012.07.06 不偏分散

20120713 信頼区間

母集団と標本• 母集団 population

調査したい全体 θ1θ2...θN

母集団の特性値• 母平均    μ• 母分散    σ2

全数調査• 時間がかかる• 費用がかかる• もともと不可能な場合

標本調査 sample survey

• 標本 sample 母集団よりランダムに標本を抽出し、観測してデータ    x1,x2,...,xn

が得られる データの値は標本により異なる 確率変数    X1,X2,...,Xn

の実現値

母集団

標本

可能な標本の組数

• 有限母集団の場合母集団の構成要素(岡山大学の全学生数)    N        (    N=13,000    )

標本数    n        (   n=10      )

• 可能な標本の組数   M =  NCn

• どの組を標本に選ぶか?!

無作為抽出 random sampling

• 独立性の保証 乱数

• 乱数表• 乱数賽(サイコロ)

• 非復元無作為抽出 without replacement• 復元無作為抽出  with replacement• 層別抽出法      stratified sampling

乱数賽

乱数表

乱数表

• 通常6頁• さいころで利用する頁• 鉛筆を落として最初に使用する値

• 必要な桁数で• 通常下に読んでいく

47都道府県

• 1 北海道• 2 青森• 3 岩手• 4 秋田• 5 宮城• 6 山形• 7 福島• 8 茨城• 9 栃木• 10 群馬• 11 埼玉• 12 千葉• 13 東京• 14 神奈川• 15 新潟• 16 富山• 17 石川• 18 福井• 19 山梨• 20 長野• 21 岐阜• 22 静岡• 23 愛知

• 24 三重• 25 滋賀• 26 京都• 27 大阪• 28 兵庫• 29 奈良• 30 和歌• 31 鳥取• 32 島根• 33 岡山• 34 広島• 35 山口• 36 徳島• 37 香川• 38 愛媛• 39 高知• 40 福岡• 41 佐賀• 42 長崎• 43 熊本• 44 大分• 45 宮崎• 46 鹿児島• 47 沖縄

層別無作為抽出法• 市区町村、町丁字別、性別、学年別のように、できるだけ均一な集団(層)に分け

• 各層から無作為抽出

• 各層からどんな割合で標本をとるか 各層の大きさに比例して 各層のばらつきに比例して

推定と検定

• 推定 estimation 母集団の特性値に何の情報もない 特性値の値はどんな値か知りたい

• 点推定   point estimation• 区間推定 interval estimation/ confidence interval

• 検定 testing 母集団の特性値についてある情報を持っている その情報が正しいか否かを知りたい

• 帰無仮説と対立仮説null hypothesis/ alternative hypothesis

点推定• 仮想的な母集団

i 名前 θi1 A 1482 B 1603 C 1594 D 1535 E 1516 F 140

> p1 <- c(148, 160, 159, 153, 151, 140) > p1 [1] 148 160 159 153 151 140> mean(p1) [1] 151.8333  母平均> var(p1) [1] 54.96667  母分散

標本の取り出し方

標本 x1 x2 x3 x4 標本平均

1 A B C D 148 160 159 153 155.00

2 A B C E 148 160 159 151 154.50

3 A B C F 148 160 159 140 151.75

4 A B D E 148 160 153 151 153.00

5 A B D F 148 160 153 140 150.25

6 A B E F 148 160 151 140 149.75

7 A C D E 148 159 153 151 152.75

8 A C D F 148 159 153 140 150.00

9 A C E F 148 159 151 140 149.50

10 A D E F 148 153 151 140 148.00

11 B C D E 160 159 153 151 155.75

12 B C D F 160 159 153 140 153.00

13 B C E F 160 159 151 140 152.75

14 B D E F 160 153 151 140 151.00

15 C D E F 159 153 151 140 150.75総平均 151.833

> mean(c(159, 153, 151, 140)) [1] 150.75途中省略

> mean(c(159, 153, 151, 140)) [1] 150.75> mean(c(155.00, 154.50, 151.75, 153.00, 150.25, + 149.75, 152.75, 150.00, 149.50, 148.00, + 155.75, 153.00, 152.50, 151.00, 150.75)) [1] 151.8333

1512

5646 =

⋅⋅=== CCM nN

14

情報統計学

点推定

15点推定と区間推定

• 未知母数 ( パラメータ )θを推定するには 2つの方法がある 区間推定

• 区間で当てる 点推定

• 点で当てる たった一組のデータで求めた値が,母平均の値などに一致する可能性は少ない

• 区間推定 θ1 θ θ≦ ≦ 2のようにある幅をつけて母数 θを推定する方法

• パラメータ θが入るであろう範囲を一定の信頼度(確率)で指定• 点推定

θ=θ0として,幅をつけずに一個の推定値で推定 一点で当てる

16点推定に望まれる性質

• 不偏性 標本に基づいて推定した値が,偏っていない

• 何回も推定を繰り返すと,平均的には,推定したい値 θにあっている

• 一致性 nを Nに近づけたとき,全数調査の値,母集団のパラメータ θに一致してほしい

• 有効性 一致性,不偏性を満たすものは多数 推定量の分散が小さいほうが望ましい

• 最尤法 あとで説明。

17不偏性

何回も推定を繰り返すと,平均的に は推定したい値 θ に合っている

不偏性 unbiasedness

.

.

.

標本 1  推定値

標本 2  推定値

標本 L  推定値Lθ

θ

θ

ˆ

ˆ

ˆ

2

1

母集団

不偏性• 推定値の期待値が推定したい値

• 平均的にはうまい値を求めている大きめの値、小さめの値に偏っていない

LL

E

θθθ

θθˆˆˆ

ˆ

...21

)(

+++=

=

20不偏性

21

22一致性

23有効性

24

• 推定量の分散は小さいほうが望ましい。

が小さい推定量ほど,「有効」 (effective)な推定量

25最尤法

• P103 教科書 図 7.1 図 7.2

26

27

28

尤度関数  L(θ) を最大にする θ

29正規分布の平均の点推定

30正規分布の母分散の点推定

正規分布の平均の点推定

• 標本平均が不偏性一致性有効性 (BLUE)最尤性

• のすべての意味で、一番良い推定量である。

∑=i

iXn

1µ̂

正規分布の分散の点推定

• 平均 μが既知の場合

• 平均 μが未知の場合 最尤推定 不偏推定

=

=

=

−−

=

−=

−=

n

ii

n

ii

n

ii

XXn

XXn

Xn

1

22

1

22

1

22

)(1

1

)(1

)(1

σ

σ

µσ

不偏分散

2

22

22

1

22

1

2

1

1

22

)1(

])[(])([

])()([

])}(){([

])([][

σ

σσ

µµ

µµ

µµ

−=

−=

−−−=

−−−=

−−−=

−=

=

=

=

=

n

nnn

XnEXE

XnXE

XXE

XXESE

i

n

i

i

n

i

i

n

i

n

ii

2222

2

1

22

)1(1

1][

1

1][

)(1

1

1

1

σσ =−−

=−

=

−−

=−

= ∑=

nn

SEn

UE

XXn

Sn

U i

n

i

34レポート

35

36

情報統計学

区間推定

37区間推定

• たった一組のデータで求めた値が,母平均の値に一致する可能性は少ない。

• 区間を求める「区間推定」を考える求める区間の幅はできるだけ狭く定めた区間内にパラメータが入っている確率はできるだけ大きくなるように

• 同時に満たすことは難しい確率に条件を付ける

• 信頼度 1-αを定める。• 求めた推定区間の中にパラメータが入っている確率が

1-α 以上になる区間のなかで,幅をできるだけ狭くする

38信頼区間

39母平均 μの区間推定(母分散 σ2が既知の場合)

信頼区間の幅 40

> xseq<-seq(0.001, 0.049, 0.0001)> cL<-qnorm(xseq)> cU<-qnorm(1-0.05+xseq)> Ran<-cU-cL> plot(Ran)> which.min(Ran)[1] 241> points(241,Ran[241],col="red")> xseq[241][1] 0.025> cbind(cL,cU,Ran) cL cU Ran [1,] -3.090232 1.654628 4.744860 [2,] -3.061814 1.655614 4.717428 [3,] -3.035672 1.656602 4.692274省略[239,] -1.963398 1.956553 3.919951[240,] -1.961678 1.958256 3.919934[241,] -1.959964 1.959964 3.919928[242,] -1.958256 1.961678 3.919934[243,] -1.956553 1.963398 3.919951以下省略 0 100 200 300 400 500

4.0

4.2

4.4

4.6

Index

Ra

n

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

x

dn

orm

(x)

確率 95%の区間 41

42母平均 μの区間推定(母分散 σ2が既知の場合)

43シミュレーション

• R の関数 rnorm は N(0, 1)に従う乱数を生成 これを母集団と考えて, 10個の乱数(標本)をとり,

母平均の信頼度 1-α=0.95 の信頼区間を作る

44シミュレーション

45

乱数によっては,母平均 μ=0を含む場合と,含まない場合がある

46

• 区間推定を 100回繰り返して,確かめてみる。 区間を 100個作る。> for(i in 1:100){

print(conf.interval(rnorm(10), 0.95, 1))

}

• 関数 sim.conf.interval シミュレーションの回数,標本数,信頼度 標本数 n=10 ・信頼度 1-α=0.95・シミュレーション回数 5回 sim.conf.interval(5, 10, 0.95)

47

• シミュレーション回数を 100回にして, 100組の信頼区間• 真の母平均の値 μ=0 を含まない信頼区間だけを表示

48

• グラフにして表示• r <- sim.conf.interval(100, 10, 0.95)

• plot.conf.interval(r)

-2 -1 0 1 2

020

40

60

80

100

gx

gy

49母平均 μの信頼区間(母分散 σ2が未知のとき)

• 母分散 σ2が未知のときは,先ほどの方法は使えない• ここで次の性質を使う。( σ2は未知なため, σは使えない)

50母平均 μの信頼区間(母分散 σ2が未知のとき)

• P69

51母平均 μの信頼区間(母分散 σ2が未知のとき)

52信頼区間の計算

53シミュレーション

54

-2 -1 0 1 2

020

40

60

80

100

gx

gy

55信頼区間の幅

母分散が未知の場合は母分散のかわりに,不偏推定値の標本不偏分散を用いているため

・信頼区間の幅がすべて同じ・信頼区間の幅が変わっている

56演習

• N(0,1)に従う乱数を 999個作成し,小さいほうから 25番目,975番目の値を求め, qnorm関数より, α=0.025の値, α=0.975の値と比較せよ。 並べ替えは sort関数で行うことができる

• sort(x)で xを小さい順に並べ替える– その 1番目の値を見るためには, sort(x)[1]

57レポート

• N(0,1)に従う乱数を 16個発生させ,その平均を求めることを999回繰り返す。 999個の平均の,平均を求めよ。 小さいほうから 25番目の値と、 975番目の値を求めよ。

top related