第 3 章 統計的推定 (その 2 )

24
3 3 第第第第第 第第第第第 第第 第第 2 2 第第第 第第第 2006 2006 第第 第第 第第 第第第 第第 第第第

Upload: tanek-cooper

Post on 30-Dec-2015

35 views

Category:

Documents


3 download

DESCRIPTION

第 3 章 統計的推定 (その 2 ). 統計学  2006 年度 <修正・補足版>. Ⅰ  標本分布 a)  母集団と標本 1)  標本調査の利点 2)  標本調査における誤差 b)  標本平均の標本分布 c)  標本分散の標本分布 Ⅱ  点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ  区間推定 a)  母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b)  母比率の区間推定 標本比率の標本分布 母比率の区間推定 c)  標本数の決定 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 3 章  統計的推定 (その 2 )

第第 33 章章 統計的推定 統計的推定(その(その 22 ))

統計学 統計学  20062006 年度年度<修正・補足版><修正・補足版>

Page 2: 第 3 章  統計的推定 (その 2 )

Ⅰ  標本分布a)  母集団と標本

1)  標本調査の利点2)  標本調査における誤差

b)  標本平均の標本分布c)  標本分散の標本分布

Ⅱ  点推定a) 点推定b) 統計量の特性

1) 不偏性2) その他の統計量特性

Ⅲ  区間推定a)  母平均の区間推定

1) 中心極限定理2) 信頼区間3) 母分散が既知の場合の区間推定4) 母分散が未知の場合の区間推定

b)  母比率の区間推定1) 標本比率の標本分布2) 母比率の区間推定

c)  標本数の決定1) 母平均の区間推定における標本数の決定2) 母比率の区間推定における標本数の決定

(その1)

(その2)

Page 3: 第 3 章  統計的推定 (その 2 )

• 点推定で母数 θ をピタリと推定することは難しい。そのため、標本統計量 t の近くの区間を設定し、その区間内に母数θ が含まれることを推定する。これを区間推定という。

•    の標本分布について、

   

   が成り立っていた。また、母集団の個体数( N )が十分大きいとき、

   が成り立つ

a) 母平均の区間推定1 ) 中心極限定理

x

nN

nNx

x2

1)V(

)E(

nx

2

)V(

Ⅲ Ⅲ 区間推定区間推定

Page 4: 第 3 章  統計的推定 (その 2 )

  次に、標本平均   の分布がどのような形になるのか考えてみよう。

 ⅰ) 母集団の分布が正規分布の場合   母集団が平均 μ 、分散 σ2 の正規分布にしたがっているとする。   標本平均  は

   であり、正規分布にしたがう変数の和 ( を n という定数で割ったもの ) となっている。

   したがって、正規分布の再生性†より、  は正規分布にしたがう。

   † 確率変数 X と Y がそれぞれ N(μx,σ2x), N(μy,σ2

y) にしたがうとき、その1次結合 α X+βY は N(αμx + βμy,α2σ2

x + β2σ2y )にしたがう。これを正規分

布の再生性という。

x

x

n

x

n

xxxx

n

ii

n

121

x

Page 5: 第 3 章  統計的推定 (その 2 )

 ⅱ) 母集団の分布が正規分布ではない場合  母集団の分布が正規分布でない場合でも、標本の個体数 n が大き

いとき、次のような定理によって標本平均  の分布は正規分布となる。

<中心極限定理>  算術平均 μ, 分散 σ2 をもつ母集団からとられた大きさ n

の標本の平均  の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ,   ) に近づく。 

※  以上ⅰ ), ) ⅱ より、 n が大きい時には母集団の分布にかかわらず、標本平均  の分布は正規分布となり、標準化された変数

の分布は、標準正規分布 N(0, 1) に近づく。

x

n

2

n

xz

x

x

Page 6: 第 3 章  統計的推定 (その 2 )

2 ) 信頼区間

  標準正規分布にしたがう変数が、 -1.96 と 1.96 の間の値をとる確率は 95% である。よって、      は n が大きいときには、中心極限定理により標準正規分布にしたがうので、

  となる。この式のカッコ内を変形すると

  となり、標本平均  は        の区間内に 95% の確率で含まれる。

n

xz

95.0)96.196.1(P

n

x

nx

n

96.196.1

xn

96.1

Page 7: 第 3 章  統計的推定 (その 2 )

    の分布                   zの分布

また                  のカッコ内は次のようにも変形できる。

x標準化

n

xz

n

96.1n

96.1μ -1.96 1.960

95.0)96.196.1(P

n

x

nx

nx

nx

n

nx

nn

x

96.196.1

96.196.1

96.196.196.196.1

Page 8: 第 3 章  統計的推定 (その 2 )

                    と                   は次のようなことを意味している。

nx

n

96.196.1 n

xn

x

96.196.1

n

96.1n

96.1μ

×

nx

96.1

nx

96.1x

××

Page 9: 第 3 章  統計的推定 (その 2 )

    を中心に、        という区間を考えると、とりうる標本のうち 95% がこの区間内に母平均 μ を含む。

• このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。

• この場合、             は μ の信頼係数95% の信頼区間である。

xn

x

96.1

)96.1,96.1(n

xn

x

Page 10: 第 3 章  統計的推定 (その 2 )

3)  母分散が既知の場合の区間推定(例)  20 歳男性の身長を調べるために、 100 人を標本

として選んだところ、標本平均   =170 であった。 σ=8 であるとき、母平均 μ の 95% 信頼区間を求めよ。

(解) μ の 95% 信頼区間は

    となる。

x

)57.171,43.169(

)568.1170,568.1170(

)100

896.1170,

100

896.1170(

)96.1,96.1(

n

xn

x

Page 11: 第 3 章  統計的推定 (その 2 )

信頼区間を求める場合、        が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散 σ2 が分かっているということは、あまり多くない。

母集団(大きさ N) 標本(大きさ n)

標本平均

標本分散 s2

母平均 μ

母分散 σ 2

× ×

×

× ×

× ×

× × ×

× ×

x

4 ) 母分散が未知の場合の区間推定

n

xz

母分散 σ2 がわからないとき、代わりに標本分散 s2 を用いる。

このとき、        が自由度 n-1 のt分布にしたがう。1/

ns

xt

Page 12: 第 3 章  統計的推定 (その 2 )

※   t 分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。

t正規分布と分布

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00

normalt1t5t10

※  標本分散 s2 の代わりに標本不偏分散

    を用いれば、      が自由度 n-1 のt分布にしたがう。

1

)(

1

)()()(ˆ

2222

212

n

xx

n

xxxxxxs in

ns

xt

Page 13: 第 3 章  統計的推定 (その 2 )

<自由度について>  自由度とは、自由に値を取ることのできる個体数

のことである。  この場合は、 t 統計量の自由度は標本分散 s2 の分

子に含まれる xi のうち、自由に値を取ることのできる個数である。

  なので、 x1, …, xn-1 は自由に値をとることができるが、 xn は

  を満たすように決められ、自由度は n-1 となる。

n

xx

n

xxxxxxs

n

ii

n

1

222

22

12

)()()()(

xn

xi

Page 14: 第 3 章  統計的推定 (その 2 )

• 母集団の分散が分からないとき、母平均 μ の 95% 信頼区間は、t分布の 95% 点を t0.95 とあらわすと、

 となる。 t0.95 は t 分布表からその値を求める。

※  より正確には、母集団の分布が正規分布にしたがうとき、        が自由度 n-1 の t 分布にしたがう。

  しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、        は近似的に自由度 n-1 の t 分布にしたがうとみなせる。

  また、 n が十分大きい場合、 t 分布は正規分布に近づくので、

     が正規分布にしたがうと考えることもある。

)1

,1

( 95.095.0

n

stx

n

stx

1/

ns

xt

1/

ns

xt

1/

ns

xt

Page 15: 第 3 章  統計的推定 (その 2 )

(例)  20 歳女性の身長を調べるために、 10 人を標本として選んだところ、標本平均   =160 であった。 s=9であるとき、母平均 μ の 95% 信頼区間を求めよ。

(解) 自由度 10-1=9 の t 分布の t0.95=2.262 なので、 μの 95% 信頼区間は

  となる。

x

)79.166,21.153(

)79.6160,79.6160(

)3262.2160,3262.2160(

)110

9262.2160,

110

9262.2160(

)1

,1

( 95.095.0

 

 

n

stx

n

stx

Page 16: 第 3 章  統計的推定 (その 2 )

b) 母比率の区間推定   1 ) 標本比率の標本分布

 よって  の標本分布を考えるためには、まず x の標本分布を考えればよい。

 

母集団(大きさ N) 標本(大きさ n)

標本比率

母比率 p

× ×

×

× ×

× ×

× × ×

× ×

  まず、標本比率  の標本分布を考えよう。

  内閣支持率を例にとると、標本比率  とは、標本 n 人のうちの x 人が「内閣を支持する」と答えた割合であり、    である。

n

xp ˆ

Page 17: 第 3 章  統計的推定 (その 2 )

• 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。

  また選ばれた人が 「内閣を支持する」人である確率は、母比率 p に等しい。

  よって、 n 人の標本を選ぶことは、 A か B かという 2 つの結果しか起こらない試行 を n 回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは 2 項分布にしたがう。

• 2 項分布の期待値は E(x) = np 、分散は V(x) = npq であるので、これを用いて、  の平均、分散を考えてみると、

                       となる。

pn

np

n

xE

n

xEpE

)()()ˆ(

n

pq

n

npq

n

xV

n

xVpV

22

)()()ˆ(

Page 18: 第 3 章  統計的推定 (その 2 )

• また、「内閣を支持する」人を 1 、「内閣を支持しな

い」人を 0 と表すことを考える。 n 人の標本の中に

「内閣を支持する」人はを x 人含まれるので、このよ

うにあらわした場合、     は大きさ n の標本の平

均とみなすことができ、中心極限定理が適用できる。

  よって、  の分布は、平均 p 、分散  の正規分布にしたがう。標準化された変数       は標準正規分布にしたがう。 

n

xp ˆ

n

pqp̂

npq

ppz

ˆ

Page 19: 第 3 章  統計的推定 (その 2 )

2 ) 母比率の区間推定

        が標準正規分布にしたがうことから、母比率 p の

   95% 信頼区間は              となる。

(例)  World Baseball Classic 決勝 日本-キューバ戦の視聴率は 43.4% であった。この数値は関東地区の約 1600 万世帯から 600 世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の 95% 信頼区間を求めよう。

(解) p の代わりに   を用いて p の 95% 信頼区間を計算すると

                                   となる。

npq

ppz

ˆ

)96.1ˆ,96.1ˆ(n

pqp

n

pqp

)474.0,394.0(

)040.0434.0,040.0434.0(

)600

566.0434.096.1434.0,

600

566.0434.096.1434.0(

)96.1ˆ,96.1ˆ(

n

pqp

n

pqp

Page 20: 第 3 章  統計的推定 (その 2 )

c) 標本数の決定

   WBC 決勝戦の視聴率を信頼係数 95% で区間推定すると、 8% もの幅ができる。そのため、 1% ぐらいの差で、勝った負けたを考えるのはナンセンスである。

  では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度 ( どの程度のズレまで許容できるか ) を設定し、それに必要な標本数を計算する必要がある。

Page 21: 第 3 章  統計的推定 (その 2 )

1)  母平均の推定における標本数の決定

         の許容限度を E とする。     の区間推定を信頼係数 95% でおこなうとき、  の分布

について、

  が成り立つので、

  となればよい。よって

|| x x

96.1||

n

x

En

x 96.1||

nE

nE

En

21.96

1.96

1.96

Page 22: 第 3 章  統計的推定 (その 2 )

  となり、

  が必要標本数であることが分かる。  これを求めるために、母標準偏差 σ が必要となるが、標本数を決定

するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などから σ2 の推定値を求め、それを利用する。

(例) ある大都市の大学生の 1 ヶ月平均生活費を 1000 円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は 8000円であったと見当がつけられているとする。

(解) 信頼係数を 95% とすると、必要標本数は

  となるので、 246 人となる。

21.96

E

n

8624.245)68.15(1000

80001.96 22

n

Page 23: 第 3 章  統計的推定 (その 2 )

2)  母比率の推定における標本数の決定

         の許容限度を E とする。   p の区間推定を信頼係数 95% でおこなうとき、  の分布につ

いて、

  が成り立つので、

  となればよい。よって

|ˆ| pp p̂

En

pqpp 96.1|ˆ|

npqE

nE

pq

En

pq

21.96

1.96

1.96

96.1|ˆ|

npq

pp

Page 24: 第 3 章  統計的推定 (その 2 )

  となり、

  が必要標本数であることが分かる。  これを求めるために、母比率 p が必要となる。 P について何らかの見

当がつくなら、その数値を用いるが、 p について何の情報もない場合には

  を用いる。なぜなら、     のときに、 pq が最大となるからである。

(例) 視聴率調査において、 1% 以内の誤差で推定するために必要な標本数を求めよ。

(解) 信頼係数を 95% とする。また、母比率についてはあらゆる可能性が考えられるので、    とすると、必要標本数は

  となるので、 9604 人となる。

pqE

n2

1.96

96044

1)196(

2

1

2

1

01.0

1.96 22

n

2

1p

2

1qp

2

1p