第 3 章統計的推定（その 2 ）

第第 33 章章統計的推定統計的推定（その（その 22 ））

統計学　統計学　 20062006 年度年度＜修正・補足版＞＜修正・補足版＞

Ⅰ 　標本分布a) 　母集団と標本

1) 　標本調査の利点2) 　標本調査における誤差

b) 　標本平均の標本分布c) 　標本分散の標本分布

Ⅱ 　点推定a) 点推定b) 統計量の特性

1) 不偏性2) その他の統計量特性

Ⅲ 　区間推定a) 　母平均の区間推定

1) 中心極限定理2) 信頼区間3) 母分散が既知の場合の区間推定4) 母分散が未知の場合の区間推定

b) 　母比率の区間推定1) 標本比率の標本分布2) 母比率の区間推定

c) 　標本数の決定1) 母平均の区間推定における標本数の決定2) 母比率の区間推定における標本数の決定

（その１）

（その２）

• 点推定で母数 θ をピタリと推定することは難しい。そのため、標本統計量 t の近くの区間を設定し、その区間内に母数θ が含まれることを推定する。これを区間推定という。

• 　　　の標本分布について、

　　　

　　　が成り立っていた。また、母集団の個体数（ N ）が十分大きいとき、

　　　が成り立つ

a) 母平均の区間推定1 ）中心極限定理

x

nN

nNx

x2

1)V(

)E(

nx

2

)V(

Ⅲ Ⅲ 区間推定区間推定

　　次に、標本平均　　　の分布がどのような形になるのか考えてみよう。

　ⅰ）　母集団の分布が正規分布の場合　　　母集団が平均 μ 、分散 σ2 の正規分布にしたがっているとする。　　　標本平均　　は

　　　であり、正規分布にしたがう変数の和 ( を n という定数で割ったもの ) となっている。

　　　したがって、正規分布の再生性†より、　　は正規分布にしたがう。

　　　† 確率変数 X と Y がそれぞれ N(μx,σ2x), N(μy,σ2

y) にしたがうとき、その１次結合 α X+βY は N(αμx ＋ βμy,α2σ2

x ＋ β2σ2y ）にしたがう。これを正規分

布の再生性という。

x

x

n

x

n

xxxx

n

ii

n

121

x

　ⅱ）　母集団の分布が正規分布ではない場合　　母集団の分布が正規分布でない場合でも、標本の個体数 n が大き

いとき、次のような定理によって標本平均　　の分布は正規分布となる。

＜中心極限定理＞　算術平均 μ, 分散 σ2 をもつ母集団からとられた大きさ n

の標本の平均　　の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ, 　 ) に近づく。　

※ 　以上ⅰ ), ) ⅱ より、 n が大きい時には母集団の分布にかかわらず、標本平均　　の分布は正規分布となり、標準化された変数

の分布は、標準正規分布 N(0, 1) に近づく。

x

n

2

n

xz

x

x

2 ）信頼区間

　　標準正規分布にしたがう変数が、 -1.96 と 1.96 の間の値をとる確率は 95% である。よって、　　　　　　は n が大きいときには、中心極限定理により標準正規分布にしたがうので、

　　となる。この式のカッコ内を変形すると

　　となり、標本平均　　は　　　　　　　　の区間内に 95% の確率で含まれる。

n

xz

95.0)96.196.1(P

n

x

nx

n

96.196.1

xn

96.1

　　　　の分布　　　　　　　　　　　　　　　　　　 zの分布

また　　　　　　　　　　　　　　　　　　のカッコ内は次のようにも変形できる。

x標準化

n

xz

n

96.1n

96.1μ -1.96 1.960

95.0)96.196.1(P

n

x

nx

nx

nx

n

nx

nn

x

96.196.1

96.196.1

96.196.196.196.1

　　　　　　　　　　　　　　　　　　　　と　　　　　　　　　　　　　　　　　　　は次のようなことを意味している。

nx

n

96.196.1 n

xn

x

96.196.1

n

96.1n

96.1μ

×

nx

96.1

nx

96.1x

××

　　　　を中心に、　　　　　　　　という区間を考えると、とりうる標本のうち 95% がこの区間内に母平均 μ を含む。

• このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。

• この場合、　　　　　　　　　　　　　は μ の信頼係数95% の信頼区間である。

xn

x

96.1

)96.1,96.1(n

xn

x

3) 　母分散が既知の場合の区間推定（例）　 20 歳男性の身長を調べるために、 100 人を標本

として選んだところ、標本平均　　 =170 であった。 σ=8 であるとき、母平均 μ の 95% 信頼区間を求めよ。

（解） μ の 95% 信頼区間は

　　　　となる。

x

)57.171,43.169(

)568.1170,568.1170(

)100

896.1170,

100

896.1170(

)96.1,96.1(

n

xn

x

信頼区間を求める場合、　　　　　　　が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散 σ2 が分かっているということは、あまり多くない。

母集団（大きさ N）標本（大きさ n）

標本平均

標本分散 s2

母平均 μ

母分散 σ 2

× ×

×

× ×

× ×

× × ×

× ×

x

4 ）母分散が未知の場合の区間推定

n

xz

母分散 σ2 がわからないとき、代わりに標本分散 s2 を用いる。

このとき、　　　　　　　　が自由度 n-1 のｔ分布にしたがう。1/

ns

xt

※ 　 t 分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。

t正規分布と分布

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00

normalt1t5t10

※ 　標本分散 s2 の代わりに標本不偏分散

　　　　を用いれば、　　　　　　が自由度 n-1 のｔ分布にしたがう。

1

)(

1

)()()(ˆ

2222

212

n

xx

n

xxxxxxs in

ns

xt

/ˆ

＜自由度について＞　　自由度とは、自由に値を取ることのできる個体数

のことである。　　この場合は、 t 統計量の自由度は標本分散 s2 の分

子に含まれる xi のうち、自由に値を取ることのできる個数である。

　　なので、 x1, …, xn-1 は自由に値をとることができるが、 xn は

　　を満たすように決められ、自由度は n-1 となる。

n

xx

n

xxxxxxs

n

ii

n

1

222

22

12

)()()()(

xn

xi

• 母集団の分散が分からないとき、母平均 μ の 95% 信頼区間は、ｔ分布の 95% 点を t0.95 とあらわすと、

　となる。 t0.95 は t 分布表からその値を求める。

※ 　より正確には、母集団の分布が正規分布にしたがうとき、　　　　　　　　が自由度 n-1 の t 分布にしたがう。

　　しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、　　　　　　　　は近似的に自由度 n-1 の t 分布にしたがうとみなせる。

　　また、 n が十分大きい場合、 t 分布は正規分布に近づくので、

　　　　　が正規分布にしたがうと考えることもある。

)1

,1

( 95.095.0

n

stx

n

stx

1/

ns

xt

1/

ns

xt

1/

ns

xt

（例）　 20 歳女性の身長を調べるために、 10 人を標本として選んだところ、標本平均　　 =160 であった。 s=9であるとき、母平均 μ の 95% 信頼区間を求めよ。

（解）　自由度 10-1=9 の t 分布の t0.95=2.262 なので、 μの 95% 信頼区間は

　　となる。

x

)79.166,21.153(

)79.6160,79.6160(

)3262.2160,3262.2160(

)110

9262.2160,

110

9262.2160(

)1

,1

( 95.095.0

　

　

n

stx

n

stx

b) 母比率の区間推定　　 1 ）標本比率の標本分布

　よって　　の標本分布を考えるためには、まず x の標本分布を考えればよい。

　

母集団（大きさ N）標本（大きさ n）

標本比率

母比率 p

× ×

×

× ×

× ×

× × ×

× ×

p̂

　まず、標本比率　　の標本分布を考えよう。

　　内閣支持率を例にとると、標本比率　　とは、標本 n 人のうちの x 人が「内閣を支持する」と答えた割合であり、　　　　である。

p̂

n

xp ˆ

p̂

p̂

• 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。

　　また選ばれた人が「内閣を支持する」人である確率は、母比率 p に等しい。

　　よって、 n 人の標本を選ぶことは、 A か B かという 2 つの結果しか起こらない試行を n 回繰り返すこととみなすことができ、「内閣を支持する」人の人数ｘは 2 項分布にしたがう。

• 2 項分布の期待値は E(x) = np 、分散は V(x) = npq であるので、これを用いて、　　の平均、分散を考えてみると、

　　　　　　　　　　　　　　　　　　　　　　　となる。

p̂

pn

np

n

xE

n

xEpE

)()()ˆ(

n

pq

n

npq

n

xV

n

xVpV

22

)()()ˆ(

• また、「内閣を支持する」人を 1 、「内閣を支持しな

い」人を 0 と表すことを考える。 n 人の標本の中に

「内閣を支持する」人はを x 人含まれるので、このよ

うにあらわした場合、　　　　は大きさ n の標本の平

均とみなすことができ、中心極限定理が適用できる。

　よって、　　の分布は、平均 p 、分散　　の正規分布にしたがう。標準化された変数　　　　　　　は標準正規分布にしたがう。　

n

xp ˆ

n

pqp̂

npq

ppz

ˆ

2 ）母比率の区間推定

　　　　　　　　が標準正規分布にしたがうことから、母比率 p の

　　 95% 信頼区間は　　　　　　　　　　　　　　となる。

（例）　 World Baseball Classic 決勝日本－キューバ戦の視聴率は 43.4% であった。この数値は関東地区の約 1600 万世帯から 600 世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の 95% 信頼区間を求めよう。

（解） p の代わりに　　を用いて p の 95% 信頼区間を計算すると

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　となる。

npq

ppz

ˆ

)96.1ˆ,96.1ˆ(n

pqp

n

pqp

)474.0,394.0(

)040.0434.0,040.0434.0(

)600

566.0434.096.1434.0,

600

566.0434.096.1434.0(

)96.1ˆ,96.1ˆ(

n

pqp

n

pqp

p̂

c) 標本数の決定

　　 WBC 決勝戦の視聴率を信頼係数 95% で区間推定すると、 8% もの幅ができる。そのため、 1% ぐらいの差で、勝った負けたを考えるのはナンセンスである。

　　では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度 ( どの程度のズレまで許容できるか ) を設定し、それに必要な標本数を計算する必要がある。

1) 　母平均の推定における標本数の決定

　　　　　　　　　の許容限度を E とする。　　　　　の区間推定を信頼係数 95% でおこなうとき、　　の分布

について、

　　が成り立つので、

　　となればよい。よって

|| x x

96.1||

n

x

En

x 96.1||

nE

nE

En

21.96

1.96

1.96

　　となり、

　　が必要標本数であることが分かる。　　これを求めるために、母標準偏差 σ が必要となるが、標本数を決定

するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などから σ2 の推定値を求め、それを利用する。

（例）　ある大都市の大学生の 1 ヶ月平均生活費を 1000 円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は 8000円であったと見当がつけられているとする。

（解）信頼係数を 95% とすると、必要標本数は

　　となるので、 246 人となる。

21.96

E

n

8624.245)68.15(1000

80001.96 22

n

2) 　母比率の推定における標本数の決定

　　　　　　　　　の許容限度を E とする。　　 p の区間推定を信頼係数 95% でおこなうとき、　　の分布につ

いて、

　　が成り立つので、

　　となればよい。よって

|ˆ| pp p̂

En

pqpp 96.1|ˆ|

npqE

nE

pq

En

pq

21.96

1.96

1.96

96.1|ˆ|

npq

pp

　　となり、

　　が必要標本数であることが分かる。　　これを求めるために、母比率 p が必要となる。 P について何らかの見

当がつくなら、その数値を用いるが、 p について何の情報もない場合には

　　を用いる。なぜなら、　　　　　のときに、 pq が最大となるからである。

（例）　視聴率調査において、 1% 以内の誤差で推定するために必要な標本数を求めよ。

（解）信頼係数を 95% とする。また、母比率についてはあらゆる可能性が考えられるので、　　　　とすると、必要標本数は

　　となるので、 9604 人となる。

pqE

n2

1.96

96044

1)196(

2

1

2

1

01.0

1.96 22

n

2

1p

2

1qp

2

1p

第 3 章 統計的推定 （その 2 ）

Documents

第 3 章統計的推定（その 2 ）