第 3 章 統計的推定 (その 2 )
DESCRIPTION
第 3 章 統計的推定 (その 2 ). 統計学 2006 年度 <修正・補足版>. Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本数の決定 - PowerPoint PPT PresentationTRANSCRIPT
第第 33 章章 統計的推定 統計的推定(その(その 22 ))
統計学 統計学 20062006 年度年度<修正・補足版><修正・補足版>
Ⅰ 標本分布a) 母集団と標本
1) 標本調査の利点2) 標本調査における誤差
b) 標本平均の標本分布c) 標本分散の標本分布
Ⅱ 点推定a) 点推定b) 統計量の特性
1) 不偏性2) その他の統計量特性
Ⅲ 区間推定a) 母平均の区間推定
1) 中心極限定理2) 信頼区間3) 母分散が既知の場合の区間推定4) 母分散が未知の場合の区間推定
b) 母比率の区間推定1) 標本比率の標本分布2) 母比率の区間推定
c) 標本数の決定1) 母平均の区間推定における標本数の決定2) 母比率の区間推定における標本数の決定
(その1)
(その2)
• 点推定で母数 θ をピタリと推定することは難しい。そのため、標本統計量 t の近くの区間を設定し、その区間内に母数θ が含まれることを推定する。これを区間推定という。
• の標本分布について、
が成り立っていた。また、母集団の個体数( N )が十分大きいとき、
が成り立つ
a) 母平均の区間推定1 ) 中心極限定理
x
nN
nNx
x2
1)V(
)E(
nx
2
)V(
Ⅲ Ⅲ 区間推定区間推定
次に、標本平均 の分布がどのような形になるのか考えてみよう。
ⅰ) 母集団の分布が正規分布の場合 母集団が平均 μ 、分散 σ2 の正規分布にしたがっているとする。 標本平均 は
であり、正規分布にしたがう変数の和 ( を n という定数で割ったもの ) となっている。
したがって、正規分布の再生性†より、 は正規分布にしたがう。
† 確率変数 X と Y がそれぞれ N(μx,σ2x), N(μy,σ2
y) にしたがうとき、その1次結合 α X+βY は N(αμx + βμy,α2σ2
x + β2σ2y )にしたがう。これを正規分
布の再生性という。
x
x
n
x
n
xxxx
n
ii
n
121
x
ⅱ) 母集団の分布が正規分布ではない場合 母集団の分布が正規分布でない場合でも、標本の個体数 n が大き
いとき、次のような定理によって標本平均 の分布は正規分布となる。
<中心極限定理> 算術平均 μ, 分散 σ2 をもつ母集団からとられた大きさ n
の標本の平均 の分布は、母集団の分布がどのようなものであっても、 n が大きくなるとき、正規分布 N(μ, ) に近づく。
※ 以上ⅰ ), ) ⅱ より、 n が大きい時には母集団の分布にかかわらず、標本平均 の分布は正規分布となり、標準化された変数
の分布は、標準正規分布 N(0, 1) に近づく。
x
n
2
n
xz
x
x
2 ) 信頼区間
標準正規分布にしたがう変数が、 -1.96 と 1.96 の間の値をとる確率は 95% である。よって、 は n が大きいときには、中心極限定理により標準正規分布にしたがうので、
となる。この式のカッコ内を変形すると
となり、標本平均 は の区間内に 95% の確率で含まれる。
n
xz
95.0)96.196.1(P
n
x
nx
n
96.196.1
xn
96.1
の分布 zの分布
また のカッコ内は次のようにも変形できる。
x標準化
n
xz
n
96.1n
96.1μ -1.96 1.960
95.0)96.196.1(P
n
x
nx
nx
nx
n
nx
nn
x
96.196.1
96.196.1
96.196.196.196.1
と は次のようなことを意味している。
nx
n
96.196.1 n
xn
x
96.196.1
n
96.1n
96.1μ
×
nx
96.1
nx
96.1x
××
を中心に、 という区間を考えると、とりうる標本のうち 95% がこの区間内に母平均 μ を含む。
• このように母数が含まれると考えられる区間を信頼区間といい、その区間に母数が入ると信頼できる程度を信頼係数という。
• この場合、 は μ の信頼係数95% の信頼区間である。
xn
x
96.1
)96.1,96.1(n
xn
x
3) 母分散が既知の場合の区間推定(例) 20 歳男性の身長を調べるために、 100 人を標本
として選んだところ、標本平均 =170 であった。 σ=8 であるとき、母平均 μ の 95% 信頼区間を求めよ。
(解) μ の 95% 信頼区間は
となる。
x
)57.171,43.169(
)568.1170,568.1170(
)100
896.1170,
100
896.1170(
)96.1,96.1(
n
xn
x
信頼区間を求める場合、 が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散 σ2 が分かっているということは、あまり多くない。
母集団(大きさ N) 標本(大きさ n)
標本平均
標本分散 s2
母平均 μ
母分散 σ 2
× ×
×
× ×
× ×
× × ×
× ×
x
4 ) 母分散が未知の場合の区間推定
n
xz
母分散 σ2 がわからないとき、代わりに標本分散 s2 を用いる。
このとき、 が自由度 n-1 のt分布にしたがう。1/
ns
xt
※ t 分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。
t正規分布と分布
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00
normalt1t5t10
※ 標本分散 s2 の代わりに標本不偏分散
を用いれば、 が自由度 n-1 のt分布にしたがう。
1
)(
1
)()()(ˆ
2222
212
n
xx
n
xxxxxxs in
ns
xt
/ˆ
<自由度について> 自由度とは、自由に値を取ることのできる個体数
のことである。 この場合は、 t 統計量の自由度は標本分散 s2 の分
子に含まれる xi のうち、自由に値を取ることのできる個数である。
なので、 x1, …, xn-1 は自由に値をとることができるが、 xn は
を満たすように決められ、自由度は n-1 となる。
n
xx
n
xxxxxxs
n
ii
n
1
222
22
12
)()()()(
xn
xi
• 母集団の分散が分からないとき、母平均 μ の 95% 信頼区間は、t分布の 95% 点を t0.95 とあらわすと、
となる。 t0.95 は t 分布表からその値を求める。
※ より正確には、母集団の分布が正規分布にしたがうとき、 が自由度 n-1 の t 分布にしたがう。
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、 は近似的に自由度 n-1 の t 分布にしたがうとみなせる。
また、 n が十分大きい場合、 t 分布は正規分布に近づくので、
が正規分布にしたがうと考えることもある。
)1
,1
( 95.095.0
n
stx
n
stx
1/
ns
xt
1/
ns
xt
1/
ns
xt
(例) 20 歳女性の身長を調べるために、 10 人を標本として選んだところ、標本平均 =160 であった。 s=9であるとき、母平均 μ の 95% 信頼区間を求めよ。
(解) 自由度 10-1=9 の t 分布の t0.95=2.262 なので、 μの 95% 信頼区間は
となる。
x
)79.166,21.153(
)79.6160,79.6160(
)3262.2160,3262.2160(
)110
9262.2160,
110
9262.2160(
)1
,1
( 95.095.0
n
stx
n
stx
b) 母比率の区間推定 1 ) 標本比率の標本分布
よって の標本分布を考えるためには、まず x の標本分布を考えればよい。
母集団(大きさ N) 標本(大きさ n)
標本比率
母比率 p
× ×
×
× ×
× ×
× × ×
× ×
p̂
まず、標本比率 の標本分布を考えよう。
内閣支持率を例にとると、標本比率 とは、標本 n 人のうちの x 人が「内閣を支持する」と答えた割合であり、 である。
p̂
n
xp ˆ
p̂
p̂
• 標本として選ばれた人の答えは、それぞれ「内閣を支持する」か「内閣を支持しない」かのいずれである。
また選ばれた人が 「内閣を支持する」人である確率は、母比率 p に等しい。
よって、 n 人の標本を選ぶことは、 A か B かという 2 つの結果しか起こらない試行 を n 回繰り返すこととみなすことができ、 「内閣を支持する」人の人数xは 2 項分布にしたがう。
• 2 項分布の期待値は E(x) = np 、分散は V(x) = npq であるので、これを用いて、 の平均、分散を考えてみると、
となる。
p̂
pn
np
n
xE
n
xEpE
)()()ˆ(
n
pq
n
npq
n
xV
n
xVpV
22
)()()ˆ(
• また、「内閣を支持する」人を 1 、「内閣を支持しな
い」人を 0 と表すことを考える。 n 人の標本の中に
「内閣を支持する」人はを x 人含まれるので、このよ
うにあらわした場合、 は大きさ n の標本の平
均とみなすことができ、中心極限定理が適用できる。
よって、 の分布は、平均 p 、分散 の正規分布にしたがう。標準化された変数 は標準正規分布にしたがう。
n
xp ˆ
n
pqp̂
npq
ppz
ˆ
2 ) 母比率の区間推定
が標準正規分布にしたがうことから、母比率 p の
95% 信頼区間は となる。
(例) World Baseball Classic 決勝 日本-キューバ戦の視聴率は 43.4% であった。この数値は関東地区の約 1600 万世帯から 600 世帯をサンプルとして選んだ結果である。このデータから、関東地区全世帯の視聴率の 95% 信頼区間を求めよう。
(解) p の代わりに を用いて p の 95% 信頼区間を計算すると
となる。
npq
ppz
ˆ
)96.1ˆ,96.1ˆ(n
pqp
n
pqp
)474.0,394.0(
)040.0434.0,040.0434.0(
)600
566.0434.096.1434.0,
600
566.0434.096.1434.0(
)96.1ˆ,96.1ˆ(
n
pqp
n
pqp
p̂
c) 標本数の決定
WBC 決勝戦の視聴率を信頼係数 95% で区間推定すると、 8% もの幅ができる。そのため、 1% ぐらいの差で、勝った負けたを考えるのはナンセンスである。
では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度 ( どの程度のズレまで許容できるか ) を設定し、それに必要な標本数を計算する必要がある。
1) 母平均の推定における標本数の決定
の許容限度を E とする。 の区間推定を信頼係数 95% でおこなうとき、 の分布
について、
が成り立つので、
となればよい。よって
|| x x
96.1||
n
x
En
x 96.1||
nE
nE
En
21.96
1.96
1.96
となり、
が必要標本数であることが分かる。 これを求めるために、母標準偏差 σ が必要となるが、標本数を決定
するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などから σ2 の推定値を求め、それを利用する。
(例) ある大都市の大学生の 1 ヶ月平均生活費を 1000 円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は 8000円であったと見当がつけられているとする。
(解) 信頼係数を 95% とすると、必要標本数は
となるので、 246 人となる。
21.96
E
n
8624.245)68.15(1000
80001.96 22
n
2) 母比率の推定における標本数の決定
の許容限度を E とする。 p の区間推定を信頼係数 95% でおこなうとき、 の分布につ
いて、
が成り立つので、
となればよい。よって
|ˆ| pp p̂
En
pqpp 96.1|ˆ|
npqE
nE
pq
En
pq
21.96
1.96
1.96
96.1|ˆ|
npq
pp
となり、
が必要標本数であることが分かる。 これを求めるために、母比率 p が必要となる。 P について何らかの見
当がつくなら、その数値を用いるが、 p について何の情報もない場合には
を用いる。なぜなら、 のときに、 pq が最大となるからである。
(例) 視聴率調査において、 1% 以内の誤差で推定するために必要な標本数を求めよ。
(解) 信頼係数を 95% とする。また、母比率についてはあらゆる可能性が考えられるので、 とすると、必要標本数は
となるので、 9604 人となる。
pqE
n2
1.96
96044
1)196(
2
1
2
1
01.0
1.96 22
n
2
1p
2
1qp
2
1p