第 3 章 統計的推定
DESCRIPTION
第 3 章 統計的推定. 統計学 2012 年度. Ⅰ 標本分布 a) 母集団と標本 1) 標本調査の利点 2) 標本調査における誤差 b) 標本平均の標本分布 c) 標本分散の標本分布 Ⅱ 点推定 点推定 統計量の特性 不偏性 その他の統計量特性 Ⅲ 区間推定 a) 母平均の区間推定 中心極限定理 信頼区間 母分散が既知の場合の区間推定 母分散が未知の場合の区間推定 b) 母比率の区間推定 標本比率の標本分布 母比率の区間推定 c) 標本数の決定 母平均の区間推定における標本数の決定 - PowerPoint PPT PresentationTRANSCRIPT
第 3 章 統計的推定
統計学 2012 年度
Ⅰ 標本分布a) 母集団と標本
1) 標本調査の利点2) 標本調査における誤差
b) 標本平均の標本分布c) 標本分散の標本分布
Ⅱ 点推定a) 点推定b) 統計量の特性
1) 不偏性2) その他の統計量特性
Ⅲ 区間推定a) 母平均の区間推定
3) 中心極限定理4) 信頼区間5) 母分散が既知の場合の区間推定6) 母分散が未知の場合の区間推定
b) 母比率の区間推定7) 標本比率の標本分布8) 母比率の区間推定
c) 標本数の決定9) 母平均の区間推定における標本数の決定10) 母比率の区間推定における標本数の決定
Ⅰ 標本分布
• ある集団についての調査をおこなうとき、調査対象となる集団(母集団)からその一部を標本として選び、調査する方法がある。これを標本調査という。
a) 母集団と標本
×
××
×
×
××
×
××
母集団(個体数N )
標本(個体数n )
• 標本調査の例として次のようなものが挙げられる。
労働力調査(完全失業率はこの調査の結果求められる)
⇒ 全国の 15 歳以上 ( 約 1 億 1 千万人 ) の母集団から、約 10 万人を標本として選ぶ調査
内閣支持率調査などの世論調査 ⇒ 全国の有権者 (20 歳以上の日本国民 )( 約 1 億
人 ) の母集団から、約 1000 人 ( 新聞社のおこなう内閣支持率調査の場合 )
その他、視聴率調査、街頭でのアンケート、製品の品質管理のための抜き取り調査など、数多くの標本調査がおこなわれている。
1) 標本調査の利点
標本調査をおこなうメリットとして、次のようなことが挙げられる。
• 費用・時間の削減→ 調査票を配布回収する調査では、調査票の印刷費、集計
にかかる機械処理費用、人件費などと全部を集計しおえるまでの時間がだいぶ削減できる。
• 得られる情報の増加、精度の向上→ 調査には調査員が使われることが多いが、ベテランの調
査員は調査の内容をきちんと説明できるので、答えづらい内容を聞いたり、正しい結果を導いたりすることができる。
• 全数調査が不可能な場合にも調査可能→ ガラスの耐久性についての品質管理を調査するなどの場
合、全数調査をおこなうことは不可能である。
2) 標本調査における誤差
標本調査の結果と、真の状態との間にはズレがある。このズレのことを誤差というが、標本調査における誤差には次の 2 つの種類のものが組み合わさったものである。
1. 非標本誤差 - 調査もれ、無回答、記入ミスなど ⇒ 全数調査でも起こりうる 統計理論によりコントロール不可能2. 標本誤差 - 標本の偏りによるもの ⇒ 標本調査に固有のもの 統計理論によりコントロール可能
• 標本の偏りによる誤差がどの程度の範囲に収まるかを、統計理論によって知ることができる。⇒確率の問題
×
× ×
× ×
× ×
×
×
×
母集団(有権者 1 億人)
標本 1 (朝日 1051人) 53%
×
×
×
× ×
× ×
×
標本 2 (読売 1100人) 65%
標本 3 (毎日 1001人) 56%
標本 4 (日経 954人) 67%
標本 5 (共同 1014人) 62%
2011 年 9 月 4 日付の朝刊各紙に掲載された野田内閣支持率を見ると、異なった結果になっている。
同じ対象に同じ調査をおこなっても、標本によってその結果が異なる。
これが、標本の偏りである。
<野田内閣発足直後の支持率の例>
b) 標本平均の標本分布
• 標本調査をおこなう場合、通常は 1 つの標本についての特性値(標本平均や標本平均など)がわかり、それから母集団の特性値についての推論をおこなう。母集団全体の情報はわからない。
• しかし母集団全体の情報が分かり、とりうるすべての標本について考えることができたなら、標本の特性値についての分布を考えることができる。これを標本分布という。
× ×
母集団(大きさ N) 標本(大きさ n)
標本平均 x
標本平均 x
標本平均 x
母平均 μ
× ×
×
× ×
× ×
× × ×
× ×
× ×
• 500 人受講している科目の採点に、 25 人だけ採点して全体の平均点を推定しようとするとき、 25 人の組み合わせ全て(その数は 1.04×1042通りという天文学的数字になる!)から標本平均が計算でき、その分布を考えることができる。
• 一般に N 個の母集団から n 個の標本を選ぶ組み合わせの数は NCn とあらわすことができる。
←分母も分子もn個ずつ
<簡単な例>中国地方 5県の乗用車保有台数( 2010 年 4 月末現在、軽自動車除く)は次のようになっている。
これを 10 万台単位で四捨五入し、各都道府県の頭文字をアルファベットで表すと
となる。母平均、母分散は
T S O H Y2 2 7 9 5
6.75
0164995
)55()59()57()52()52(
55
59722
222222
鳥取 島根 岡山 広島 山口184958 216744 651448 863016 474582
(単位 : 台 )
出典: 中国運輸局『管内保有車両数』
• この 5県を母集団とし、その中から 2県を選んで標本とすると、選び方は 5C2= 10通りとなる。それぞれの標本について、標本平均を求め、その分布をあらわすと次のようになる。
T,S 2,2 2T,O 2,7 4.5T,H 2,9 5.5T,Y 2,5 3.5S,O 2,7 4.5S,H 2,9 5.5S,Y 2,5 3.5O,H 7,9 8O,Y 7,5 6H,Y 9,5 7
パターン x標本平均の標本分布
0
0.5
1
1.5
2
2.5
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8
標本平均
度数
• 次に標本平均の平均と分散について考えよう。
標本平均の度数分布表から、次のように計算できる。
※ 度数分布表からの平均の計算は、(度数 ×階級値)の総和を度数の合計で割れば良い
fi( )度数2 1 2 4
3.5 2 7 24.54.5 2 9 40.55.5 2 11 60.5
6 1 6 367 1 7 498 1 8 64
計 50 278.5
xii xf
2ii xf
10
なお、この分散の式は計算式であり、次のようにして求めたものである。
※ 分散については、{度数 × (階級値-平均) 2}の総和を度数の合計で割ったものとなる
≒1
• 次に 10通りの標本について、標本分散を求め、その分布をあらわすと次のようになる。
c) 標本分散の標本分布
s2
T,S 2,2 0T,O 2,7 6.25T,H 2,9 12.25T,Y 2,5 2.25S,O 2,7 6.25S,H 2,9 12.25S,Y 2,5 2.25O,H 7,9 1O,Y 7,5 1H,Y 9,5 4
パターン 標本分散の標本分布
0
0.5
1
1.5
2
2.5
0
0.75 1.5
2.25 3
3.75 4.5
5.25 6
6.75 7.5
8.25 9
9.75
10.5
11.3 12
s2 fi fis2
0 1 01 2 2
2.25 2 4.54 1 4
6.25 2 12.512.25 2 24.5
計 47.5
a) 点推定 母集団(個体数 N)
標本(個体数 n)
× ×
×
× ×
× ×
× × ×
× ×
母数 θ 標本統計量t
推論
母平均 μ母分散 σ2
標本平均 x標本分散s2
標本から計算された 1つの数値によって、母集団の数値を推定することを点推定という。たとえば、標本平均を母平均の推定値と考えることや、標本メディアンを母集団のメディアンの推定値と考えることである。
ただし、一般に t≠θ である。
Ⅱ 点推定
b) 統計量の特性 1) 不偏性
偏り
※ 統計学の書籍によっては、最初の分散の定義から、 n-1 で割ったものを用いているものもある。
𝐸 ( 𝑛𝑛−1
𝑠2
)=𝜎2
• 一致性 - 標本数を大きくしたときに、 t が θ に近づく。 ( 母数 θ から離れた標本統計量 t が出現する可能性は低くなる )
• 効率性 - 不偏推定量が t1, t2 の 2 つあったとする。このとき、分散の小さい推定量の方が母数 θ を推定するのにより効率的 ( 母数 θ の近くの値を取る可能性が高い ) である。
2) その他の統計量特性
t1t2
t2 の方が効率的
⇒ 不偏性、効率性、一致性は望ましい推定量の基準であり、このすべてを持ち合わせた推定量は非常に望ましい。
例: 正規母集団の母平均の推定における標本平均はこれらの基準をすべて満たしている。
また、推定量の性質としては次のようなものも考えられる。
• 十分性 - t は標本に含まれるすべての情報を含んでいる。
⇒ 刈り込み平均(上位と下位の一部を除いて平均を求めたもの。体操競技の採点などで、最高点と最低点を除いた平均が得点となるが、これは刈り込み平均の 1 種である)などは、標本のすべての情報を含んでいないので、十分性を満たさない。
ただし、刈り込み平均の方が算術平均より母平均に近い値を取る可能性はある。
• 点推定で母数 θ をピタリと推定することは難しい。そのため、標本統計量 t の近くの区間を設定し、その区間内に母数 θ が含まれることを推定する。これを区間推定という。
• たとえば、日本全国全世帯の家計の平均年収を知りたいとき、 1万世帯を標本として調査し、 500 万円という標本平均を得たとする。この 500 万円 ±10 万円という区間をとればよいのか、 ±30 万円という区間を取ればよいのかを考えていく。(区間が広がれば母平均が含まれる可能性は高くなるが、実用性に劣る)
Ⅲ 区間推定
×
××
×
×
××
×
××
母集団(個体数N )
標本(個体数n )
区間推定母平均 μ 標本平均 x
a) 母平均の区間推定1 ) 中心極限定理
• 標本調査をおこなう場合、通常は 1 つの標本についての標本平均がわかるだけであるが、とりうるすべての標本について標本平均を知ることができたなら、その分布を考えることができる。これを標本分布という。
× ×
母集団(大きさ N) 標本(大きさ n)
標本平均 x
標本平均 x
標本平均 x
母平均 μ
× ×
×
× ×
× ×
× × ×
× ×
× ×
𝑛
n
x
n
xxxx
n
ii
n
121
95.0)96.196.1(P
n
x
nx
n
96.196.1
n
96.1
標準化
n
96.1n
96.1μ -1.96 1.960
95.0)96.196.1(P
n
x
nx
nx
nx
n
nx
nn
x
96.196.1
96.196.1
96.196.196.196.1
𝑧=𝑥−𝜇𝜎 / √𝑛
と
は次のようなことを意味している。n
xn
96.196.1 n
xn
x
96.196.1
n
96.1n
96.1μ
×
nx
96.1
nx
96.1x
××
nx
96.1
)96.1,96.1(n
xn
x
)57.171,43.168(
)568.1170,568.1170(
)100
896.1170,
100
896.1170(
)96.1,96.1(
n
xn
x
信頼区間を求める場合、 が標準正規分布にしたがうという性質を用いる。しかし、母平均の推定をおこなう場合に、母分散 σ2 が分かっているということは、あまり多くない。 (過去の調査において母分散のおおよその値が分かり、それを用いるなどの例外はあるが)
母集団(大きさ N) 標本(大きさ n)
標本平均
標本分散 s2
母平均 μ
母分散 σ 2
× ×
×
× ×
× ×
× × ×
× ×
x
4 ) 母分散が未知の場合の区間推定
母分散 σ2 がわからないとき、代わりに標本分散 s2 を用いる。
このとき、 が自由度 n-1 のt分布にしたがう。1/
ns
xt
※ t 分布は標準正規分布を上からつぶしたような、左右対称の形をしている。自由度が小さいほどつぶれ具合が大きく、自由度が大きいほど標準正規分布に近くなっている。
t正規分布と分布
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
-3.00 -2.00 -1.00 0.00 1.00 2.00 3.00
normalt1t5t10
※ 標本分散 s2 の代わりに標本不偏分散
を用いれば、 が自由度 n-1 のt分布にしたがう。
ns
xt
/ˆ
�̂�2=(𝑥1− 𝑥 )2+ (𝑥2−𝑥 )2+⋯+ (𝑥𝑛−𝑥 )2
𝑛−1=∑ (𝑥 𝑖−𝑥 )2
𝑛−1
<自由度について> 自由度とは、自由に値を取ることのできる個体数
のことである。 この場合は、 t 統計量の自由度は標本分散 s2 の分子に含まれる xi のうち、自由に値を取ることのできる個数である。
なので、 x1, …, xn-1 は自由に値をとることができるが、 xn は
を満たすように決められ、自由度は n-1 となる。
𝑠2=(𝑥1− 𝑥 )2+ (𝑥2−𝑥 )2+⋯+ (𝑥𝑛−𝑥 )2
𝑛=∑ (𝑥 𝑖−𝑥 )2
𝑛
• 母集団の分散が分からないとき、母平均 μ の 95% 信頼区間は、t分布の 95% 点を t0.95 とあらわすと、
となる。 t0.95 は t 分布表からその値を求める。
※ より正確には、母集団の分布が正規分布にしたがうとき、 が自由度 n-1 の t 分布にしたがう。
しかし、母集団の分布が正規分布にしたがわない場合でも、標本の大きさがある程度大きければ、 は近似的に自由度 n-1 の t 分布にしたがうとみなせる。
また、 n が十分大きい場合、 t 分布は正規分布に近づくので、
が正規分布にしたがうと考えることもある。
)1
,1
( 95.095.0
n
stx
n
stx
1/
ns
xt
1/
ns
xt
1/
ns
xt
標準化
n
xz
n
96.1n
96.1μ -1.96 1.960
1
ns
xt
変換
-t0.95
t 0.95
t の分布(自由度 n-1 の t 分
布)母分散が分からない場合、
が自由度 n-1の
t 分布にしたがう。
t 統計量の 95% が含まれる区間の境界値である t0.95 の値を、 t 分布表から探し出す。
1
ns
xt
)79.166,21.153(
)79.6160,79.6160(
)3262.2160,3262.2160(
)110
9262.2160,
110
9262.2160(
)1
,1
( 95.095.0
n
stx
n
stx
母集団(大きさ N) 標本(大きさ n)
標本比率
母比率 p
× ×
×
× ×
× ×
× × ×
× ×
p̂
まず、標本比率 の標本分布を考えよう。
内閣支持率を例にとると、標本比率 とは、標本 n 人のうちのx 人が「内閣を支持する」と答えた割合であり、 である。
pn
np
n
xE
n
xEpE
)()()ˆ(
n
pq
n
npq
n
xV
n
xVpV
22
)()()ˆ(
c) 標本数の決定
日曜劇場「 ATARU」第 6 回の視聴率を信頼係数 95% で区間推定すると、 6% 以上の幅ができる。そのため、 1%ぐらいの差で、勝った負けたを考えるのはナンセンスである。
では、視聴率調査の精度を高めるには、推定量の一致性から標本数を増やすことが考えられる。しかし、標本数を増やすことはコストの増加を意味している。よって、目標となる精度 ( どの程度のズレまで許容できるか ) を設定し、それに必要な標本数を計算する必要がある。
1) 母平均の推定における標本数の決定
の許容限度を E とする。 μ の区間推定を信頼係数 95% でおこなうとき、 の分布につ
いて、
が成り立つので、
となればよい。よって
|| x
96.1||
n
x
En
x 96.1||
nE
nE
En
21.96
1.96
1.96
となり、
が必要標本数であることが分かる。 これを求めるために、母標準偏差 σ が必要となるが、標本数を決
定するということは、データ収集をおこなう前のことであり通常はわからない。そのため、過去の経験などから σ2 の推定値を求め、それを利用する。
(例) ある大都市の大学生の 1ヶ月平均生活費を 1000円以内の誤差で推定するという問題を考える。ただし、母集団の標準偏差は8000円であったと見当がつけられているとする。
(解) 信頼係数を 95% とすると、必要標本数は
となるので、 246 人となる。
21.96
E
n
8624.245)68.15(1000
80001.96 22
n
2) 母比率の推定における標本数の決定
の許容限度を E とする。 p の区間推定を信頼係数 95% でおこなうとき、 の分布につ
いて、
が成り立つので、
となればよい。よって
|ˆ| pp p̂
En
pqpp 96.1|ˆ|
npqE
nE
pq
En
pq
21.96
1.96
1.96
96.1|ˆ|
npq
pp
となり、
が必要標本数であることが分かる。 これを求めるために、母比率 p が必要となる。 P について何らか
の見当がつくなら、その数値を用いるが、 p について何の情報もない場合には
を用いる。なぜなら、 のときに、 pq が最大となるからである。
(例) 視聴率調査において、 1% 以内の誤差で推定するために必要な標本数を求めよ。
(解) 信頼係数を 95% とする。また、母比率についてはあらゆる可能性が考えられるので、 とすると、必要標本数は
となるので、 9604 世帯となる。
pqE
n2
1.96
96044
1)196(
2
1
2
1
01.0
1.96 22
n
2
1p
2
1qp
2
1p