標本抽出でなぜn=40なのかについてのある考察

21
標標標標 40 標標標 100 標 標標標標標標標標標標標標標標標 2014-07-27 TS. 標標標標標標標標標標標標標標標標 標標標標標標標標 一体、 標標標 1- β = 90% 標 標標標標標標 標標標標標標標標標標標標標標標 、、 標標標標 標標標標標標標標標標標標標 、。 標標 標標標標標標標標標標標標標標標標標標標標標 標標標標標標標標標標標標 標標標標標標標標標標標標標標標 一、、、 標標標標標標標標 標標標標標標標標標標標標標標 、。 R 標標標標標標標標標標標標標標標標標 標標標標標標標標標標標標標標標標標標標標標標標 標標標標標標標標標標 、、 標標標標標標標標標標標標標標

Upload: toshiyuki-shimono-

Post on 26-Jan-2015

136 views

Category:

Education


3 download

DESCRIPTION

見逃しをしないため、また平均や標準偏差を実用的な精度で把握するためには、n=20程度では不足で、n=40くらいが妥当ということを説明する意図で作成しました。

TRANSCRIPT

Page 1: 標本抽出でなぜn=40なのかについてのある考察

標本数が 40 または 100 が望ましい場合についてのある

考察2014-07-27 TS.

同じ分布に従う独立な多数の標本を一体何個とりだせば、検出力 1- β = 90% で、得たいもの、見てみたいものを取り出すことが出来るか、さまざまな例を紹介します。

一応、統計学は知らない人向けに作った資料ですが、統計学が分かっていれば、最初の方は読み飛ばして気になるところを読んでも、意味がよく分かると思います。

R 言語のコマンドを記載することにより、やや複雑な数式を用いた計算がが必要な場面でも、若干の値の変更により即座に得たい値を算出できます。

Page 2: 標本抽出でなぜn=40なのかについてのある考察

標本抽出について• 全体の性質を把握するには、適切なサンプリン

グが必要• ランキング方式など別方式は、見えて来る性質が実

用上問題を起こす程度に偏ることが多い。• 「偏ったサンプルを取り出すほどなら、

n=3 の方が本質を理解出来る。」 ( 統計学者テューキー )• 無作為抽出はさまざまな統計値を ( 抽出を繰り返す

ことで ) 偏りなく抽出することができる。• 調査対象の件数が莫大でも、必要な精度に対して、

n はほとんど変わらない。 (1000 で 40 なら 1 億・ 1兆でも 40)

Page 3: 標本抽出でなぜn=40なのかについてのある考察

統計もしくは標本抽出の理解に必要な概念• 平均 (μ ミュー ) ← 合計を個数で割った値• 標準偏差 (σ シグマ ) 分散 (σ2)

← “ 各値が平均からどれだけ揺らぐか” ← ` 各値と平均の差の 2 乗の合計 ÷ 個数’ が σ2

• 確率分布 ← 「それぞれの値の出現確率」のこと• 二項分布 ← 確率 p で”当たる”ことを n 回試して結果的に何回

当たるかの 分布 • 超幾何分布

← N 個の玉が入った壺の中の内、 赤玉が m 個入っていた場合に、 n 回拾い出した内の赤玉の個数の分布

• ガウス分布 ←  μ と σ が固定された時のある自然な分布

Page 4: 標本抽出でなぜn=40なのかについてのある考察

二項分布の例出現確率 p が決まっていても、 n=10 回試したからと言って、出現回数は確率的にしか決まらない。3 割 (p=0.3) の出現確率で10 回試しても、 1 回しか現れない確率は 12%( 右上グラフのオレンジ色 ) ある。

二項分布についての公式平均値 = n × p

分散 σ2 = n ×p × (1-p)

※ グラフ中の N は n と見なすこと。 この文書の他の部分との整合性のため

Page 5: 標本抽出でなぜn=40なのかについてのある考察

超幾何分布と二項分布の違い• 二項分布 (n,p)

平均 = np 分散 = n × p × (1-p)• 超幾何分布 (N,m,n)

平均 = N (m/n) 分散 = n× m/N × (N-m)/N × (N-n)/(N-1)

超幾何分布の m/N を二項分布の p と見なすと、N が n よりも何倍も大きい場合、2つの分布はほぼ等しくなる。※ ここから n=3 ~ 40 程度、 N=1000 ~ を考えるので、 超幾何分布のことは忘れて、二項分布で考えて良い。

Page 6: 標本抽出でなぜn=40なのかについてのある考察

見逃しはどうして発生するか ~ 二項分布からの考察

知っている現象は1つでも発見して、その例を詳しく見たい。未知の現象は 2 回以上見ないと、普通は気付かない。そんな現象は 3 回以上目撃しないと何かの偶然と思い込むこともある。では、全部で何回の観察が、未知の現象の探索に必要とするのだろうか・・ ?

Page 7: 標本抽出でなぜn=40なのかについてのある考察

20 回または 40 回の観察で得られるもの未知の現象は、複数回観察しないと見逃してしまう、と仮定する。

20 回観察して “見逃してしまう” 確率は 1 回当たり 25% の確率で発生する現象は 2.43..%

1 回当たり 15% の確率で発生する現象は 17.5..%

1 回当たり 10% の確率で発生する現象は 39.1..%

1 回当たり 5% の確率で発生する現象は 73.5..%

40 回観察して “見逃してしまう” 確率は 1 回当たり 25% の確率で発生する現象は 0.014..%

1 回当たり 15% の確率で発生する現象は 1.21..%

1 回当たり 10% の確率で発生する現象は 8.04..% ←

1 回当たり 5% の確率で発生する現象は 39.9..%

Page 8: 標本抽出でなぜn=40なのかについてのある考察

一定の出現確率の現象を 90% 以上の確率で 1 回でも観察するための条件

• 出現確率 1/2 の現象は、 4 回以上の観察が必要• 出現確率 1/3 の現象は、 6 回以上の観察が必要• 出現確率 1/4 の現象は、 9 回以上の観察が必要• 出現確率 1/10 の現象は、 22 回以上の観察が必要

←• 出現確率 1/20 の現象は、 45 回以上の観察が必要• 出現確率 1/50 の現象は、 114 回以上の観察が必要• 出現確率 1/100 の現象は、 230 回以上の観察が必

要• 出現確率 1/1000 の現象は、 2302 回以上の観察が

必要

☞ 出現確率が 1 回につき 1/D の現象は、 D の 2 倍半の回数の観察を重ねれば、 90% 以上の確率 ( 確実さ ) で、その現象に出会うことが出来る。 この観察必要回数は log(10)×D = 2.30258..× D と近似できる。☞ 確実さを 99% 以上・ 99.9% 以上にしたければ、さらにその 2 倍・ 3 倍にすると良い。

Page 9: 標本抽出でなぜn=40なのかについてのある考察

一定の出現確率の現象を 90% 以上の確率で 2 回以上観察するための条件

• 出現確率 1/2 の現象は、 7 回以上の観察が必要• 出現確率 1/3 の現象は、 11 回以上の観察が必要• 出現確率 1/4 の現象は、 15 回以上の観察が必要• 出現確率 1/10 の現象は、 38 回以上の観察が必要 ←• 出現確率 1/20 の現象は、 77 回以上の観察が必要• 出現確率 1/50 の現象は、 194 回以上の観察が必要• 出現確率 1/100 の現象は、 388 回以上の観察が必要• 出現確率 1/1000 の現象は、 3889 回以上の観察が必

要☞ 出現確率が 1 回につき 1/D の現象は、 D の 4 倍の回数の観察を重ねれば、 90% 以上の確率 ( 確実さ ) で、その現象に 2 回以上出会うことが出来る。 この観察必要回数は 3.8897..× D と近似できる。 (係数 3.88.. は exp(k)/(1+k)=10 の解 )

☞ 確実さを 99% 以上・ 99.9% 以上にしたければ、さらにその 1.7 倍・ 2.4 倍にすると良い。

Page 10: 標本抽出でなぜn=40なのかについてのある考察

一定の出現確率の現象を 90% 以上の確率で 3 回以上観察するための条件

• 出現確率 1/2 の現象は、 9 回以上の観察が必要• 出現確率 1/3 の現象は、 15 回以上の観察が必要• 出現確率 1/4 の現象は、 20 回以上の観察が必要• 出現確率 1/10 の現象は、 52 回以上の観察が必要• 出現確率 1/20 の現象は、 105 回以上の観察が必要• 出現確率 1/50 の現象は、 265 回以上の観察が必要• 出現確率 1/100 の現象は、 531 回以上の観察が必要• 出現確率 1/1000 の現象は、 5321 回以上の観察が必

要☞ 出現確率が 1 回につき 1/D の現象は、 D の 5 倍半の回数の観察を重ねれば、 90% 以上の確率 ( 確実さ ) で、その現象に 2 回以上出会うことが出来る。 この観察必要回数は 5.3233..× D と近似できる。 (係数 5.32.. は exp(k)/(1+k+k2/2)=10 の解 )

Page 11: 標本抽出でなぜn=40なのかについてのある考察

ある結論 : 標本数 20 と 40 の比較• 採集した標本数が 20 だと、

90% の確率で標本中 2 個以上検出できる現象は出現確率が 18.1% 以上であることが必要。90% の確率で標本中 3 個以上検出できる現象は出現確率が 30.4% 以上であることが必要。

• 採集した標本数が 20 だと、90% の確率で標本中 2 個以上検出できる現象は出現確率が 9.38% 以上であることが必要。90% の確率で標本中 3 個以上検出できる現象は出現確率が 15.9% 以上であることが必要。

つまり、十分な検出力 (90%) で出現頻度 10% 程度の未知の現象を探索するには、 N=20 では足りない。しかし、 N=40 であれば、上記の通り十分である。 1 回あたり出現確率 1/10 で 2 個以上 , 1/6 で 3 個以上の出現個数を 90%

の確率で確保できる。

ここで算出に使った R 言語のコマンドの例 : uniroot(function(p){pbinom(3,40,p)-0.1},c(0,1))$root

Page 12: 標本抽出でなぜn=40なのかについてのある考察

(参考 ) Rule of Three 3 の法則95% 以上の確率で 1 回以上観察するための条件

• 出現確率 1/2 の現象は、 5 回以上の観察が必要• 出現確率 1/3 の現象は、 8 回以上の観察が必要• 出現確率 1/4 の現象は、 11 回以上の観察が必要• 出現確率 1/10 の現象は、 29 回以上の観察が必要• 出現確率 1/20 の現象は、 59 回以上の観察が必要• 出現確率 1/50 の現象は、 149 回以上の観察が必要• 出現確率 1/100 の現象は、 299 回以上の観察が必要• 出現確率 1/1000 の現象は、 2995 回以上の観察が必

要☞ 出現確率が 1 回につき 1/D の現象は、 D のほぼ 3 倍の回数の観察を重ねれば、 95% 以上の確率で、その現象に会うことが出来る。☞ 係数の 3 は -log(0.05) = 2.99573.. または exp(-3) = 1/20.0855.. に由来する。

☞ http://en.wikipedia.org/wiki/Rule_of_three_(statistics) を参照 ☞ 2 D 118 ≦ ≦ ならば その必要回数は丁度 3×D -1 である。☞下記のような R 言語のコマンドで上記の値は求まる。 K=100;M=1;{N=1;while(pbinom(M-1,N,1/K)>0.05){N<-N+1};N} → 299

Page 13: 標本抽出でなぜn=40なのかについてのある考察

分布をつかむのに必要な観察数についての考察

では、平均や標準偏差を 推定したいと思った時に、高い確率で精度良く求めるには、何回の観察が必要だろうか。

Page 14: 標本抽出でなぜn=40なのかについてのある考察

ガウス分布

• 多くの現象で現れる数の分布は、ガウス分布で近似できる。このガウス分布は、平均 μ と分散 σ2 が与えられると形が決まる。

Page 15: 標本抽出でなぜn=40なのかについてのある考察

推定した μ と σ はどれだけ揺らぐか ?

• 平均の推定値と標準偏差の推定値を2 個ずつ接触した長方形で表している。

Page 16: 標本抽出でなぜn=40なのかについてのある考察

ガウス分布から μ+2σ 以上の値を 90% の確実さで得るために必要な観察回数は 101 回R 言語で下記のように計算する :

log(0.1)/log(pnorm(c(1, 1.5, 2) ) →   13.3 33.3 100.1

( ある値 ( 上記の場合は μ+1σ, μ+1.5σ, μ+2σ) 以上の観測値を90% の確率で得るために必要な観察回数を算出している。 )

逆に、ある回数 (10, 20, 40, 100) 観測したときに 90% の確率で z スコアで下記以上の値が得られる。 qnorm((0.1)^(1/c(10,20,40,100))) → 0.822 1.233 1.590 2.000

Page 17: 標本抽出でなぜn=40なのかについてのある考察

μ+1σ及び μ+2σ 以上の値を 90% の確実さで K 個以上得るのに必要なガウス乱数の必要生成個数についてR 言語で下記のように計算する :

> for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(1,,,F))>0.1){N<-N+1};cat(N, " ")}

14 24 32 41 49 57 65 72 80 87 95 102

> for(M in 1:12){N=2;while(pbinom(M-1,N,pnorm(2,,,F))>0.1){N<-N+1};cat(N, " ")}

101 170 233 292 350 406 461 516 569 622 675 727

Page 18: 標本抽出でなぜn=40なのかについてのある考察

平均 μ からの逸脱が 1σ及び 2σ 以上の値を 90% の確実さで K 個以上得るのに必要なガウス乱数の必要生成個数について

R 言語で下記のように計算する :

> for(M in 1:12){N=2;while(pbinom(M-1,N,2*pnorm(1,,,F))>0.1){N<-N+1};cat(N, " ")}

7 11 15 20 24 27 31 35 39 42 46 50

> for(M in 1:12){N=2;while(pbinom(M-1,N,2*pnorm(2,,,F))>0.1){N<-N+1};cat(N, " ")}

50 85 116 145 174 202 230 257 284 310 336 362

上記から結論例 :

20 個のガウス乱数を生成すると、 90% 以上の確率で、 [ μ – 1σ , μ + 1σ ] の区間外の値を 4 個得ることが出来る。 [ μ – 2σ , μ + 2σ ] の区間の外にある乱数を 1 個でも 90% の確率で 得るには、丁度 50 個のガウス乱数生成を要する。

Page 19: 標本抽出でなぜn=40なのかについてのある考察

この節での結論

• 変数の分布の範囲を大雑把に把握するために :観察回数が 10 回や 20 回では、未知の変数の分布の範囲を大雑把に求めるにしても不足気味のようである。 40 回ないし100 回くらいあると良さそうである。

• やや異常に大きな値を経験するために : ある同じガウス分布に従う独立な変数を 40 回観察をすることで、 μ+1.6σ 以上の値を約 90% の確実さで得ることができる。丁度 50 回の観察をすることで、 90% の確実さで [μ-2σ, μ+2σ] の外の値を得ることができる。 100 回の観察をすることで、 μ+2σ 以上の値を約 90% の確実さで得ることができる。

Page 20: 標本抽出でなぜn=40なのかについてのある考察

まとめ

Page 21: 標本抽出でなぜn=40なのかについてのある考察

主張• サンプリングをランダムにしないと、”偏り”が

発生して、さまざまな弊害 ( 見逃しや稀少現象の大量補足 ) などが起こる。• 何かの現象を捉えるには、 40 回程度の観察が

必要で、 20 回程度では足りないことがある。• しかし、人間 ( 観察者 / 分析者 ) の主観による

記憶は数百の事例をきちんと記憶することは困難なので、 40 回程度が妥当とも考えられる。