具体例をいくつ観察すれば見たい対象の全体について理解出来るか

11
具具具具具具具具具具 具具具具具具具 具具具具 具具具具具具具具具具具 具具具具 2014-07-30 ( 具 ) ( 具 ) 具具具 具具具具

Upload: toshiyuki-shimono-

Post on 26-Jan-2015

216 views

Category:

Education


4 download

DESCRIPTION

日常生活で、もしくは、社会生活で役に立つであろう 「経験はどれだけ必要か」「調査にどれだけ手間をかけるのが良いだろうか」について目安となる数とその計算方法をまとめました。 How many experiences are necessary to understand something you do not know? I would like to answer this question from a numerical aspects using statistics.

TRANSCRIPT

Page 1: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

具体例をいくつ観察すれば見たい対象の全体について

理解出来るかについてのある考察

2014-07-30 ( 水 )( 株 ) ウフル 下野寿之

Page 2: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

必要な標本数を算出したケース1. 現象を複数例見ることで見逃しを防ぎたい2. 全てのグループのサンプルを網羅的に取りた

い3. 多数決の結果が正しくなる可能性を高くした

い4. 逸脱したサンプルを見つけたい5. 標本から分布の範囲を把握したい6. 2 変量に相関があるかどうか検定したい

Page 3: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

90% 以上の確率で、 1 回当たり 10% で起こる現象を、 2 回以上捉えるために必要な観察回数は最低 38 回。

未知の現象を、いくつかの観察の中から、 1 度だけ見ただけでは、おそらくその現象は見逃してしまうだろう。

では、 1 回あたり 10% しか起きない現象でも、 90% 以上の確率で全部で 2 回以上の観察を確保する計画を立てたいとする。

その時に最低限必要な観察回数は38 回となる。

左の図はある二項分布を描画したもので、 38 回の観察で 1 回当たり10% の現象の合計観察回数が 1 回以下の場合と 2 回以上の場合のそれぞれの確率を、赤と青で塗り分けている。

Page 4: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

10 色のシールが同数の各商品に 1 枚ずつ貼られている時に、全ての色のシールを 90% の確率で集めるには、何個の商品を買いに行く必要があるだろうか ? ある商品に 10 種類のシール

が 1 枚ずつ貼られていて、開封するまでどのシールが入っているか分からないとする。開封するとのどれかの種類のシールが 10% ずつ現れるものとする。

では異なる 10 種類のシールを全て集めるには何個商品を集める必要があるだろうか。答えは、 44 個集めることで、90% の確率で揃う。その様子は左のグラフで表されている。(10 個集めるだけで全て揃う確率は低く 0.05% に満たない。51 個で 95%, 66 個で 99% に達する。 )

Page 5: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

各人が 2:1 の確率で賛成票と反対票を投じる時に多数決で賛成が決まる可能性を 90% 確保するために必要な人数は、 15 人。 3:2 なら 41人。

仮想的な状況として、投票者がそれぞれ他人の意見を全く知らないで、全員がある決まった確率で賛成票または反対票のどちらかを投票して、多数決をとる状況を考える。 ( 賛成反対が同数の場合はその場でさいころを振るとしよう。 )

すると、賛成票を投じる確率が50% より大きくても、偶然に支配されて多数決の結果が反対になることがありうる。その可能性は人数が少ないほど大きい。

では、そんな可能性が 10% 未満になるように人数をそろえるにはどうしたらよいだろうか ? 賛成の確率が 2/3 ならば 15 人、 3/5 ならば 41 人である。

Page 6: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

平均 μ 標準偏差 σ のガウス乱数を何個か取り出した中から、区間 μ±2σ の外にある値を 1 個でも見つかる確率を90% 以上確保するには、最低でも 50 個の取り出しが必要。

確率分布は、ガウス分布で近似できることが多い。たとえば多数の人の身長や体重の分布はガウス分布で近似できる。ガウス分布の形は左のグラフのような形になる。

( このグラフの場合は、平均 μ は 0 , 標準偏差 σ は 1 になるように調整してある。 μ と σ のパラメータをいろいろ変えることであらゆるガウス分布を表現できる。 )

“ 偏差値” にたとえると、 μ + 2σ は 70, μ - 2σ は 30 に相当する。この 2 個の値に挟まれた部分の割合は 95.45% , その外の部分の割合は 4.55% と決まっている。

この外の部分を 1 つでも見つけ出す可能性を 90% 以上にするには、そのガウス分布から 丁度 50 個以上の値を取り出す必要がある。

Page 7: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

20 回の観察をしたとしても意外と結果の分布の揺らぎは大きい。値の範囲について精度良く把握するには、 40 回は必要と考えられる。

上記の 4 個のグラフは、それぞれ観察回数を 10 回・ 20 回・ 40 回・ 100 回と決めた場合に、 15 回ずつ値の”分布”をシュミレートしたものである。( 観察した分布から推測した平均と標準偏差を表す長方形を重ねてある。 )

Page 8: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

2 変量間の母相関係数が 0.5 の場合に、無相関の片側検定を有意水準 5%, 検出力 90% で行うには、標本サイズが 31 以上が必要。

2 つの変量の間の関係が大事なことは多い。その関係を捉える有力な方法は、「無相関の検定」である。

しかし、元の分布に相関があっても、 2桁の標本サイズではなかなか無相関の検定で対立仮説を ”棄却” することはできない。

“ 対立仮説” を「相関係数は 0 より大きい」と設定して、有意水準 5% の無相関の検定を行う場合を考える。母相関係数 0.5 に対して検出力 90% 以上を確保するために必要な標本数は 31 と計算することができる。

図は母相関 0.5 の分布を表す雲のような分布の上に 31 個の標本を重ねた例である。相関係数 0.5程度の現象は、同一年齢同性の親子の身長、プロ野球の年間総得点と総失点などに現れる。

この場合の標本 相関係数は 0.421.. で、 95%信頼区間は[0.13.. , 1.0] であり、 p 値は 0.009 となり、帰無仮説を棄却することができた。しかし、 10%弱の確率で、このように棄却することは出来ず、帰無仮説 “相関は正とは言えない” を支持することになる。

Page 9: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

[ まとめ ] 思ったことが正しい場合に 90% の確率で正しい結果を得るための調査必要量

1. 多数決 : 2:1 の優勢 → 15 人 3:2 の優勢 → 41 人2. シール 10 色を全て集めたい → 44 個3. 10% の未知の現象の見逃しを防ぐなら → 38 例4. 2σ 以上の逸脱したケースを探すなら → 50 例5. 標本から分布の範囲を把握したい→ 概ね 40 例6. 2 変量に相関があるかどうか検定したい → 31 例

※ 上記の説明は詳細を省略している。解説は前のページを参照3. 見逃しを避けるには複数例 (2 例以上 ) を必要とすると仮定している。 4.-6. はガウス分布を仮定している。 5. は 90% とは関係無い。 6. 片側検定で α=0.05, β = 0.1, ρ0=0.5 を設定している。 (両側にすると 37 例になる。 )

Page 10: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

最後に• 何かをきちんと調査したいときは、意外と多数のサンプルが必

要であることを算出した。• 簡単な問題でも 20 例程度では足りない。• もちろん目的によるが、重要例をこの文書に示した。

• 無作為抽出は偏りのない調査に極めて重要。• 他の方式を用いると異常例を多数観察することも多く、その異常を取

り除くことに多大な労力が発生する。

• 莫大なデータがあったとしても、全ては理解不能• 人の目で 100 個以上の例をよく把握することは困難。• 部分抽出したものが全体の傾向とあまり変わらないことは、超幾何分

布を二項分布で近似できることで理論的に正当化ができる。

Page 11: 具体例をいくつ観察すれば見たい対象の全体について理解出来るか

(参考 ) R言語で本資料の数を算出するためのプログラム

## (1) 1 回で 1/10 の確率で起こる現象を 2 回以上観測したい

pbinom(1,35:40,1/10) # 38 回の所で 0.1 を切ることに注意。

# (2) シールを集めるのに何個買い集めたら良いのだろう。

# -- モンテカルロシュミレーションを採用したので、計算には時間がかかる。

M=10:80 # 何枚集めるかの数の候補

LL=3e3;pp=rep(1,10); # 各候補のシュミレート回数と多項分布に与えるパラメータ

a<-matrix(0,max(M),3); # 格納する変数の準備

for(L in M){

temp<- prop.test(sum(apply(rmultinom(LL,L,pp),2,min)<1),LL,conf.level=.99) ;

a[L,1]=temp$estimate;

a[L,2]=temp$conf.int[1];

a[L,3]=temp$conf.int[2];

}

a1=1-a

plot ( M,

a1[M,1],type="o",cex=0.7,pch=3,ylim=c(0,1),

main="10 色シールが全て揃っている確率 ", ylab=" 確率 ", xlab="収集枚数 ",

yaxt="n" , yaxs="i");

axis(2,0:10/10,paste(0:10*10,"%",sep=""),las=1)

abline( h=c(1:3/4,0.9,0.95),col="red3")

abline( v=1:20*5,col="indianred1")

arrows( M,a1[M,2], M,a1[M,3],angle=90,length=0.01)

arrows( M,a1[M,3], M,a1[M,2],angle=90,length=0.01)

## (3) 賛成数の可能分布の考察

pbinom(c(6,7),c(13,15),2/3) # 13 人中賛成 6 人以下の可能性は 0.103 だが 15 人中 7 人以下は 0.088

pbinom(c(19,20),c(39,41),3/5)# 39 人中賛成 19 人以下の可能性は 0.102 だが 41 人中 20 人以下は 0.0965

# グラフを描く

par(mfrow=c(2,1))

barplot(dbinom(0:13,13,2/3),col=c(rep("red1",7),rep("blue1",7)),names.arg=0:13,main="15 人の各人が独立に 2/3 の確率で賛成する場合 ")

barplot(dbinom(0:41,41,3/5),col=c(rep("red1",21),rep("blue1",21)),names.arg=0:41,main="41 人の各人が独立に 3/5 の確率で賛成する場合 ")

# (4) 逸脱を見つける もしくは

pbinom(0,49:51,2*pnorm(-2)) # 両側を見る場合

pbinom(0,99:102,2*pnorm(-2)) # 片側を見る場合

# (6)

L<-1e4 ;

r<-0.5; r2<-sqrt(1-r^2)

K<-31

prop.test(sum(replicate(L,{x<-rnorm(K);y<-rnorm(K)*r2+x*r;cor.test(x,y,"greater")$p.value})>=.05),L)$conf.int

K<-30

prop.test(sum(replicate(L,{x<-rnorm(K);y<-rnorm(K)*r2+x*r;cor.test(x,y,"greater")$p.value})>=.05),L)$conf.int