数理統計学 ( 第十回) ノンパラ検定とは?1

Post on 03-Jan-2016

71 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

数理統計学 ( 第十回) ノンパラ検定とは?1. 浜田知久馬. パラとノンパラ. パラメトリック 特定の分布 ( 狭義には正規分布)を仮定した方法   分布はパラメータ(例, μ , σ 2 )によって定まる . e.g. t検定 ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法 ) e.g. ウイルコクソン検定. パラとノンパラの仮定. パラ. ノンパラ. 赤:帰無仮説. 緑:対立仮説. パラとノンパラ. パラ ノンパラ - PowerPoint PPT Presentation

TRANSCRIPT

数理統計学第10回 1

数理統計学 ( 第十回)ノンパラ検定とは?1

浜田知久馬

数理統計学第10回 2

パラとノンパラ• パラメトリック 特定の分布 ( 狭義には正規分布)を仮定した方法  分布はパラメータ(例, μ , σ2 )によって定ま

る .

e.g. t検定• ノンパラメトリック 特定の分布を仮定しない方法 (狭義にはデータの順位情報のみを用いる方法 )

e.g. ウイルコクソン検定

数理統計学第10回 3

パラ

ノンパラ

赤:帰無仮説

緑:対立仮説

パラとノンパラの仮定

数理統計学第10回 4

パラとノンパラ

パラ ノンパラ位置の指標 平均 メディアンバラツキの指標 SD 4分位偏差1標本検定 t 検定 (unpaired) ウイルコクソン   符号検定2標本検定 ( 対応) t 検定 (paired) ウイルコクソン2標本検定 t 検定 (unpaired) ウイルコクソン   サベージ, FW 等

数理統計学第10回 5

パラとノンパラ パラ ノンパラ多群比較 1-way ANOVA KW多群比較 (paired) 乱塊法 Friedman相関係数 Pearson Spearman Kendall用量相関 回帰分析 Jonckheere多重比較 Dunnett Steel Tukey Steel-dwass Willimas Shirley-Willimas

数理統計学第10回 6

パラとノンパラ パラ ノンパラ分布形の仮定 正規分布 必要なし等分散性 仮定 仮定第1種の過誤 ≒ α 常に< α

正規分布のとき ◎ ○外れ値が存在 × ○

変数変換 変 不変N<6 × △料理に例えると 懐石 電子レンジ

数理統計学第10回 7

ノンパラ検定の仮説X 1, X 2, ・・・ , X N ~分布関数Fを持つY 1, Y 2, ・・・ , Y N ~分布関数Gを持つ帰無仮説H 0 :F=G対立仮説H1:F≠G(両側検定)対立仮説H1:F<G(上側検定)対立仮説H1:F>G(下側検定)

数理統計学第10回 8

ビタミン E に細胞増殖効果はあるのか?浜君と石君で実験

4枚を通常栄養 4枚をビタミン E 処理(PM11:00)

数理統計学第10回 9

翌朝 (AM7:30)実験は成功したが,石君は来なかった.

121 118 110

95 90 34

22 12

数理統計学第10回 10

(PM:2:00) 浜君は考えてみた.ビタミン E 処理群はどれか?

121 118 110

95 90 34

22 12

数理統計学第10回 11

8枚から4枚を選ぶ組み合わせの数は?

8C 4=(8×7×6×5)/(4×3×2×1)=70 通り ビタミンE群 4枚の細胞数の和 121 118 110 95 444121 118 110 90 439121 118 110 34 383121 118 110 22 371121 118 110 12 361121 118 95 90 424 :

数理統計学第10回 12

図1 並べ替え分布の幹葉表示と箱ひげ図ビタミン E に増殖効果がなければ全てのパターンは等

しい確率で生じるはず. Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

数理統計学第10回 13

(PM:4:55) 石君到着合計細胞数 =439

121 118 110

95 90 34

22 12

数理統計学第10回 14

図1 並べ替え分布の幹葉表示と箱ひげ図和が 439 以上になるのは 2通り:確率 2/70

Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

数理統計学第10回 15

並べ替え検定の手順1.検定統計量を選択する. e.g. 片方の群の和、順位和、平均値の差2.得られたデータで検定統計量を計算す

る. e.g. 121+118+110+90=4393. permutation によって検定統計量の分布

を調べる.4.得られたデータ以上に極端な場合の頻

度を数え上げる (2/70) .

数理統計学第10回 16

並べ替え検定permutation test

• ノンパラメトリック検定: α エラーの制御 複雑な仮定を必要としない.• 拡張が容易• 統計量の選択によっては、漸近的には最強力な

検定と同程度の検出力を有する.• 計算に時間がかかる→ハードウエアの進歩 ネットワークアルゴリズム• 正確な検定、 randomization 検定

数理統計学第10回 17

正確な検定と並べ替え検定exact test and permutation test

• exact test (検定の性質) ( distribution free)

• permutation test (検定の構成原理) ( randomization test)

• permutation test はノンパラメトリック検定• ノンパラメトリック検定≠ permutation test

数理統計学第10回 18

可能な組み合わせの数(2N!)/(N!N!)

N パターン数 N パターン数 1 2 10 1847562 6 20 1378465288203 20 30 1.1826458×1017

4 70 40 1.0750721×1023

5 252 50 1.0089134×1029

6 924 100 9.0548515×1058

7 34328 128709 48620

数理統計学第10回 19

並べ替え検定が必要な場合

多 パターン数 少 よい 理論分布による近似 悪い 1) サンプルサイズが小さい場合2) スパースなデータ 3) 外れ値を含んでいる場合4) 結果が微妙な場合

数理統計学第10回 20

並べ替え検定のプログラムdata ve;do group=0 to 1; do i=1 to 4; input y @@;output;end;end;cards;95 34 22 12121 118 110 90;proc freq data=ve;tables y*group/all;exact pcorr;output out=result pcorr;

数理統計学第10回 21

並べ替え検定の結果・FREQ プロシジャの出力 H0: 相関 = 0 に対する検定帰無仮説が正しいもとでの漸近標準誤差 0.2040Z 4.0040片側 Pr > Z <.0001両側 Pr > |Z| <.0001正確検定片側 Pr >= r 0.0286両側 Pr >= |r| 0.0571

・ PRINT プロシジャの出力OBS PL_PCORR PR_PCORR P2_PCORR XPL_PCOR XPR_PCOR XP2_PCOR

1 .   .000031141 .000062281 .   0.028571 0.057143

数理統計学第10回 22

並べ替え分布Stem Leaf # Boxplot 44 4 1 | 42 49 2 | 40 36 2 | 38 3 1 | 36 01381 5 | 34 001356812567 12 +-----+ 32 58903578 8 | | 30 7578 4 *--+--* 28 4575 4 | | 26 12245792347 11 | | 24 12567014679 11 +-----+ 22 149 3 | 20 9 1 | 18 69 2 | 16 38 2 | 14 8 1 | ----+----+----+----+ Multiply Stem.Leaf by 10**+1

数理統計学第10回 23

有限母集団からの非復元抽出大きさ N の有限母集団:a 1, a

2, ・・・ , a N

大きさnの標本を非復元抽出: X1,X

2, ・・・ ,Xn

組合せの数: NC n=

Pr(X= a i1, a i2, ・・・ , a in)=1/NC n

注意  Xi の周辺分布は X1 の周辺分布 ,

(Xi , Xj) の同時分布は (X1 , X2) の同時分布に等しい .( 順番は分布に影響しない)

赤玉と青玉の例を思い出そう.

)!(!

!

nNn

N

数理統計学第10回 24

非復元抽出

同時にn個取出す

2a6

2a 2

2a52a 3

2a12a 4

2a9

2a82a7

数理統計学第10回 25

平均と分散・母集団の期待値 ( 母平均 ) と分散(母分

散)

・標本平均 X ・の期待値と分散

        :有限修正項

N

a

N

aa ii

2

2)(

,

   

1][,][

2

N

nN

nXVXE

   

1

N

nN

数理統計学第10回 26

標本平均と分散

X1,X2, ・・・ ,Xn は独立でないため

nn

n

n

XV

n

XXXVXV

n

n

n

XE

n

XXXEXE

ii

n

ii

n

2

2

21

21

1

21

][

][

数理統計学第10回 27

標本平均と分散

2

1

221

2

1

,

][

n

XXCovXV

n

XXXVn

XV

XV

jiji

ii

n

ii

数理統計学第10回 28

標本平均と分散

は?21

2211

2

1

21

21

,

,)1(

,

][

,,

,][][

XXCovn

XXCovnnXnVn

XXCovXV

XV

XXCovXXCov

XVXV

jiji

ii

ji

i

数理統計学第10回 29

標本平均と分散

)1()1(][

)1(

1),Pr(

][][

)])([(,

2

1

2

121

2211

21212121

221121

NN

aa

NN

aa

XXE

NNaXaX

XXEXXE

XXEXXCov

ii

ii

jiji

数理統計学第10回 30

N=5 の場合( a1a2 )  ( a1a3 ) ( a1a4 ) ( a1a5 ) ( a2a3 )( a2a4 )  ( a2a5 ) ( a3a4 ) ( a3a5 ) ( a4a5 )(a1+a2+a3+a4+a5)2=

a12 +a1a2+a1a3+a1a4+a1a5

+a2a1+a22 +a2a3+a2a4+a2a5

+a3a1+a3a2+a32 +a3a4+a3a5

+a4a1+a4a2+a4a3+a42 +a4a5

+a5a1+a5a2+a5a3+a5a4+a52

数理統計学第10回 31

標本平均と分散

1)1(

)(

)1(

1

)1(

1

)1(

][,

22

1

2

12

2

1

2

1

2

1

2

1

212121

NNN

a

NN

a

NNNa

N

a

NN

aa

XXEXXCov

ii

ii

ii

ii

ii

ii

X1 が ai のときは X2 は ai を取り得ないので負の相関が生じる .

数理統計学第10回 32

標本平均と分散

)1(

)(

)1(

)1()1(

)1(

)1(1)1(

,)1(][

222

22

2

22

2211

Nn

nN

Nn

nN

Nn

n

nnN

nnn

n

XXCovnnXnVXV

数理統計学第10回 33

超幾何分布の分散袋の中に N個の玉があって,そのうち比率p 1 で赤球,比率 1-p 1 で青玉が入っている.n個を非復元抽出したときの赤の個数の分散は?復元抽出のときの分散: σ2=np 1(1-p 1)

非復元抽出のときの分散:

復元抽出:二項分布超幾何分布:非復元抽出

1)1(

1 112

N

nNpnp

N

nN

数理統計学第10回 34

確認実験

袋の中に NN個の玉があって,そのうち比率 0.5(p) で赤球が入っている. 10 (N)個非

復元抽出したときの赤球の個数の分布(Y)は?NN= 10 , 20 ,・・・, 100

それぞれ1万回のシミュレーションを行う .

復元抽出(二項分布の場合)E [ Y ] =Np=5,V [ Y ] =Np(1-p)=

1.582

数理統計学第10回 35

SASプログラムdata data;p=0.5;n=10;do nn=10 to 100 by 10;do i=1 to 10000;r=nn*p; y=rand('hypergeometric',nn,r,n);output; end;end;proc means maxdec=2;var y;class nn;run;

数理統計学第10回 36

シミュレーションの結果

  オブザーべション nn N 平均値 標準偏差 最小値 最大値-------------------------------------------------- 10 10000 5.00 0.00 5.00 5.00 20 10000 4.99 1.15 1.00 9.00 30 10000 5.00 1.31 0.00 10.00 40 10000 5.00 1.39 0.00 10.00 50 10000 5.01 1.44 0.00 10.00 60 10000 5.00 1.44 0.00 10.00 70 10000   4.99 1.47 0.00 10.00 80 10000 4.98 1.50 0.00 10.00  90 10000 5.01 1.50 0.00 10.00 100 10000 5.00 1.50 0.00 10.00---------------------------------------------------

数理統計学第10回 37

2422

2123

2X 1

非復元抽出

同時に2個取出す 25

2X 2

演習 標本平均 X ・の期待値と分散を計算せよ

また復元抽出の場合と結果を比較せよ

top related