11. ノンパラメトリック検定...検定統計量tlの有意水準5%の検定は it11 三1.96...
TRANSCRIPT
11. ノンパラメトリック検定
11.1 位置の違いの検定方法
母集団分布 F(x)と G(x)
(分布の形は等しく,位置に関して違いがあるとする)
X == (Xlぃ ・け Xn). . . F(x)からの標本
y == (y 1, • . • , Ym) . . . G ( x )からの標本
検定したい仮説は
帰無仮説 HO:母集団分布の中央値は等しい
対立仮説 Hl:母集団分布の中央値は等しくない
11.1 位置の違いの検定方法
大きさ N =n+mの標本を大きさの順に並べる
り(1)< V(2) < ・・・ < V(n+m)
4番目に小さい標本 V(i)により viを決定する
1, り(i)ε{X1ぅX2,・・・ ,Xn}
。? り(i)ε {Y1,ν2γ ・.,Ym}
11.1.1 ウィルコクソン検定
このとき,ウィルコクソン統計量 W は
N
TW=芝川
で与えられる
G ワイルコクソン統計量とはXl,x2ぃ ・・ ,Xnの順位の和
のことである (Wilcoxon,1945)
11.1.1 ウィルコクソン検定
j(x), g(x). ..分布関数 F(x),G(x)の密度関数
このとき,j(x) == g(x +ム)で、あったとする
ム の値が大きい・・・
X の値の順位は比較的小さく位置づけられる
統計量 TWが小さな値をとるとき, 帰無仮説を棄却する
ノ
Xlγ.. ,xn
/ 『¥
¥
¥
¥
¥
¥
¥ 、・、
』司晶E唱』
Yl,... ,Ym
11.1.1 ウィルコクソン検定
また,f(x) == g(x-ム)のよ うな状況を考える
ム の値が大きい…
X の値の順位は比較的大きい側に位置づけられる
ー ノ ~ Yl,... ,Ym Xl, . •• ,xn
11.1.1 ウィルコクソン検定
統計量 Twが著しく大きな値や小さい値をとるとき
帰無仮説を棄却する
2つの母集団分布の中央値は等しいという帰無仮説が
真であるとする.このとき
E(巧)==予n(n -1)
V(巧)==万2 E(ViVj) ==
統計量 TWの平均と分散は
n(N + 1) T r/rn '¥ nm(N + 1) E(TW) == , v '~' ,..' -/ V(TW) == 12
11.1.1 ウィルコクソン検定
ここで
巾 TW -E(TW) .L1一一一 I
ゾV(TW)
とおくと ,n, m が10より大きい場合に統計量 T1は
標準正規分布に近い分布をすることが知られている.
標本サイズが小さい場合には ワイルコクソン統計量の
正確な棄却点が計算されている.
11.1.1 ウィルコクソン検定
検定統計量 Tlの有意水準 5%の検定は
IT11三1.96
であるならば,帰無仮説を棄却する.
正規分布を仮定 t検定が一様最強力検定
t検定に対するウィルコクソン検定の漸近効率は
U竺==0.955
ロジスティック分布を仮定したもとで ウィルコクソン
検定は一様最強力検定となる.
11.1.1 ウィルコクソン検定
20匹のマウスをランダムに 2群に分け,一方は
対称群 X,他方の実験群 Y には,薬品を一定量
投与した後, リンパ球を数えた.
2群の母集団分布の型は,ほぼ同等であり ,
薬品によりリンパ球数は影響を受けるのか調べる
|帰無仮説HO:母集団分布の中央値は等しい |
を検定する
11.1.1 ウィルコクソン検定
実験結果
表 11. 1マウスのリンパ球数
X159 91 64 53 75 69 36 43 53 99 Yl67 93 72 55 109 86 50 80 95 103
11.1.1 ウィルコクソン検定
表 11.2順位づけられたデータ
りill 36 43 50 53 53 55 59 64 67 69
順位 1 2 3 4.5 4.5 6 7 8 9 10
vi 1 1 O 1 1 O 1 1 O l
υω 72 75 80 86 91 93 95 99 103 109
順位 11 12 13 14 15 16 17 18 19 20
vi O 1 O O 1 O O 1 O O
TW = 1 + 2 + 4.5 + . . . + 18 = 82
E(TW) = 105, V(TW) = 175 となる
11.1.1 ウィルコクソン検定
統計量 Tlに適用すると
182 -1051 一一 = 1.73
1 - V175
となり,標準正規分布 5%点の 1.96より小さい
有意水準 5%で帰無仮説を棄却することはできない
リンパ球数は,薬品により影響を受けると結論できない
位置については不明でも母集団分布の型が等しいとき
ウィルコクソン統計量を用いる検定法は有効だと考えら
れる
11.1.1 ウィルコクソン検定
また,ウイノレコクソン統計量は
Ti = ITw -E(TW)I
として用いられることが多くある. その理由のひとつとして,ウィルコクソン統計量は平均に対して対称とな
るからである.
(演習問題)
マン・ウィットニー検定
ウィノレコクソン検定と 同様に,2つの母集団分布の
形は等しいとわかっているときに,分布の位置に
差があるかどうかを調べるのに有効な検定法.
検定した仮説は ウィルコクソン検定と同じく
帰無仮説 HO 母集団分布の中央値は等しい
対立仮説 Hl 母集団分布の中央値は等しくない
である
マン・ウィットニー検定
母集団分布F(x)からの標本X== (Xlγ ・.,Xn)
母集団分布G(x)からの標本y== (Ylγ ・.,Ym)
2つを小さい順に並べ,Ye未満のX の個数を Ueとし,それらの和をとった統計量
/マン ・ウイットニーの U 統計量、
¥ U == Ul + U2 + . . . + Um
ノ
(Mann and Whitney, 1947)
マン・ウィットニー検定
ウィルコクソン検定 TWとマン・ウイットニー検定 U
には
7n(m + 1) Tw=U +2
のような関係が成り立つので、マン ・ウイットニー検定と
ウィルコクソン検定は本質的には同じものである
(演習問題)
マン・ウィットニー検定
表 11.3マウスのリンパ球数
X 53 61 63 81 Y 65 80 88 90 93
ν1未満の X は 3個あるので,Ul = 3となる.
同様にして,U2ニ 3,U3二 U4ニ Usニ 4 となる.
したがって,U = 3 + 3 + 4 + 4 + 4 = 18となる.
以上のことより,仮説は棄却されないことが分かる.
11.2 尺度の違いの検定方法
標本順位を用いる
ワイルコクソン検定と考え方が似ている
2つの母集団分布の位置は等しいとわかっているときに,
分布の散らばりに差があるかどうかを調べるのに有効
s ウィルコクソン検定とは,適用の場面が全く異なる
11.2 尺度の違いの検定方法
検定したい仮説は
帰無仮説 Ho:母集団分布の中央値は等しい対立仮説 Hl 母集団分布の中央値は等しくない
F(x)と G(り からの標本を,x = (Xl, • • • , Xn)と y= (Ylγ. . ,Ym)とする.大きさ N=n+mの標本 X と Y を大きさの順に並べる
11.2.1 アンサリー・ブラッドレー検定
このとき,アンサリー.ブラッドレー検定は
立 N+1 TA ==ず(N+1)-Li|4-i |巧
である.
(Ansari and Bradley, 1960)
11.2.1 アンサリー・ブラッドレー検定
j(x),g(x)を分布関数F(x),G(x)の密度関数とする.
j(x) = g(σx)のような場合 :
順位づけをするとき,σの値が大きいと Xの順位は
中央に位置づけられ,結果として TAは小さい値になる.
--、‘、/ ¥
/ ¥
/ ¥ / ¥
〆〆 、、
Yl, Y2,・・・ ,Yj,Xl,X2,... ,Xn,Yj+l,・・・ ,Ym
11.2.1 アンサリー・ブラッドレー検定
f(x) == g(σx)のような状況において, 0 <σ 三1の
値のとき, X の値の順位は両側に位置づけられる.
つまり,統計量 TAは大きな値をとる.
シ(¥し
¥
¥
、、、J/
/
/ p〆「
Xl,X2,'" ,Xj,Yl,Y2γ ・・ , Ym, Xj+b . . . ,xn
11.2.1 アンサリー・ブラッドレー検定
TAが著しく大きな値,もしくは,小さい値をとるとき,
帰無仮説を棄却する • (標本の大きさ nとm に関係する)
帰無仮説のもとで,統計量 TAの平均と分散はF
N=η十 m が偶数のとき,
n(N + 2) E(TA)二
N 二 η十 m が奇数のとき,
m(N2 - 4)
(TA)二
48(N -1)
η(N + 1)2 T rfrn ¥ nm(N + 1)(N2 + 3) E(TA)二 , V(TA)二4N ' . \~ rJ.} 48N2
11.2.1 アンサリー・ブラッドレー検定
nとm が大きいときは
Z0 = TA -E(TA) -
2 - ♂雨
の分布は,帰無仮説のもとでは標準E規分布となる.
m, nが小さい時には,正確な棄却点が導出されている.
正規分布を仮定したもとで,アンサリー ・ブラッドレー検定のF 検定に対する漸近効率は 6/ぷ =0.608となる
11.2.1 アンサリー・ブラッドレー検定
2種類の睡眠薬 Pl,P2の効能の比較のため, 24匹のマウスをランダムに 2群に分けて実験を行なった.
それぞれの効能の強さは,ほぼ同じであることは
わかっている.
i睡眠薬 Plに対する反応は個体差が大きく関係し,:睡眠薬P2は個体差の影響は少ないことが予想されている :
11.2.1 アンサリー・ブラッドレー検定
睡眠薬を同じ濃度に希釈し, マウスが眠るまでの時間を
観測したところ,表 11.4のような結果を得た.
表 11.4マウスが眠るまでの時間
睡眠薬 Pl45 59 68 48 66 40 41 56 30 58 52 31
睡眠薬 P251 57 50 57 53 54 61 42 46 39 50 52
表 11.4について,アンサリ ー・ブラッドレー検定を
適用し,
rーーーーー
帰無仮説 HO 睡眠薬 Plと P2では個体差による
ぱらつきの聞に差はない
を検定する.
11.2.1 アンサリー・ブラッドレー検定
データを大きさの順に並べる.
表 11.5順位づけられたデータ
日寺間 υ(z) 30 31 39 40 41 42 45 46 48 50 50 51
順位 2 3 4 5 6 7 8 9 10.5 10.5 12
vi 1 1 。1 。1 。1 。。。時間 υ(i) 52 52 53 54 56 57 57 58 59 61 66 68
順位 13.5 13.5 15 16 17 18.5 18.5 20 21 22 23 24
vi 。。。 。。1 。 l
11.2.1 アンサリー・ブラッドレー検定
表 11.5から統計量 TA は
TA = 150 -{(11.5 + 10.5 + 8.5 + 7.5 + 5.5)
+(3.5 + 1 + 4.5 + 7.5 + 8.5 + 10.5 + 11.5)}
= 150 -90.5 = 59.5
アンサリー・ブラッドレ一統計量の平均と分散は,
E(TA)二 78, V(TA)二 74.61
11.2.1 アンサリー・ブラッドレー検定
よって
である.
2 = 159三二Z8l= 2山、/74.61
!?戸百三百石眠不着予庄三弘一石 1351lより大きくなるので 帰無仮説は有意水準 5%で !
|棄却される J
11.2.1 ムード検定
この検定法は,アンサリー .ブラッ ドレー検定と同様に,分布の散らばりに差があるかどうかを調べるのに有効な
検定法である.
母集団分布 F(x)とG(x)からの標本を 3 それぞれ
X = (Xlぃ ., Xη)とy= (Ylぃ .,Ym)とする.
大λノょの節をY
L」X
本標のm
'L
一了ペ訂
U3
N聞
大」の
キC
寸々
大き
11.2.1 ムード検定
ムー ド検定は
日二三(iγ)¥によって与えられる.(Mood, 1954)
帰無仮説のもとで,統計量 TM の平均と分散は?
n(N2 - 1) TTlrn ¥ nm(N + 1)(N2
- 4) E(TM)二川 ? V(TM)=
180
で与えられることが知られている.
11.2.1 ムード検定
η とm が大きいときには,
T? = TM - E(TM) 一-u ¥jV(TM)
の分布は,帰無仮説のもとでは標準正規分布となる.
サンプルサイズが小さいときは, Lau bscher et al. (1968) によって正確な棄却点が導出されている.
11.2.1 ムード検定
アンサリー.ブラッドレー検定で用いた例でムード検定
を行う .
表 11.4のデータについてムード検定を適用し,
r 帰無仮説 Ho :睡眠薬 Plとぬでは個体差によ る
ぱらつきの聞に差はない
を検定する.
この表のデータを大きさの順に並べたものが,先ほどの
表 2.2である.統計量 TMは
TM = 805.75, E(TM) = 575, V(TM) = 11440
11.2.1 ムード検定
よって,
805.75 -575 == 2.157
3 、/11440となることから,T3の値は標準正規分布における有意
水準 5%点より大きいので,帰無仮説は棄却される
11.3 位置と尺度の違いの検定方法
これまでは,
分布の形が等しいということがわかっていて,に違いがあるかどうカ
その位置
もしくは,
分布の位置が等しいということがわかっていて,らばりに違いがあるかどうか
を調べるために有効な方法を述べてきた.
その散
ところで,母集団分布についての前提の知識がない場ムには,どのような検定が適切だろうか?
11.3 位置と尺度の違いの検定方法
この章では,
帰無仮説 Ho:母集団分布は等しい
対立仮説 Hl:母集団分布は等しくない
のような仮説を検定するときに用いることができるいく
つかの検定法を紹介する.
。,1で表すと以下のようになる.
パl
IV¥
11.3.1 ラページ検定
それぞれの母集団分布 F(x)とG(x)からの標本を?x = (Xl, . • • ,Xπ)とy= (Ylγ . ,Ym)とする.
大きさ N=n+mの標本 X とY を前と同様に大きさの順に並べる.
標本 V(i)が標本 X から得られたならば yi= 1とし,標本 Yから得られたならば yiニ Oとする.
1 vt=
O
V(i) ε{ Xl,・・・ ぅXn}
り(i)ξ {Yl, • ・・ , Ym}
11.3.1 ラページ検定
この検定法は,位置の違いを検定するウィルコクソン
検定と尺度の違いを検定するアンサリー -ブラッドレー
検定を用いた検定統計量で,ラページ (1971)によって
TT.二(1iw-E(Tw) U 園、/V(Tw)
が提案された.
2
十(7:A-E(TA)
¥JV両
2
この検定統計量の極限分布は?自由度 2のが分布に従うことが知られている (Lepage,1971).
11.3.1 ラページ検定
昆虫の生息地域によって成長に違いがあるか調査した.
北の方に生息する昆虫 7匹 (グループ。X)と南の方に
生息する昆虫 7匹 (グ、ループ Y)を抽出して,昆虫の
成長の違いを調査 した.知りたいことは,
帰無仮説HO 北方に生息する昆虫と南方に生息する
昆虫の成長の分布は等しい
である.
11.3.1 ラページ検定
表 11.6のようなデータを得た.
表 11.6 昆虫の大きさ
グループ X 191 173 188 163 184 200 174
グループ Y 211 185 201 195 189 199 180
2つの母集団からの標本を一緒にして,それらを大きさ
の順に並べると ,表 11.7が得られる.
11.3.1 ラページ検定
表 11.7順位づけられたデータ
V(i) 163 173 174 180 184 185 188
順位 1 2 3 4 5 6 7
vi 1 1 1 O 1 O 1
りω 189 191 195 199 200 201 211
順位 8 9 10 11 12 13 14
vi O 1 O O l O O
ラページ統計量 TLは
TL == 2.9755 + 0.0663 == 3.0418
となり ,5.991より小さいので帰無仮説を棄却しない.
11.3.2 コルモゴロフ・スミルノフ検定
それぞれの母集団分布 F(x)とG(めからの標本を?
X = (Xl,'" ,Xn)とy= (Yl, ' " ,Ym)とする.
大きさ N=n十 m の標本 X とYを前と同様に大きさの順に並べる.
標本 V(i)が標本 X から得られたならば只 =1とし,
標本 Yから得られたならば只 =0とする.
V(i)ε{ Xl, • ., ,Xη}
り(i)ε {Yl,... ,Ym}
11.3.2 コルモゴロフ・スミルノフ検定このとき, コルモゴロブ ・スミノレノフ検定 TK は
む=竺子部|kf五-SMと定義される.ただしdは標本数nとmの最大公約数である.(Kolmogorov, 1933; Smirnov, 1939)
伝統的な形としては,経験分布関数を用いた
TK = 石t -225|凡(X)-Gm(x)1
のような統計量が有名である.
凡(X)とGm(X)は標本 X とY からの経験分布関数
11.3.2 コルモゴロフ・スミルノフ検定
ラページ検定で用いた例でコノレモゴロフ ・スミルノフ
検定を行う .
表 11.6のデータについてコルモゴロフ ・スミノレノフ
検定を適用し,
帰無仮説HO 北方に生息する見虫と南方に生息する
昆虫の成長の分布は等しい
を検定する.
2つの母集団からの標本を一緒にして,大きさの順に
並べると ,表 11.9が得られる.
11.3.2 コルモゴロフ・スミルノフ検定
表 11.9順位づけられたデータ
りω 163 173 174 180 184 185 188
vi 1 1 1 O 1 O 1
EVi 1 2 3 3 4 4 5
り臼} 189 191 195 199 200 201 211
vi O 1 O O 1 O O
乞vi 5 6 6 6 7 7 7
表 11.9より
Tv = 12+1277 v X 一 (
日 12 2
である.よって,コルモゴロフ・スミルノフ検定の棄却
J'~'"の表より, 帰無仮説を有意水準 5% で棄却する
11.3.3 クラーメル・フォン
ミーゼス検定
標本り(i)が標本 X から得られたならば院二 1とし,
標本 Yから得られたならば vi= 0とする.これを,
1 V(i)ε{ Xl) . . . ) Xη} vi = <
o V(i)モ{Yl). . . ) Ym}
と表す.このとき,クラーメル・フォンミーゼス検定は
ゐ=ネ芝 kd石-p2
で与えられている.
11.3.3 クラーメル・フォン
ミーゼス検定
より伝統的な表記の仕方として,
f∞ (n凡(x)+ mGn(x)¥ T c = __' v,' . ~__ I (凡(x)_ Gm(x))2d ( I~ J. n\ .v_~ " 1_ ~: \J n\.v J )
十 m-'_∞ ¥ η十 m ノ
として与えられている.
11.3.3 クラーメル・フォン
ミーゼス検定
標本 X とYのそれぞれの順位を九と Hjで表すとき,
Anderson (1962)により ,クラーメノレ・フォンミーゼス
検定は
長三 (nJmぷ工(R;一平i)
十三い-弓竺j)で与えられている.
11.3.3 クラーメル・フォン
ミーゼス検定
標本数が小さい場合は, Anderson (1962)によって棄却点が与えられている.
標本数が大きい場合には, Anderson and Darling (1952) によって極限分布が与えられている.
表 11.6のデータを用いて クラーメル・フォンミーゼ、ス検定を行ってみる.
表 11.6のデータを大きさの順に並べたものが表 11.10となる.
11.3.3 クラーメル・フォン
ミーゼス検定表 11.10順位づけ られたデータ
データ 163 173 174 180 184 185
順位 1 2 3 4 5 6
データ 189 191 195 199 200 201
順位 8 9 10 11 12 13
表 11.1より, Andersonによって提案されたクラーメル
・フォンミーゼス検定は
188
7
211
14
有意水準 5%の値 0.46136より小さいので棄却でき
ない
11.3.4 バウムガートナー型検定
-コルモゴ、ロフ ・スミノレノフ検定やクラーメル・フォンミーゼス検定よりも検出力が高い
-位置の違いに対しては, ウィルコクソン検定と同程度の検出力が得られることが, Murakami (2006)によって示されている.
11.3.4 バウムガートナー型検定
クラーメル ・フォンミーゼス検定検定の場合と同様に
標本 X とYのそれぞれの順位を九と Hjで表すとき,
1 ~ (九-雫戸)2
2n白布(1一品)m(叩刊TB
+土ず (同 一号~ilj)2 2m台古(1-古)η(Z71)
が提案されている.
11.3.4 バウムガートナー型検定この統計量の極限分布は,
一岳会 Cj~) (4j
である.ただ、し,
(サ=同r(jj ) r (位ωiD)jρ !
標本の大きさが小さいときには 正確な棄却点が
M urakami (2007)によって与えられている.
11.3.4 バウムガートナー型検定
表 11.6のデータを用いて,修正型パウムガートナー検定を行ってみる.
データを大きさの順に並べた表 11.10
表 11.10順位づけられたデータ
データ 163 173 174 180 184 185 188
順位 1 2 3 4 5 6 7
データ 189 191 195 199 200 201 211
順位 8 9 10 11 12 13 14
11.3.4 バウムガートナー型検定
表 11.10より,修正型バウムガートナ一統計量 TB は
TR土x{19.5298 + 8.862041 } = 2.0107
-'J 14 '-----. ---- .J
となり,有意水準 5%の値 2.493より小さいので棄却することはできない.
参考文献•
Ansari, A. R. and Bradley, R. A. (1960). Rank-sum tests for dispersions. The Annals of Mathematical Statistics, 31, 4, 1174-
1189. •
Anderson, T. W. (1962). On the distribution of the two-sample Cramer-Von Mises
criterion. The Annals of Mathematical
Statistics, 33, 3, 1148-1159. •
Anderson, T. W. and Darling, D. A. (1952). Asymptotic theory of certain “goodness of fit”
criteria based on stochastic
processes. The Annals of Mathematical Statistics, 23, 2, 193- 212.
•
Kolmogorov, A. (1933). Sulla determinazione
empirica
di
una legge
di
distribuzione. Giornale dell’Istituto Italiano degli
Attuari, 4, 83-91. •
Laubscher, F. Steffens, F. E. and De Lange, E. M. (1968). Exact critical values for Mood’s distribution-free test statistic for dispersion and its normal approximation. Technometrics, 10, 3, 497-507.
参考文献•
Lepage, Y. (1971). A combination of Wilcoxon’s
and Ansari-
Bradley’s statistics. Biometrika, 58, 1, 213-217. •
Mann, H. B. and Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. The Annals of Mathematical Statistics, 18, 1, 50-60.
•
Mood, A. M. (1954). On the asymptotic efficiency of certain nonparametric two-sample tests. The Annals of Mathematical Statistics, 25, 3, 514-522.
•
Murakami, H. (2006). A k-sample rank test based on modified Baumgartner statistic and its power comparison. Journal of the Japanese Society of Computational Statistics, 19, 1-13.
•
Murakami, H. (2007). Lepage type statistic based on the modified Baumgartner statistic. Computational Statistics and Data analysis, 51, 10, 5061-5067.
参考文献
•
Smirnov, N. V. (1939). Sur
les écarts
de la courbe
de distribution empirique, Matematiceskii Sbornik N.S., 6, 3–26.
•
Wilcoxon, F. (1945). Probability tables for individual comparisons by ranking methods. Biometrics, 3, 3, 119-122.