rでノンパラメトリック法 1
DESCRIPTION
At Nagoya.R #10, I introduced basic nonparametric statistical methods, sign test and Wilcoxon signed-rank test. These slides show that they can also be used in some special cases such as test for contigency table. Nagoya.R #10において、符号検定とウィルコクソンの符号付き順位和検定という、基本的なノンパラメトリックな統計手法について紹介した。スライドでは、これらの手法が例えば分割表に対する検定などのような、特別な場合においても利用することもできることを示した。TRANSCRIPT
はじめに
•所属する組織の意見・見解ではありません
•つまらないなら睡眠学習、復習に当てましょう
•メール、Twitter等でのコメント歓迎します
2
自己紹介
• Twitter ID:@ito_yan
• Rに初めて触れてから7年目になりました
• Writing R Extensions 2.15.2 翻訳
•統計検定1級合格
•サーバ管理者見習い
3
今日の話題
•ノンパラメトリック法の特徴
•ノンパラメトリック法の定番手法を紹介
•符号検定
•ウィルコクソンの符号付順位和検定
•一対標本、分割表に対する検定
4
学習の動機
•正規分布に従わないデータの存在
•例:ソーシャルゲームにおける課金の分布
• 多くの人は月0円だが、一部は月に何万円も使う
•正規分布の仮定が妥当でないシチュエーションに対する分析手法を理解したい
→ノンパラメトリック法の出番!
5
ノンパラメトリック法の特徴
•利点
•標本が属する母集団の分布に依存しない方法
•頑健性がある(外れ値にも強い)
• 平均のように外れ値に影響を受ける指標を使わないため
•欠点
•汎用性がある分、検出力は低い
• 何にでも使える反面、標本数を多く必要とする
•常に最適な手法とは限らない
• 例えば2標本の平均に差があるか調べるとき、t検定が使えるのであれば、ノンパラの手法よりもそちらを選ぶべき
6
2つの誤りと検出力
•第1種の誤り
•帰無仮説が正しいのに棄却する誤り
•第2種の誤り
•帰無仮説が間違っているのに受容する誤り
•検出力
• 1 - 第2種の誤りを犯す確率
•誤っているものを誤っていると正しく言える
7
符号検定
例題
•ランダムに抽出したN大学の学生10人に統計学の試験を受けさせたところ、次の結果を得た。
43, 46, 55, 61, 64, 68, 70, 78, 80, 92
試験結果のメジアンは50点と言えるか符号検定を用いて判定せよ
•問題設定
•帰無仮説 :メジアンは50点である
•対立仮説 :メジアンは50点ではない(両側検定)
8
符号検定の考え方
•もし帰無仮説の通りであるなら、点数から50点を引いた後に得られる点数の正負の符号は、ほぼ半分になるはず
•極端に符号が偏ると帰無仮説は棄却される
•今回の問題では符号は+が8個、-が2個
•これ以上に極端になる(+が8個以上)確率は二項分布Bin(10, 0.5)から計算できて、約0.055
•両側検定なので、反対側(-が8個以上)も考えて、求めるp値は0.055*2=0.110
•有意水準5%で は棄却できない
9
p値の計算と解釈
• p値は帰無仮説の下で、観測されたデータ以上に極端な結果となる事象が発生する確率の合計
•両側検定なら分布の両裾を考慮する
• p値が有意水準以下のとき、帰無仮説の設定が間違っていたと解釈し、対立仮説を採択する
•有意水準は事前に設定する基準
• 第1種の誤りを犯す確率
• p値が有意水準より大きいとき、帰無仮説は棄却できないが、積極的に採択するわけではない
10
Rで符号検定
scores <- c(43, 46, 55, 61, 64, 68, 70, 78, 80, 92)
11
・c(成功数, 失敗数)の形で与える
・pという分位点のパラメータ(成功率) を引数に与えることもできる
p値は約0.11であり、帰無仮説は棄却されない
メジアンの信頼区間の構成
• p値が有意水準0.05を下回らない範囲にする
• +と-が1個以下ではp値は0.05を下回る
→+は2~8個になるような値が信頼区間に入る
→メジアンの名目上の95%信頼区間は[55, 78]
•実際の信頼度は1-0.0215=97.9%
12
符号検定への疑問
•もし仮定したメジアンと同じ値があったら?
•検定に影響を与えないため、そのデータはなかったものと見なす
•サンプル数が多くなったら計算が面倒なのでは?
•数表が与えられた範囲ならば計算不要
• 手元のノンパラメトリック法のテキストを参照すること
•大標本では正規近似を行う
• 中心極限定理によりその妥当性が担保される
13
中心極限定理
•期待値 、分散 の分布からn個の標本値 (i=1, 2,…,n)が独立に得られたとき、
•矢印の上の「d」は分布収束の意味
•左辺の値を何度も計算して得られる標本分布が右辺の分布に一致するということ
•標準正規分布への収束速度は、元の分布の対称性などに依存している
14
符号検定の正規近似
例題
•ランダムに抽出した学生50人に統計学の試験を受けさせた結果、51点以上が34人、49点以下が16人であったという。メジアンは50点といえるか検定せよ
•問題設定
•帰無仮説 :メジアンは50点である
•対立仮説 :メジアンは50点ではない(両側検定)
15
符号検定の正規近似による解法
• 50点を超える人数を確率変数Xで表す。Xの期待値と分散は の下で次のようになる
• E[X] = 50 * 0.5 = 25
• V[X] = 50 * 0.5 * (1 – 0.5 ) = 12.5
•標本数が大きいので中心極限定理を用いて解く
• z = (34 – E[X]) / sqrt(V[X]) = 2.55 であり、
|z| > 1.96 (N(0, 1)の上側2.5%点)なので、メジアンが50点という帰無仮説を有意水準5%で棄却
•メジアンは50点でないと言える
16
X~Bin(50, 0.5)
から計算する
連続修正
•正規近似を行うとき、正規分布(連続分布)と離散分布では確率の計算方法が異なるので0.5を引く
•青色の面積(離散型で2以上の値をとる確率)を赤色の1.5以上の面積で近似
•連続修正を採用すると、
採用しない場合よりも帰無
仮説は棄却されにくくなる
(保守的な判断になる)
17
赤と水色の面積はほぼ同じ
ウィルコクソンの符号付順位和検定
•例題
•統計学の試験を10人に受けさせたところ、次のような結果を得た。
43, 46, 55, 61, 64, 68, 70, 78, 80, 92
試験結果のメジアンは50点と言えるか、ウィルコクソンの符号付順位和検定を用いて検定せよ
•問題設定
•帰無仮説 :メジアンは50点である
•対立仮説 :メジアンは50点ではない(両側検定)
18
符号付順位和検定の考え方
•分布がメジアンを中心に対称であると仮定する
• メジアンとの偏差を求め、絶対値の小さい順に並べて順位をつけると、偏差が正のデータの順位和と、偏差が負のデータの順位和はほぼ同じになるはず
•正の順位和と負の順位和のどちらかが小さすぎるときに帰無仮説を棄却
•帰無仮説が正しいとき、ある順位が正の符号、負の符号を取る確率はいずれも0.5である
19
手計算によるp値の計算
• 50との偏差をとり、絶対値の小さい順に並べる
• -4、5、-7、11、14、18、20、28、30、42
•符号化順位は次のようになる
• -1、2、-3、4、5、6、7、8、9、10
•正の順位和、負の順位和の大きさは51、4
•帰無仮説の下で、負の順位和の大きさが4以下となる確率は
• p値は2倍して約0.0137
20
順に0、1、2、3、4になる確率に対応している
負の順位和は1+3 = 4
Rで符号付順位和検定の実行
• p値は0.01367で0.05を下回るため、有意水準5%でメジアンは50という帰無仮説は棄却される。
• 95%信頼区間の値から、メジアンが50よりも大きな値になりそうということが示唆される
21
信頼区間を表示させるときはTRUEを指定
順位和検定の特別な場合への対応
•偏差の大きさが同じデータの順位をどう扱う?
•平均順位を割り当てる
•大標本に対する符号付順位和検定は、正の順位和、負の順位和の小さい方をS、標本数をnとすると、帰無仮説の下で
に従うことから、
が近似的に標準正規分布に従うことを利用する
22
2つの手法に対する考察
•符号検定は順序尺度(順序だけ比較できる)に対しても利用できる
•符号検定では帰無仮説は棄却できなかったが、符号付順位和検定では棄却された
•対称性に関する情報が増えたことで、帰無仮説を棄却する手がかりが増えたと考えられる
23
一対標本(対応あり)への適用例
例題
• 10人に対し降圧剤の投与の前後で血圧を測定したところ、投薬前-投薬後の値は次のようになった。
-5, -3, -1, 2, 6, 7, 13, 18, 19, 21
これらの(ランダムに抽出したと仮定した)標本は、血圧の変化を示していないと言えるか検定せよ。
•問題設定
•帰無仮説 :投薬による差のメジアンは0
•対立仮説 :投薬で差のメジアンは0より大きくなる
24
一対標本の検定
•分布の対称性を仮定し、メジアンの違いのみに注目すれば、ウィルコクソンの順位和検定が使える
• p値は0.05より小さく、投薬で血圧は降下したと判断される
25
投薬前後の分布を同じ形とすると、帰無仮説の下で、差は0
の周りに対称に分布する
対立仮説は差が0より大きいなのでgreaterとする
タイを含むデータへの対応方法
• coinパッケージのwilcox_test関数を使うと正確なp値を求められる
• wilcox.test関数では、標本数が50以下かつタイがない場合に限り、正確なp値が計算できる
26
負値集合の絶対値のメジアンと正値集合でメジアンに差があるか
グループ1のメジアンがグループ2のそれより小さいか
分割表に対する適用例
•例題
•あるソーシャルゲームで遊ぶ人からランダムに100
人抽出し、サービスのプロモーション活動の前後で1円以上の課金をする・しないに変化があるかを調
べて集計したところ、次のような結果になった。プロモーションは効果があったといえるか。
27
活動前
課金した 課金なし
活動後 課金した 21 11
課金なし 3 65
問題設定とアプローチ
•問題設定
•帰無仮説 :プロモーション活動は中立的
•対立仮説 :プロモーション活動で課金者が増加
• (関連の有無を調べる)独立性の検定ではない
•同一標本に対し、処理による意見の変化を見たい
•課金なしに負の符号、課金したに正の符号を割り当てた符号検定が使える
•プロモーション活動の前後で意見が変わらない人は考慮しない
28
課金者数に変化なし
無駄な標本ではなく、意見が変化した14
人を集めるために必要だったと言える
Rによる検定結果
• p値は0.029となり、有意水準5%で帰無仮説は棄却され、プロモーションは効果があったと言える
•意見の変化した数が多ければ、マクネマー検定と呼ばれる手法も使える
29
参考資料
•ノンパラメトリック統計入門(著者:P. スプレント)
•第5, 6, 8章
•ノンパラメトリック法(著者:柳川 尭)
•確率化テストの方法(著者:橘 俊明)
• Nagoya.R #4の発表資料(中心極限定理)
• http://d.hatena.ne.jp/syoh11/20101113/1289656
188
•有意水準にまつわる議論
• http://togetter.com/li/149922
30
ご清聴ありがとうございました
31