第5章glmの尤度比検定と検定の非対称性 前編
DESCRIPTION
#みどりぼんTRANSCRIPT
7/8/2014 1
第5章 GLMの尤度比検定と検定の非対称性
5.1~5.3
@tanimocchi
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 2
自己紹介 Twitter ID: @tanimocchi
(もっちぃ)
数学科出身、博士(情報科学)
所属:タヒにかけ半導体
仕事:マーケティングなのか?
新規事業開拓なのか? 統計解析は必要! だと信じてる
統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。
アンケート設計・分析にも従事
教科書良くわからなかったので、適当に無視して且つ補足しながら進めさせて頂きます。今回、理論的背景に関しては、参考文献のどこを読めば良いか程度のみをご紹介します。
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 3
仮説検定のおさらい
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 4
出典:「統計学入門 (基礎統計学)」
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
「第11章 推定」と「第12章 仮説検定」、及び下記Web資料から 超適当につまんだ感じ ・「最尤法と尤度比検定について」 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf
・「検出力と尤度比検定」 http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf
5
仮説検定の考え方 背理法
論証したい事柄を否定する仮定を行う
仮定から導かれた事柄に、矛盾がある事を示す
仮定が間違っていると結論する
「仮定」→「仮定から導出される事柄は、絶対に起こり得ない」
仮説検定 母集団について述べたい事柄を否定する仮定(仮説)を行う
「仮定が正しい」としたとき、ある統計量の値が「現在観測されている標本から得られる確率が非常に小さい」範囲に入っている事を示す
仮説が間違っていると考えた方が良い、と結論する
「仮定」→「仮定から導かれる値は、得られる可能性が殆どない」
7/8/2014 5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
6
仮説検定の計算手続き 1. 帰無仮説(H0)の設定:棄却される事を前提とした仮説
2. 対立仮説(H1 )の設定:採択される事を前提とした仮説
3. 調査結果の確認:調査から得た標本統計量と標本数を確認
4. 検定統計量Tの計算:条件にあった公式を選んで検定統計量算出
5. 棄却域Rの決定:有意水準、両側・片側検定・自由度などから決定
6. 統計検定量Tと棄却域Rの大小比較
:T≧R⇒棄却、T<R棄却しない
7. 結論を述べる
7/8/2014 5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7
仮説検定の分類
7/8/2014 5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
検定に用いる分布
σ が既知か、未知でも標本数nが多いとき(ex n≧100) 正規分布σ 未知のとき t分布
σ 1、σ 2が既知のときか、未知でも標本数が多いとき 正規分布σ 1=σ 2で未知のとき t分布σ 1≠σ 2で未知のとき ウェルチの近似
χ ^2分布
F分布
χ ^2分布(K・ピアソン適合基準)
正規分布中心極限定理を用いた検定
分類
母平均の比較値との差の検定
2つの母平均の差の検定
母分散の比較値との差の検定
2つの母母分散の比の検定
適合度の検定(分割表と独立性の検定)
今回は、上記にない「尤度比検定」が対象
7/8/2014 8
5.1 統計学的な検定のわくぐみ
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 9
統計モデルの検定とモデル選択
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 10
尤度比検定の考え方
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 11
出典:下記Web資料
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
下記Web資料から超適当につまんだ感じ ・「最尤法と尤度比検定について」 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf
・「検出力と尤度比検定」 http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf
7/8/2014 12
尤度関数
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
に注意。ここで、
の最尤推定値きの:帰無仮説が正しいと
:尤度の最大値
の最尤推定量、即ちを最大にする:
とした。の標本の値をここで、サイズ
なる。について求めたものとを各々の確率密度確率
となるが尤度関数は、標本の値各標本は独立なので、
:尤度関数
確率密度である確率の値が 取り出した標本
とき、その母集団からがある値をとっている:ある母数
ˆ,ˆ,
ˆ
ˆ,
,,maxargˆ
,,,
,,,
;;;,
;
2211
111
21
XLXL
XL
XLXL
xXxXxXn
xxx
xfxfxfXL
xX
xf
nn
n
,XL
7/8/2014 13
尤度関数は概ね確率(密度)関数
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
概ね対応。率が大きいという事に尤度関数が大きいと確
う事となり、る確率が高い』」とい『このデータが得られ
のときに比べてのとき、つまり、「
位の確率で得られる データは
個当る」という個中割」であれば「「割合が
位の確率で得られる データは
個当る」という個中割」であれば「「割合が
位の確率で得られる データは
個当る」という個中割」であれば「「割合が
と上記を言葉で解釈する
、尤度関数は、個が当たりだとすると個中
二項分布の確率関数は
5.0,1.03.0
%7.11
3105:5.0
%7.28
3103:3.0
%7.5
3101:1.0
117.05.05.03,10|5.0:5.0
287.07.03.03,10|3.0:3.0
057.09.01.03,10|1.0:1.0
13,10|310
1,|
73
310
73
310
73
310
73
310
pp
p
p
p
CLp
CLp
CLp
ppCpL
ppCpnxfxnx
xn
7/8/2014 14
尤度比=2つの尤度関数の比 2つの尤度の比
が非常に小さい、即ち「 が に比べて極めて
小さい」ときの意味 帰無仮説が正しいとすると、今得られているような標本が得られる確
率(確率密度)は、帰無仮説を考えないときに比べて極めて小さい
その標本が現に得られているため、帰無仮説が正しいとすると、「今起きている事は極めて珍しい事態である」という事に。
従って、「帰無仮説が正しいとするのは無理がある」となり、「帰無仮説を棄却する」となる。
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
ˆ,
ˆ,
XL
XL
ˆ,XL ̂,XL
7/8/2014 15
5.2 尤度比検定の例題 逸脱度の差を調べる
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 16
種子数データで尤度比検定 [1/2] 用いる統計モデル:
帰無仮説:一定モデル 種子数の平均 が定数であり、体サイズ にも依存しないモデル
傾き 、パラメータ数 k=1
対立仮説:xモデル 種子数の平均 が体サイズ に依存するモデル
傾き 、パラメータ数 k=2
ポアソン回帰の結果
逸脱度の差が4.5程度
但し、パラメータ数が多いモデルの方が常に逸脱度は小さくなる
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
ix21exp
i ix
i ix
02
02
7/8/2014 17
種子数データで尤度比検定 [2/2] 尤度比:
尤度比検定:尤度比の対数にー2をかけた値、即ち、逸脱度の差
一定モデルに比べて、xモデルでは、あてはまりの悪さである逸脱度が4.5改善
尤度比検定では、検定統計量であるこの逸脱度の差が「4.5ぐらいでは改善されていない」と結論付けて良いか否かを調べる
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
1108.02.2exp4.235exp
6.237exp*
2
*
1
モデルの最大尤度:
:一定モデルの最大尤度
xL
L
5.48.4703.475loglog2 *
2
*
12,1 LLD
割と大きいので、帰無仮説 は棄却されない
7/8/2014 18
5.3 2種の過誤と統計学的な検定の非対称性
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
7/8/2014 19
検定における2種類の過誤
第一種の過誤(TypeⅠ Error) データが一定モデルから生成されたのに「逸脱度の差が4.5もあるんだから、xモデル
の方が良い。帰無仮説は正しくない」と判断してしまうなど
第二種の過誤(TypeⅡ Error) データがモデルxから生成されたのに「逸脱度の差が4.5しかないんだからxモデルは
意味もなく複雑、一定モデルで観測されたパターンを説明できるから、帰無仮説は正しい」と判断してしまうなど
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
Neymann-Pearson検定ではこの発生を最小化
False Negative
False Positive
7/8/2014 20
第一種の過誤回避に専念:非対称性 第一種の過誤回避に専念した検定方針
1. 先ず帰無仮説である一定モデルが正しいと仮定
2. 観測データに一定モデルをあてはめると、 となったので、これは真のモデルとほぼ同じと考える
3. この真のモデルからデータを何度も生成し、その度に と
のモデルをあてはめれば、沢山の が得られるので、
の分布が推定可能
4. 上記により一定モデルとxモデルの逸脱度の差が となる確率Pが評価可能となる
この設定のもとで何らかの確率計算と判断によって、 が「ありえない」値だとみなされた場合には、帰無仮説は棄却され、残された対立仮説が実的に採択される。
⇒ このような第一種の過誤の重視は、「検定の非対称性」と呼ばれている。
⇒ 第一種の過誤の確率を最小にした上で、対立仮説のもので検出力を最大に
するのが、Neymann-Pearson検定の基本
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
06.2ˆ1
102 k
202 k2,1D2,1D
5.42,1 D
5.42,1 D
7/8/2014 21
理論的背景に関して
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
尤度比検定の性質として大事なのは、その棄却域が 最尤推定量に基づく両側検定と漸近的に同等である事
7/8/2014 22
参考文献:「自然科学の統計学 (基礎統計学)」
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会
「4.3 データのもつ情報量」「4.4 最尤推定量の最適性」、 「4.5 検定の漸近論」、「6.4 最強力検定」を読むとイイよ!
6.4 最強力検定・ネイマンピアソンの定理
4.3 フィッシャー情報量に関するクラメール・ラオの下限
4.4 最尤推定量の一致性と漸近有効性
4.5 尤度比検定の棄却域が最尤推定量に基づく 両側検定と漸近的に同等
演習6.5 正規分布の平均の検定が一様最強力検定
7/8/2014 23
Thanks a lot!
5th #みどりぼん 「データ解析のための統計モデリング入門」読書会