第5章glmの尤度比検定と検定の非対称性前編

7/8/2014 1

第5章 GLMの尤度比検定と検定の非対称性

5.1～5.3

@tanimocchi

5th #みどりぼん「データ解析のための統計モデリング入門」読書会

7/8/2014 2

自己紹介 Twitter ID： @tanimocchi

（もっちぃ）

数学科出身、博士（情報科学）

所属：ﾀﾋにかけ半導体

仕事：マーケティングなのか？

新規事業開拓なのか？統計解析は必要！だと信じてる

統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。

アンケート設計・分析にも従事

教科書良くわからなかったので、適当に無視して且つ補足しながら進めさせて頂きます。今回、理論的背景に関しては、参考文献のどこを読めば良いか程度のみをご紹介します。


7/8/2014 3

仮説検定のおさらい


7/8/2014 4

出典：「統計学入門 (基礎統計学)」


「第11章推定」と「第12章仮説検定」、及び下記Web資料から超適当につまんだ感じ・「最尤法と尤度比検定について」 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf

・「検出力と尤度比検定」 http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf

http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf



http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf

5

仮説検定の考え方背理法

論証したい事柄を否定する仮定を行う

仮定から導かれた事柄に、矛盾がある事を示す

仮定が間違っていると結論する

「仮定」→「仮定から導出される事柄は、絶対に起こり得ない」

仮説検定母集団について述べたい事柄を否定する仮定（仮説）を行う

「仮定が正しい」としたとき、ある統計量の値が「現在観測されている標本から得られる確率が非常に小さい」範囲に入っている事を示す

仮説が間違っていると考えた方が良い、と結論する

「仮定」→「仮定から導かれる値は、得られる可能性が殆どない」

7/8/2014 5th #みどりぼん「データ解析のための統計モデリング入門」読書会

6

仮説検定の計算手続き 1. 帰無仮説（H0）の設定：棄却される事を前提とした仮説

2. 対立仮説（H1 ）の設定：採択される事を前提とした仮説

3. 調査結果の確認：調査から得た標本統計量と標本数を確認

4. 検定統計量Tの計算：条件にあった公式を選んで検定統計量算出

5. 棄却域Rの決定：有意水準、両側・片側検定・自由度などから決定

6. 統計検定量Tと棄却域Rの大小比較

：T≧R⇒棄却、T<R棄却しない

7. 結論を述べる


7

仮説検定の分類


検定に用いる分布

σ が既知か、未知でも標本数nが多いとき（ex n≧100）正規分布σ 未知のとき t分布

σ 1、σ 2が既知のときか、未知でも標本数が多いとき正規分布σ 1＝σ 2で未知のとき t分布σ 1≠σ 2で未知のときウェルチの近似

χ ^2分布

F分布

χ ^2分布(K・ピアソン適合基準)

正規分布中心極限定理を用いた検定

分類

母平均の比較値との差の検定

2つの母平均の差の検定

母分散の比較値との差の検定

2つの母母分散の比の検定

適合度の検定（分割表と独立性の検定）

今回は、上記にない「尤度比検定」が対象

7/8/2014 8

5.1 統計学的な検定のわくぐみ


7/8/2014 9

統計モデルの検定とモデル選択


7/8/2014 10

尤度比検定の考え方


7/8/2014 11

出典：下記Web資料


下記Web資料から超適当につまんだ感じ・「最尤法と尤度比検定について」 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf

・「検出力と尤度比検定」 http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf




http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf

7/8/2014 12

尤度関数


に注意。ここで、

の最尤推定値きの：帰無仮説が正しいと

：尤度の最大値

の最尤推定量、即ちを最大にする：

とした。の標本の値をここで、サイズ

なる。について求めたものとを各々の確率密度確率

となるが尤度関数は、標本の値各標本は独立なので、

：尤度関数

確率密度である確率の値が　　　取り出した標本

とき、その母集団からがある値をとっている：ある母数

ˆ,ˆ,

ˆ

ˆ,

,,maxargˆ

,,,

,,,

;;;,

;

2211

111

21

XLXL

XL

XLXL

xXxXxXn

xxx

xfxfxfXL

xX

xf

nn

n

,XL

7/8/2014 13

尤度関数は概ね確率（密度）関数


概ね対応。率が大きいという事に尤度関数が大きいと確

う事となり、る確率が高い』」とい『このデータが得られ

のときに比べてのとき、つまり、「

位の確率で得られる　　　　データは　

個当る」という個中割」であれば「「割合が





と上記を言葉で解釈する

、尤度関数は、個が当たりだとすると個中

　二項分布の確率関数は

5.0,1.03.0

%7.11

3105:5.0

%7.28

3103:3.0

%7.5

3101:1.0

117.05.05.03,10|5.0:5.0

287.07.03.03,10|3.0:3.0

057.09.01.03,10|1.0:1.0

13,10|310

1,|

73

310

73

310

73

310

73

310

pp

p

p

p

CLp

CLp

CLp

ppCpL

ppCpnxfxnx

xn

7/8/2014 14

尤度比＝２つの尤度関数の比２つの尤度の比

が非常に小さい、即ち「がに比べて極めて

小さい」ときの意味帰無仮説が正しいとすると、今得られているような標本が得られる確

率（確率密度）は、帰無仮説を考えないときに比べて極めて小さい

その標本が現に得られているため、帰無仮説が正しいとすると、「今起きている事は極めて珍しい事態である」という事に。

従って、「帰無仮説が正しいとするのは無理がある」となり、「帰無仮説を棄却する」となる。


ˆ,

ˆ,

XL

XL

ˆ,XL ̂,XL

7/8/2014 15

5.2 尤度比検定の例題逸脱度の差を調べる


7/8/2014 16

種子数データで尤度比検定 [1/2] 用いる統計モデル：

帰無仮説：一定モデル種子数の平均が定数であり、体サイズにも依存しないモデル

傾き、パラメータ数 k=1

対立仮説：ｘモデル種子数の平均が体サイズに依存するモデル

傾き、パラメータ数 k=2

ポアソン回帰の結果

逸脱度の差が4.5程度

但し、パラメータ数が多いモデルの方が常に逸脱度は小さくなる


ix21exp

i ix

i ix

02

02

7/8/2014 17

種子数データで尤度比検定 [2/2] 尤度比：

尤度比検定：尤度比の対数にー２をかけた値、即ち、逸脱度の差

一定モデルに比べて、ｘモデルでは、あてはまりの悪さである逸脱度が4.5改善

尤度比検定では、検定統計量であるこの逸脱度の差が「4.5ぐらいでは改善されていない」と結論付けて良いか否かを調べる


1108.02.2exp4.235exp

6.237exp*

2

*

1

モデルの最大尤度：

：一定モデルの最大尤度

xL

L

5.48.4703.475loglog2 *

2

*

12,1 LLD

割と大きいので、帰無仮説は棄却されない

7/8/2014 18

5.3 2種の過誤と統計学的な検定の非対称性


7/8/2014 19

検定における2種類の過誤

第一種の過誤（TypeⅠ Error）データが一定モデルから生成されたのに「逸脱度の差が4.5もあるんだから、xモデル

の方が良い。帰無仮説は正しくない」と判断してしまうなど

第二種の過誤（TypeⅡ Error）データがモデルｘから生成されたのに「逸脱度の差が4.5しかないんだからxモデルは

意味もなく複雑、一定モデルで観測されたパターンを説明できるから、帰無仮説は正しい」と判断してしまうなど


Neymann-Pearson検定ではこの発生を最小化

False Negative

False Positive

7/8/2014 20

第一種の過誤回避に専念：非対称性第一種の過誤回避に専念した検定方針

1. 先ず帰無仮説である一定モデルが正しいと仮定

2. 観測データに一定モデルをあてはめると、となったので、これは真のモデルとほぼ同じと考える

3. この真のモデルからデータを何度も生成し、その度にと

のモデルをあてはめれば、沢山のが得られるので、

の分布が推定可能

4. 上記により一定モデルとｘモデルの逸脱度の差がとなる確率Pが評価可能となる

この設定のもとで何らかの確率計算と判断によって、が「ありえない」値だとみなされた場合には、帰無仮説は棄却され、残された対立仮説が実的に採択される。

⇒ このような第一種の過誤の重視は、「検定の非対称性」と呼ばれている。

⇒ 第一種の過誤の確率を最小にした上で、対立仮説のもので検出力を最大に

するのが、Neymann-Pearson検定の基本


06.2ˆ1

102 k

202 k2,1D2,1D

5.42,1 D

5.42,1 D

7/8/2014 21

理論的背景に関して


尤度比検定の性質として大事なのは、その棄却域が最尤推定量に基づく両側検定と漸近的に同等である事

7/8/2014 22

参考文献：「自然科学の統計学 (基礎統計学)」


「4.3 データのもつ情報量」「4.4 最尤推定量の最適性」、「4.5 検定の漸近論」、「6.4 最強力検定」を読むとイイよ！

6.4 最強力検定・ネイマンピアソンの定理

4.3 フィッシャー情報量に関するクラメール・ラオの下限

4.4 最尤推定量の一致性と漸近有効性

4.5 尤度比検定の棄却域が最尤推定量に基づく両側検定と漸近的に同等

演習6.5 正規分布の平均の検定が一様最強力検定

7/8/2014 23

Thanks a lot!


第5章glmの尤度比検定と検定の非対称性 前編

Data & Analytics

第5章glmの尤度比検定と検定の非対称性前編