第5章glmの尤度比検定と検定の非対称性 前編

23
7/8/2014 1 第5章 GLMの尤度比検定と検定の非対称性 5.1~5.3 @tanimocchi 5 th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Upload: tadaaki-tanimoto

Post on 11-Jun-2015

1.577 views

Category:

Data & Analytics


2 download

DESCRIPTION

#みどりぼん

TRANSCRIPT

Page 1: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 1

第5章 GLMの尤度比検定と検定の非対称性

5.1~5.3

@tanimocchi

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 2: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 2

自己紹介 Twitter ID: @tanimocchi

(もっちぃ)

数学科出身、博士(情報科学)

所属:タヒにかけ半導体

仕事:マーケティングなのか?

新規事業開拓なのか? 統計解析は必要! だと信じてる

統数研公開講座には時折参加してますので、ご一緒の際は宜しくお願いします。

アンケート設計・分析にも従事

教科書良くわからなかったので、適当に無視して且つ補足しながら進めさせて頂きます。今回、理論的背景に関しては、参考文献のどこを読めば良いか程度のみをご紹介します。

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 3: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 3

仮説検定のおさらい

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 4: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 4

出典:「統計学入門 (基礎統計学)」

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

「第11章 推定」と「第12章 仮説検定」、及び下記Web資料から 超適当につまんだ感じ ・「最尤法と尤度比検定について」 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf

・「検出力と尤度比検定」 http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf

Page 5: 第5章glmの尤度比検定と検定の非対称性 前編

5

仮説検定の考え方 背理法

論証したい事柄を否定する仮定を行う

仮定から導かれた事柄に、矛盾がある事を示す

仮定が間違っていると結論する

「仮定」→「仮定から導出される事柄は、絶対に起こり得ない」

仮説検定 母集団について述べたい事柄を否定する仮定(仮説)を行う

「仮定が正しい」としたとき、ある統計量の値が「現在観測されている標本から得られる確率が非常に小さい」範囲に入っている事を示す

仮説が間違っていると考えた方が良い、と結論する

「仮定」→「仮定から導かれる値は、得られる可能性が殆どない」

7/8/2014 5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 6: 第5章glmの尤度比検定と検定の非対称性 前編

6

仮説検定の計算手続き 1. 帰無仮説(H0)の設定:棄却される事を前提とした仮説

2. 対立仮説(H1 )の設定:採択される事を前提とした仮説

3. 調査結果の確認:調査から得た標本統計量と標本数を確認

4. 検定統計量Tの計算:条件にあった公式を選んで検定統計量算出

5. 棄却域Rの決定:有意水準、両側・片側検定・自由度などから決定

6. 統計検定量Tと棄却域Rの大小比較

:T≧R⇒棄却、T<R棄却しない

7. 結論を述べる

7/8/2014 5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 7: 第5章glmの尤度比検定と検定の非対称性 前編

7

仮説検定の分類

7/8/2014 5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

検定に用いる分布

σ が既知か、未知でも標本数nが多いとき(ex n≧100) 正規分布σ 未知のとき t分布

σ 1、σ 2が既知のときか、未知でも標本数が多いとき 正規分布σ 1=σ 2で未知のとき t分布σ 1≠σ 2で未知のとき ウェルチの近似

χ ^2分布

F分布

χ ^2分布(K・ピアソン適合基準)

正規分布中心極限定理を用いた検定

分類

母平均の比較値との差の検定

2つの母平均の差の検定

母分散の比較値との差の検定

2つの母母分散の比の検定

適合度の検定(分割表と独立性の検定)

今回は、上記にない「尤度比検定」が対象

Page 8: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 8

5.1 統計学的な検定のわくぐみ

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 9: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 9

統計モデルの検定とモデル選択

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 10: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 10

尤度比検定の考え方

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 11: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 11

出典:下記Web資料

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

下記Web資料から超適当につまんだ感じ ・「最尤法と尤度比検定について」 http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf

・「検出力と尤度比検定」 http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf

Page 12: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 12

尤度関数

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

に注意。ここで、

の最尤推定値きの:帰無仮説が正しいと

:尤度の最大値

の最尤推定量、即ちを最大にする:

とした。の標本の値をここで、サイズ

なる。について求めたものとを各々の確率密度確率

となるが尤度関数は、標本の値各標本は独立なので、

:尤度関数

確率密度である確率の値が   取り出した標本

とき、その母集団からがある値をとっている:ある母数

ˆ,ˆ,

ˆ

ˆ,

,,maxargˆ

,,,

,,,

;;;,

;

2211

111

21

XLXL

XL

XLXL

xXxXxXn

xxx

xfxfxfXL

xX

xf

nn

n

,XL

Page 13: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 13

尤度関数は概ね確率(密度)関数

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

概ね対応。率が大きいという事に尤度関数が大きいと確

う事となり、る確率が高い』」とい『このデータが得られ

のときに比べてのとき、つまり、「

位の確率で得られる    データは 

個当る」という個中割」であれば「「割合が

位の確率で得られる    データは 

個当る」という個中割」であれば「「割合が

位の確率で得られる    データは 

個当る」という個中割」であれば「「割合が

と上記を言葉で解釈する

、尤度関数は、個が当たりだとすると個中

 二項分布の確率関数は

5.0,1.03.0

%7.11

3105:5.0

%7.28

3103:3.0

%7.5

3101:1.0

117.05.05.03,10|5.0:5.0

287.07.03.03,10|3.0:3.0

057.09.01.03,10|1.0:1.0

13,10|310

1,|

73

310

73

310

73

310

73

310

pp

p

p

p

CLp

CLp

CLp

ppCpL

ppCpnxfxnx

xn

Page 14: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 14

尤度比=2つの尤度関数の比 2つの尤度の比

が非常に小さい、即ち「 が に比べて極めて

小さい」ときの意味 帰無仮説が正しいとすると、今得られているような標本が得られる確

率(確率密度)は、帰無仮説を考えないときに比べて極めて小さい

その標本が現に得られているため、帰無仮説が正しいとすると、「今起きている事は極めて珍しい事態である」という事に。

従って、「帰無仮説が正しいとするのは無理がある」となり、「帰無仮説を棄却する」となる。

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

ˆ,

ˆ,

XL

XL

ˆ,XL ̂,XL

Page 15: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 15

5.2 尤度比検定の例題 逸脱度の差を調べる

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 16: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 16

種子数データで尤度比検定 [1/2] 用いる統計モデル:

帰無仮説:一定モデル 種子数の平均 が定数であり、体サイズ にも依存しないモデル

傾き 、パラメータ数 k=1

対立仮説:xモデル 種子数の平均 が体サイズ に依存するモデル

傾き 、パラメータ数 k=2

ポアソン回帰の結果

逸脱度の差が4.5程度

但し、パラメータ数が多いモデルの方が常に逸脱度は小さくなる

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

ix21exp

i ix

i ix

02

02

Page 17: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 17

種子数データで尤度比検定 [2/2] 尤度比:

尤度比検定:尤度比の対数にー2をかけた値、即ち、逸脱度の差

一定モデルに比べて、xモデルでは、あてはまりの悪さである逸脱度が4.5改善

尤度比検定では、検定統計量であるこの逸脱度の差が「4.5ぐらいでは改善されていない」と結論付けて良いか否かを調べる

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

1108.02.2exp4.235exp

6.237exp*

2

*

1

モデルの最大尤度:

:一定モデルの最大尤度

xL

L

5.48.4703.475loglog2 *

2

*

12,1 LLD

割と大きいので、帰無仮説 は棄却されない

Page 18: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 18

5.3 2種の過誤と統計学的な検定の非対称性

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Page 19: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 19

検定における2種類の過誤

第一種の過誤(TypeⅠ Error) データが一定モデルから生成されたのに「逸脱度の差が4.5もあるんだから、xモデル

の方が良い。帰無仮説は正しくない」と判断してしまうなど

第二種の過誤(TypeⅡ Error) データがモデルxから生成されたのに「逸脱度の差が4.5しかないんだからxモデルは

意味もなく複雑、一定モデルで観測されたパターンを説明できるから、帰無仮説は正しい」と判断してしまうなど

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

Neymann-Pearson検定ではこの発生を最小化

False Negative

False Positive

Page 20: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 20

第一種の過誤回避に専念:非対称性 第一種の過誤回避に専念した検定方針

1. 先ず帰無仮説である一定モデルが正しいと仮定

2. 観測データに一定モデルをあてはめると、 となったので、これは真のモデルとほぼ同じと考える

3. この真のモデルからデータを何度も生成し、その度に と

のモデルをあてはめれば、沢山の が得られるので、

の分布が推定可能

4. 上記により一定モデルとxモデルの逸脱度の差が となる確率Pが評価可能となる

この設定のもとで何らかの確率計算と判断によって、 が「ありえない」値だとみなされた場合には、帰無仮説は棄却され、残された対立仮説が実的に採択される。

⇒ このような第一種の過誤の重視は、「検定の非対称性」と呼ばれている。

⇒ 第一種の過誤の確率を最小にした上で、対立仮説のもので検出力を最大に

するのが、Neymann-Pearson検定の基本

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

06.2ˆ1

102 k

202 k2,1D2,1D

5.42,1 D

5.42,1 D

Page 21: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 21

理論的背景に関して

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

尤度比検定の性質として大事なのは、その棄却域が 最尤推定量に基づく両側検定と漸近的に同等である事

Page 22: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 22

参考文献:「自然科学の統計学 (基礎統計学)」

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会

「4.3 データのもつ情報量」「4.4 最尤推定量の最適性」、 「4.5 検定の漸近論」、「6.4 最強力検定」を読むとイイよ!

6.4 最強力検定・ネイマンピアソンの定理

4.3 フィッシャー情報量に関するクラメール・ラオの下限

4.4 最尤推定量の一致性と漸近有効性

4.5 尤度比検定の棄却域が最尤推定量に基づく 両側検定と漸近的に同等

演習6.5 正規分布の平均の検定が一様最強力検定

Page 23: 第5章glmの尤度比検定と検定の非対称性 前編

7/8/2014 23

Thanks a lot!

5th #みどりぼん 「データ解析のための統計モデリング入門」読書会