0712-1

18
最尤推定法と⼀般化線形モデル 1 授業振替 (休講⽇)7⽉19⽇(⽕) 2限 (11:10-12:40) (振替⽇)7⽉12⽇(⽕)5限 (16:40-18:10) http://www.slideshare.net/ShinjiNakaoka 授業レクチャーノート 授業1つ前に事前公開予定、授業後、追加スライド挿⼊、誤植など 訂正分を再アップロード

Upload: lecture-slides

Post on 12-Jan-2017

118 views

Category:

Education


1 download

TRANSCRIPT

Page 1: 0712-1

最尤推定法と⼀般化線形モデル

1

授業振替(休講⽇)7⽉19⽇(⽕) 2限 (11:10-12:40)(振替⽇)7⽉12⽇(⽕)5限 (16:40-18:10)

http://www.slideshare.net/ShinjiNakaoka

授業レクチャーノート

授業1つ前に事前公開予定、授業後、追加スライド挿⼊、誤植など訂正分を再アップロード

Page 2: 0712-1

さまざまな分布

2

Poisson 分布Poisson 分布の確率関数は

⼆項分布の極限として導出

平均・分散:(平均・分散が等しくパラメーターに⼀致)

参考:確率モデル⼊⾨ 尾崎俊治著 朝倉書店 P.23-27

Page 3: 0712-1

最尤推定法 (Maximum likelihood method)

3

データを図⽰してみると…

課題に⽤いるデータ: ある植物個体から取られた種⼦数 (page 17)

図とデータの要約統計量、データそのものの種類 (質的、連続、離散 etc) から、適切な確率分布を当てはめる。

種⼦数 (カウントデータ) のあてはめには、Poisson 分布や⼆項分布、負の⼆項分布といった離散確率分布が⽤いられる。

横軸は種⼦数、縦軸はある植物の個体数 (全個体数 50)

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 13-17

Page 4: 0712-1

最尤推定法

4

確率分布

Poisson 分布の当てはめ

観測されるデータの平均と分散が等しいとき、Poisson 分布を仮定してデータの当てはめを⾏う。

パラメーター λ の値は、データから推定する。どうすれば良い?

平均 = 分散 = λ

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 24-30

Page 5: 0712-1

最尤推定法

5

最尤推定法・・・「あてはまりの良さ」を表す統計量である尤度を最⼤にするパラメーターを選ぶ⽅法

なぜ尤度が“当てはまりの良さ”の指標とみなせるのかどうかは、情報統計学における理論や情報量と密接に関係している。今回は割愛する。

尤度は、あるパラメーターを決めた場合に全ての個体(種⼦数)が得られる確率の積で表される (パラメーターの関数):

λ=2.0 λ=5.0Poisson 分布の場合、確率は平均値でピークを取るので、推定値がデータの標本平均あたりにくると尤度も⼤きそうと予想される。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 24-30

Page 6: 0712-1

最尤推定法

6

積よりも和の⽅が扱いやすく、最⼤値を取る値に変化はないので、通常は対数をとった対数尤度 (log-likelihood) が計算に⽤いられる。

尤度の微分を計算し、極⼤値をとる λを求める。

Poisson 分布の場合、

は解析的に求めることができる (右図参照)

標本平均が尤度を最⼤化するパラメーターの値となる (最尤推定量)。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 24-30

Page 7: 0712-1

最尤推定法

7

[離散分布の場合] ⼀般に

尤度

対数尤度

最尤推定量

解析的にも⽌まらないことも多いので、数値計算によって求める場合が多い。元となるデータが変われば、最尤推定量も変化する。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 24-30

Page 8: 0712-1

最尤推定法

8

推定の模式図

データが与えられたとき、データへの当てはまりの良さを表す尤度が最⼤となる確率分布を推定する (最尤推定)。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 30-34

⼈間にはわからない真の統計モデル(⾃然界など現実の対象)

データサンプル

観測データ

統計モデル

パラメーター推定

Page 9: 0712-1

最尤推定法

9

予測の模式図

データが与えられたとき、データへの当てはまりの良さを表す尤度が最⼤となる確率分布からサンプリングすることで、もし仮想的に更なるデータが得られた場合にそのデータが取りうるであろう予測を最⼤化できる。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 30-34

⼈間にはわからない真の統計モデル(⾃然界など現実の対象)

新しいデータのサンプル

統計モデル(パラメーター推定済み)

予測

Page 10: 0712-1

⼀般化線形モデル(Generalized Linear Model)

10

データが何らかの因⼦の影響下で⽣成されていると仮定

実際は? 体サイズや堆肥の有無の影響を組み込んだモデルを考える。

まずはデータを可視化

[前提] 体サイズ (横軸) が計測されていて、堆肥の有無(T=yes, C=no) もわかっているとする。

右上がり傾向のため、体サイズは多少影響するも、堆肥の影響はないようにみえる。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 39-46

Page 11: 0712-1

⼀般化線形モデル

11

今回の例題に則した解釈

体サイズのような量的変数は係数をかけ、堆肥の有無は堆肥ありを1,堆肥なしを0とする係数をかけて線形関係を表す。

線形性はパラメーター β に関して成⽴していればよく、たとえば耐サイズと堆肥の積に影響するような場合(交互作⽤と呼ぶ)等も線形モデルとして取り扱う。

の形式でモデリングした場合、⼀般化加法モデルと呼ばれる。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 47-54

Page 12: 0712-1

⼀般化線形モデル

12

線形予測⼦とリンク関数 (Poisson 分布)まずは体サイズの影響のみ考慮したモデリングを⾏う。種⼦数の平均は個体毎に異なる (体サイズに依存) と仮定したため

今回は f の関数形を以下のように定める:

線形予測⼦

リンク関数

両辺 log をとると線形予測⼦に対してパラメーターが log になるので、log リンク関数がよく⽤いられる。そうすると各線形項の効果が積で表される。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 47-54

Page 13: 0712-1

⼀般化線形モデル

13

最尤推定法の適⽤ (Poisson 分布)対数尤度関数は以下のようにかける:

パラメーター β1, β2 に関する⾮線形関数なので、最尤推定量は最適化問題を数値計算で解くことにより求める。R 内では

fit<- glm(y~x,data=d,family=poisson)

パラメーターの推定値は

⽅法は堆肥の有無でも同じ。C or T は R において因⼦型変数にしておく。リンク関数の選び⽅によって推定結果も変わる。

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 47-54

Page 14: 0712-1

⼀般化線形モデル

14

予測結果 Predict(fit)直線に⾒えるが実際には指数関数(曲線)

参考:データ解析のための統計モデリング⼊⾨ 久保拓弥著 P. 47-54

Page 15: 0712-1

⼀般化線形モデル

15

理論

⼀般化線形モデル⼊⾨ 原著第2版 Annette J.Dobson 著

線形回帰 (最⼩⼆乗法との関連は後ほど解説) が出発点

歴史的には、連続的な反応変数と複数個の説明変数の関係 (重回帰) や 3つ以上の平均値の⽐較 (分散分析) もこの形式に含まれるように発展してきた。

更なる拡張が可能!(⼀般化線形モデル)指数型分布族も同形式で記述可能

⾮線形関数 (リンク関数)も導⼊可能

Page 16: 0712-1

⼀般化線形モデル

16

指数型分布族の対応表

平均、分散の計算や最尤推定法を数値的に実⾏するための理論と数値計算パッケージが整備済み (R glm() など)

⼀般化線形モデル⼊⾨ 原著第2版 Annette J.Dobson 著

分布 自然パラメーター c d

Poisson分布

正規分布

二項分布

Page 17: 0712-1
Page 18: 0712-1

Memo

18