統計モデリング 第三回 配布資料 - osaka...

23
20154月28日@統計モデリング 担当:田中冬彦 統計モデリング 第三回 配布資料 文献: A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models. 3rd ed., CRC Press. J. J. Faraway: Extending the Linear Model with R. CRC Press. 配布資料のPDFは以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8

Upload: others

Post on 13-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

2015年4月28日@統計モデリング

担当:田中冬彦

統計モデリング 第三回 配布資料

文献: A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models. 3rd ed., CRC Press. J. J. Faraway: Extending the Linear Model with R. CRC Press.

配布資料のPDFは以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8

Page 2: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

Chap. 3: データは主にFarawayから

Google map から転載

Page 3: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

Google map から転載

Location

Page 4: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

生データ(数値と記号のられつ)

> galapagos NS ES Area Anear Dist DistSC Elevation EM Baltra 58 23 25.09 1.84 0.6 0.6 NA 0 Bartolome 31 21 1.24 572.33 0.6 26.3 109 1 Caldwell 3 3 0.21 0.78 2.8 58.7 114 1 Champion 25 9 0.10 0.18 1.9 47.4 46 1 Coamano 2 1 0.05 903.82 1.9 1.9 NA 0 Daphne_Major 18 11 0.34 1.84 8.0 8.0 NA 0 Darwin 10 7 2.33 2.85 34.1 290.2 168 1 Eden 8 4 0.03 17.95 0.4 0.4 NA 0 Enderby 2 2 0.18 0.10 2.6 50.2 112 1 Espanola 97 26 58.27 0.57 1.1 88.3 198 1 Fernandina 93 35 634.49 4669.32 4.3 95.3 1494 1 Gardner1 58 17 0.57 58.27 1.1 93.1 49 1 Gardner2 5 4 0.78 0.21 4.6 62.2 227 1 Genovesa 40 19 17.35 129.49 47.4 92.2 76 1 Isabela 347 89 4669.32 634.49 0.7 28.1 1707 1

Marchena 51 23 129.49 59.56 29.1 85.9 343 1 Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49 29.1 119.6 777 1 Pinzon 108 33 17.95 0.03 10.7 10.7 458 1 Las_Plazas 12 9 0.23 25.09 0.5 0.6 NA 0 Rabida 70 30 4.89 572.33 4.4 24.4 367 1 San_Cristobal 280 65 551.62 0.57 45.2 66.5 716 1 San_Salvador 237 81 572.33 4.89 0.2 19.8 906 1 Santa_Cruz 444 95 903.82 0.52 0.6 0.0 864 1 Santa_Fe 62 28 24.08 0.52 16.5 16.5 259 1 Santa_Maria 285 73 170.92 0.10 2.6 49.2 640 1 Seymour 44 16 1.84 25.09 0.6 9.6 NA 0 Tortuga 16 8 1.24 17.95 6.8 50.9 186 1 Wolf 21 12 2.85 2.33 34.1 254.7 253 1

CRAN alr3 パッケージ内, galapagos データセット alr3 は, S. Weisberg による.

Given Data (1/2)

Page 5: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

データの説明

NS=Number of species, 島で観測された亀の種類 Area= 島の面積 [hr], Anear = 一番近い島の面積 [hr], Dist= 一番近い島との距離 [km], DistSC=Santa Cruz島からの距離 [km], Elevation = 島の高度 [m]

galapagos 各島ごとの亀の種類(サンプルサイズ 29)、島の地理情報

データの図示 (重要!)

・見てわかること ・定量的な確認

Given Data (2/2)

> galapagos NS Area Anear Dist DistSC Elevation Baltra 58 25. 09 1.84 0.6 0.6 NA Bartolome 31 1.24 572.33 0.6 26.3 109 Caldwell 3 0.21 0.78 2.8 58.7 114

Page 6: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

散布図

> pairs(gala.cor); NS

0 2000 4000 0 500 1500

010

030

0

020

0040

00

Area

Dist

010

2030

40

0 100 300

050

015

00

0 10 20 30 40

Eleva

はずれ値? 散布図をみると、Areaでひとつでかいのが目立つ

→ Isabera island

散布図

Page 7: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

Chap. 3: データは主にFarawayから

Google map から転載

面積 (Area) の、はずれ値!

Page 8: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

データの説明

gala.test = galapagos データの一部を削除 (説明の都合)

Processed Data

> gala.test NS Area Anear Dist DistSC Elevation Bartolome 31 1.24 572.33 0.6 26.3 109 Caldwell 3 0.21 0.78 2.8 58.7 114 Champion 25 0.10 0.18 1.9 47.4 46 .... Santa_Maria 285 170.92 0.10 2.6 49.2 640 Tortuga 16 1.24 17.95 6.8 50.9 186 Wolf 21 2.85 2.33 34.1 254.7 253

分析の課題

島ごとの亀の種類を説明する統計モデルを考える(まずは線形モデルで)

NS=Number of species, 島で観測された亀の種類 Area= 島の面積 [hr], Anear = 一番近い島の面積 [hr], Dist= 一番近い島との距離 [km], DistSC=Santa Cruz島からの距離 [km], Elevation = 島の高度 [m]

Page 9: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

線形モデルでむりやり解析

線形回帰 > gala.lm.res <- lm(NS~. , data=gala.test);

線形回帰モデル

),0(~ 2σε Niij

ijji xY εβα ++= ∑=

5

1

あてはめた値(Fitted Value)

∑=

+=5

1

ˆˆˆj

ijji xy βα

,290.0ˆ,0667.0ˆ,285.0ˆ,6.29ˆ 321 −=−=== βββα

144.0ˆ,133.0ˆ54 =−= ββ

Page 10: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

線形モデルでの残差プロット

あてはめた値(Fitted Value)

残差 (Residuals)

ii yy ˆ−

∑=

+=5

1

ˆˆˆj

ijji xy βα

モデルが正しいなら, 残差は平均0、分散一定の正規分布から発生しているようにみえるはずだが・・・

回帰式は6次元なので図示できない → 残差プロットでモデルのよさを検討

yy ˆ−

y0 100 200 300 400

-50

050

100

Galapagos Tortoise

Fitted

Res

idua

ls> plot(predict(gala.lm.res), residuals(gala.lm.res), xlab="Fitted", ylab="Residuals", main="Galapagos Tortoise" ); > abline(h=0, col="red");

Page 11: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

問題点

NS=Number of species, 島で観測された亀の種類 → 離散値 (Categorical Data)

一般化線形モデルの導入

分析の課題

線形モデルよりもよいモデルを考える

残差分析の結果 → 分散が一定とはいいがたい(モデルが不適切であることを示唆)

* 一般にAICや検定統計量の計算以前に残差はチェック(相関, 等分散 etc.) Remark

Page 12: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

ポアソン回帰モデル(1/2)

一般のポアソン回帰モデル

∑=

=p

jijji x

1log βµiiY µ=][E

)(~ ii PoY µ

説明変数の意味

ni ,,1=

1,0=jx (男・女, 喫煙・喫煙なし, etc.)

jexx

j

j β

µµ

==

=

)0()1(

説明変数が連続量でも同様に β を解釈できる.

他の条件が同じ場合

Page 13: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

ポアソン回帰モデルでの解析例 > gala.glm.res <- glm(NS~. , family=poisson, data=gala.test);

ポアソン回帰モデル

∑=

+=5

1log

jijji xβαµiiY µ=][E

)(~ ii PoY µ

あてはめた値(Fitted Value)

∑=

+=5

1

ˆˆˆlogj

ijji xβαµ

,1000.7ˆ,1026.5ˆ,1026.5ˆ,48.3ˆ 33

42

41

−−− ×=×−=×== βββα3

53

4 1041.2ˆ,1055.4ˆ −− ×=×−= ββ

ポアソン回帰モデル(2/2)

Page 14: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

ポアソン回帰の残差プロット(1/3)

残差 (*いくつかある)

そのままのスケールだと, 左によってしまっている → log (mu) を横軸にとって残差プロットする

µ

> plot(predict(gala.glm.res, type="response"), residuals(gala.glm.res), xlab=expression(hat(mu)), ylab="Deviance Residuals", main="Galapagos Tortoise"); >

Deviance residuals (スケーリングされた残差の一種)

)ˆˆ/log(2)ˆ,( iiiiiiii yyyydd µµµ +−==

iiiDR dysignr )ˆ( µ−=

100 200 300 400

-50

510

Galapagos Tortoise

Dev

ianc

e R

esid

uals

Page 15: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

残差 (*いくつかある)

特徴的なパターンは見つからない

> plot(predict(gala.glm.res, type=“link"), residuals(gala.glm.res), xlab=expression(hat(log(mu))), ylab="Deviance Residuals", main="Galapagos Tortoise"); >

Deviance residuals

)ˆˆ/log(2)ˆ,( iiiiiiii yyyydd µµµ +−==

iiiDR dysignr )ˆ( µ−=

3.0 3.5 4.0 4.5 5.0 5.5 6.0

-50

510

Galapagos Tortoise

log^

Dev

ianc

e R

esid

uals

ポアソン回帰の残差プロット(2/3)

Page 16: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

残差 (*いくつかある)

>plot(predict(gala.glm.res, type="link"), residuals(gala.glm.res, type="response"), xlab=expression(hat(log(mu))), ylab="Response Residuals", main="Galapagos Tortoise");

Response residuals

iiRR yr µ−=

3.0 3.5 4.0 4.5 5.0 5.5 6.0

-100

-50

050

100

150

Galapagos Tortoise

log^

Res

pons

e R

esid

uals

+== ∑=

5

1exp)(Var

jjijiii xY βαµ

ポアソン分布の分散

ポアソン回帰の残差プロット(3/3)

実はもっと良いモデルが作れる(詳細は Faraway Chap.3, Chap.6 を参照)

Page 17: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

ポアソン回帰の注意点

しかし, 実際のデータは分散が大きくみえる → 負の二項分布 でモデル化できる

本来, ポアソン分布は期待値と分散は一致

Offset

Overdispersion

iii YY µ== ][E)(Var

例:各地区ごとに人口( )が違う場合の患者数 iY

+=

= ∑∑==

p

jijji

p

jijjii xNxN

11logexpexp ββµ

というモデル化をする

iN

offset term (known constant)

*詳細は文献を参照

Page 18: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

一般化線形モデル

Page 19: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

多くの確率分布が指数型分布族になっている.

Yの確率密度関数(もしくは確率分布)が以下の形でかける時、(1変数の)指数型分布族 (Exponential Family)という.

Exponential Family (1/2)

))()(exp()()()|( θθθ byatysyp =))()()()(exp( ydcbya ++= θθ

Y 確率変数 ),,( 1 pθθθ = パラメータ

Canonical form

))(exp()()(~)|( θθθ bztzszp =Natural Parameter

)(: θη b=

0)(,0)( >> θtys

Page 20: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

))()(exp()()()|( θθθ byatysyp =))()()()(exp( ydcbya ++= θθ

例: )1,(N m2)(

21

21)|(

mxemxp

−−=

π

平均 m, 分散 の正規分布(ガウス 分布) 12 =σ

−−−= )2log(

21

22exp

22

πµxxm

二項分布 (n回の試行, nは固定) nx ,,2,1,0 =

xnx qqxn

qxp −−

= )1()|(

⋅⋅−

=

qqxq

xn n

1logexp)1(

Exponential Family (2/2)

Page 21: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

GLMでは共変量(説明変数)で以下を仮定

各々, 同じ指数型分布族に従うとき(1変数の)一般化線形モデル(Generalized Linear Models; GLM)という.

Generalized Linear Models (1/2)

))()()(exp()|( iiiiii ydcbyyp ++= θθθ

nYY ,,1 独立な確率変数

ここで興味あるパラメータは

++= ∑∑∑∏====

n

ii

n

ii

n

iii

n

iii ydcbyyp

1111

)()()(exp)|( θθθ

iiY µ=][E

∑=

=p

jijji xg

1)( βµ )(µg link function (リンク関数)

Page 22: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

以下を仮定

Generalized Linear Models (2/2)

ii

ey

ypi

yi

iiµµµ −=

!)()|(

ポアソン回帰の例

ここで興味あるパラメータは iiY µ=][E

∑=

=p

jijji x

1)log( βµ

以下の対数尤度関数を について数値最大化(最尤推定)

∑∑∑∑====

−+−=n

ii

n

iii

n

ii

n

iii yyyp

1111!loglog)|(log µµµ

pββ ,,1

※GLMではプログラムによる数値解法が前提になっている

ni ,,2,1 =

Page 23: 統計モデリング 第三回 配布資料 - Osaka Universitybayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/2015...Onslow 2 2 0.01 0.10 3.3 45.9 25 1 Pinta 104 37 59.56 129.49

統計モデリング~次回予告

※成虫 (Schistosoma japonicum)の写真は 日本住血吸虫で検索してください【閲覧注意】

Schistosoma japonicumの卵(*)

*http://www.dpd.cdc.gov/dpdx/HTML/Schistosomiasis.htm

Schistosoma japonicumの成虫(イメージイラスト)