データ解析のための統計モデリング入門 6.5章 後半

36
データ解析のための 統計モデリング入門 1 2014. 07. 29. 6章後半 @0kayu #みどりぼん

Upload: yurie-oka

Post on 12-Dec-2014

1.727 views

Category:

Science


5 download

DESCRIPTION

#みどりぼん

TRANSCRIPT

Page 1: データ解析のための統計モデリング入門 6.5章 後半

データ解析のための統計モデリング入門

1

2014. 07. 29. 6章後半 @0kayu

#みどりぼん

Page 2: データ解析のための統計モデリング入門 6.5章 後半

japan.R 12.6

自己紹介- @0kayu 岡 - 早稲田大学 M2 機械系 - 研究 機能的脳画像解析 - 来年 アドテク系の会社で働きます - slide http://www.slideshare.net/yurieoka37/65-37454378

Page 3: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

3

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ま  と  め

Page 4: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

4

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ま  と  め

Page 5: データ解析のための統計モデリング入門 6.5章 後半

これまでの線形予測子

6.5 交互作用項

体サイズ 肥料処理+

Page 6: データ解析のための統計モデリング入門 6.5章 後半

交互作用項を追加した線形予測子

!

交互作用項    の考え方 - 植物の体サイズxiと肥料処理の効果fiの「積」の効果

6

6.5 交互作用項

体サイズ 肥料処理+ 交互作用+

肥料処理によって体サイズが変わる

体サイズによって肥料処理の効果が変わる

Page 7: データ解析のための統計モデリング入門 6.5章 後半

7

交互作用項を含めたGLMglm(cbind(y, N-y)~ x * f, family = binomial, data = d)

または glm(cbind(y,N-y)~x + f + x:f, family=binomial, data=d)

Coefficients: (Intercept) x fT x:fT -18.52332 1.85251 -0.06376 0.21634 !Degrees of Freedom: 99 Total (i.e. Null); 96 Residual Null Deviance: 499.2 Residual Deviance: 122.4 AIC: 273.6

Page 8: データ解析のための統計モデリング入門 6.5章 後半

8

交互作用項のあり・なしCoefficients: (Intercept) x fT -19.536 1.952 2.022 !Degrees of Freedom: 99 Total (i.e. Null); 97 Residual Null Deviance: 499.2 Residual Deviance: 123 AIC: 272.2

Coefficients: (Intercept) x fT x:fT -18.52332 1.85251 -0.06376 0.21634 !Degrees of Freedom: 99 Total (i.e. Null); 96 Residual Null Deviance: 499.2 Residual Deviance: 122.4 AIC: 273.6

あり

なし

Page 9: データ解析のための統計モデリング入門 6.5章 後半

9

交互作用項のあり・なし

ありなし

TC C

T

T logit(qi)=--17.5 + 1.95 x

C logit(qi)=-19.5 + 1.95 x C logit(qi)=-18.5 + 1.85 x

T logit(qi)=-18.6 + 2.07 x

Page 10: データ解析のための統計モデリング入門 6.5章 後半

10

交互作用項 β4 の値の比較

β4 (推定値)

TC C

T

C logit(qi)=-18.5 + 1.85 x

T logit(qi)=-18.6 + 2.28 x

β4 (推定値) × 2C logit(qi)=-18.5 + 1.85 x

T logit(qi)=-18.6 + 2.07 x

Page 11: データ解析のための統計モデリング入門 6.5章 後半

交互作用項はむやみにいれない - 変数増える→交互作用項の数増える→組み合せ爆発!

AIC の値が大きくなったとき - 交互作用項を多数含んだ統計モデルのAICが最良 - ? 交互作用の効果を過大推定していないか? - ? 「個体差」「場所差」が大きく影響してないか? ✓ 7章以降の個体差・場所差を考慮したGLMを使う

11

交互作用項の使いかた

Page 12: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

12

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ま  と  め

Page 13: データ解析のための統計モデリング入門 6.5章 後半

13

観測値に対してやりがちなこと

割り算

変数変換

異なる 観測値の平均

Page 14: データ解析のための統計モデリング入門 6.5章 後半

14

観測値に対してやりがちなこと

割り算

変数変換

異なる 観測値の平均

Page 15: データ解析のための統計モデリング入門 6.5章 後半

なぜだめなのか情報が失われる - 例 野球の打率 3割打者 - 1000打数 300 安打 - 10打数 3安打

変換された値の分布… ? - 分子/分母にそれぞれ誤差が入った数量どうしを割り算したとしてその確率分布は… ? ?

15

Page 16: データ解析のための統計モデリング入門 6.5章 後半

割り算が使われがちな場面人口密度を求めたいとき

16

平均個体数 λi面積 Ai

人口密度

Page 17: データ解析のための統計モデリング入門 6.5章 後半

例: 植物の人口密度データ

!

!

!

目的 - 調査地 i における植物個体数の人口密度 が 明るさ xi にどう影響されているか?

17

面積 A

個体数 y

明るさ x

Page 18: データ解析のための統計モデリング入門 6.5章 後半

offset 項

18

×人口密度 =

平均個体数面積人口密度 =

平均個体数は、

人口密度が正 → exp 明るさxiに依存 → βxi

人口密度

人口密度は、

Page 19: データ解析のための統計モデリング入門 6.5章 後半

offset 項

19

exp でまとめて

オフセット項

×人口密度 =平均個体数は、

係数βがつかない項

線形予測子は、

Page 20: データ解析のための統計モデリング入門 6.5章 後半

人口密度のGLM 対数リンク関数 + ポアソン分布 線形予測子

20

glm(y ~ x, offset = log(A), family = poisson, data = d)

面積 A

個体数 y

明るさ x

Page 21: データ解析のための統計モデリング入門 6.5章 後半

結果

21

glm(y ~ x, offset = log(A), family = poisson, data = d)

面積 A

個体数 y

明るさ x

Page 22: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

22

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ま  と  め

Page 23: データ解析のための統計モデリング入門 6.5章 後半

正規分布 (ガウス分布)連続値データのための確率分布 - 平均値 μ (± ∞) - 標準偏差(データのばらつき)σ を指定可能

正規分布の確率密度関数

23

Page 24: データ解析のための統計モデリング入門 6.5章 後半

正規分布 (Rコード)

24

y <- seq(-5, 5, 0.1) mfrow(c(1,3)) plot(y, dnorm(y, mean = 0, sd = 1), type =“l”) plot(y, dnorm(y, mean = 0, sd = 3), type =“l”) plot(y, dnorm(y, mean = 2, sd = 1), type =“l”)

Page 25: データ解析のための統計モデリング入門 6.5章 後半

正規分布の確率

25

> pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1) [1] 0.07914 ! > dnorm(1.5, 0, 1) * 0.6 [1] 0.07771

確率 = 確率密度関数 × Δy

Page 26: データ解析のための統計モデリング入門 6.5章 後半

最尤推定yi が,        である確率は、

26

Page 27: データ解析のための統計モデリング入門 6.5章 後半

最尤推定対数尤度は

!

!

連続分布ではσが小さいとき等に、対数尤度が正の値になったり、AICや逸脱度が負の値になる場合がある

27

Page 28: データ解析のための統計モデリング入門 6.5章 後半

最小二乗法と最尤推定最小二乗法ではσ=1としているので、第一項が定数に

28

✓ 最小二乗法と一致

Page 29: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

29

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ま  と  め

Page 30: データ解析のための統計モデリング入門 6.5章 後半

ガンマ分布確率変数が0以上の連続確率分布 - 確率密度関数

30

Page 31: データ解析のための統計モデリング入門 6.5章 後半

例 花と葉っぱ花の重量 yi と葉の重量 xi の関係 - 花の重量 yi が平均 μi のガンマ分布に従うとする

平均花重量μi のモデル - 葉重量x_i の単調増加関数

31

Page 32: データ解析のための統計モデリング入門 6.5章 後半

線形予測子平均花重量

!

右辺で、A=exp(a) として

!

対数をとって

32

Page 33: データ解析のための統計モデリング入門 6.5章 後半

ガンマ分布のGLM 対数リンク関数 + ガンマ分布 線形予測子

33

glm(y ~ log(x), family = Gamma(link=“log”),data = d)

Coefficients: (Intercept) log(x) -1.0403 0.6833 !Degrees of Freedom: 49 Total (i.e. Null); 48 Residual Null Deviance: 35.37 Residual Deviance: 17.25 AIC: -110.9

Page 34: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

34

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ま  と  め

Page 35: データ解析のための統計モデリング入門 6.5章 後半

6章 GLMの応用範囲 後半

35

章 適用例 確率分布 リンク関数 ポイント

前半 生存確率の予測 二項分布 logit

6.5 生存確率の予測 二項分布 logit 交互作用項

6.6 人口密度の予測 ポアソン 対数リンク オフセット

6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定

6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい

6.9 ↑ この表 ↑

Page 36: データ解析のための統計モデリング入門 6.5章 後半

おわり。