データ解析のための統計モデリング入門 6.5章 後半
DESCRIPTION
#みどりぼんTRANSCRIPT
データ解析のための統計モデリング入門
1
2014. 07. 29. 6章後半 @0kayu
#みどりぼん
japan.R 12.6
自己紹介- @0kayu 岡 - 早稲田大学 M2 機械系 - 研究 機能的脳画像解析 - 来年 アドテク系の会社で働きます - slide http://www.slideshare.net/yurieoka37/65-37454378
6章 GLMの応用範囲 後半
3
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ま と め
6章 GLMの応用範囲 後半
4
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ま と め
これまでの線形予測子
6.5 交互作用項
体サイズ 肥料処理+
交互作用項を追加した線形予測子
!
交互作用項 の考え方 - 植物の体サイズxiと肥料処理の効果fiの「積」の効果
6
6.5 交互作用項
体サイズ 肥料処理+ 交互作用+
肥料処理によって体サイズが変わる
体サイズによって肥料処理の効果が変わる
7
交互作用項を含めたGLMglm(cbind(y, N-y)~ x * f, family = binomial, data = d)
または glm(cbind(y,N-y)~x + f + x:f, family=binomial, data=d)
Coefficients: (Intercept) x fT x:fT -18.52332 1.85251 -0.06376 0.21634 !Degrees of Freedom: 99 Total (i.e. Null); 96 Residual Null Deviance: 499.2 Residual Deviance: 122.4 AIC: 273.6
8
交互作用項のあり・なしCoefficients: (Intercept) x fT -19.536 1.952 2.022 !Degrees of Freedom: 99 Total (i.e. Null); 97 Residual Null Deviance: 499.2 Residual Deviance: 123 AIC: 272.2
Coefficients: (Intercept) x fT x:fT -18.52332 1.85251 -0.06376 0.21634 !Degrees of Freedom: 99 Total (i.e. Null); 96 Residual Null Deviance: 499.2 Residual Deviance: 122.4 AIC: 273.6
あり
なし
9
交互作用項のあり・なし
ありなし
TC C
T
T logit(qi)=--17.5 + 1.95 x
C logit(qi)=-19.5 + 1.95 x C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.07 x
10
交互作用項 β4 の値の比較
β4 (推定値)
TC C
T
C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.28 x
β4 (推定値) × 2C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.07 x
交互作用項はむやみにいれない - 変数増える→交互作用項の数増える→組み合せ爆発!
AIC の値が大きくなったとき - 交互作用項を多数含んだ統計モデルのAICが最良 - ? 交互作用の効果を過大推定していないか? - ? 「個体差」「場所差」が大きく影響してないか? ✓ 7章以降の個体差・場所差を考慮したGLMを使う
11
交互作用項の使いかた
6章 GLMの応用範囲 後半
12
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ま と め
13
観測値に対してやりがちなこと
割り算
変数変換
異なる 観測値の平均
14
観測値に対してやりがちなこと
割り算
変数変換
異なる 観測値の平均
なぜだめなのか情報が失われる - 例 野球の打率 3割打者 - 1000打数 300 安打 - 10打数 3安打
変換された値の分布… ? - 分子/分母にそれぞれ誤差が入った数量どうしを割り算したとしてその確率分布は… ? ?
15
割り算が使われがちな場面人口密度を求めたいとき
16
平均個体数 λi面積 Ai
人口密度
例: 植物の人口密度データ
!
!
!
目的 - 調査地 i における植物個体数の人口密度 が 明るさ xi にどう影響されているか?
17
面積 A
個体数 y
明るさ x
offset 項
18
×人口密度 =
平均個体数面積人口密度 =
平均個体数は、
人口密度が正 → exp 明るさxiに依存 → βxi
人口密度
人口密度は、
offset 項
19
exp でまとめて
オフセット項
×人口密度 =平均個体数は、
係数βがつかない項
線形予測子は、
人口密度のGLM 対数リンク関数 + ポアソン分布 線形予測子
20
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数 y
明るさ x
結果
21
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数 y
明るさ x
6章 GLMの応用範囲 後半
22
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶ 連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ま と め
正規分布 (ガウス分布)連続値データのための確率分布 - 平均値 μ (± ∞) - 標準偏差(データのばらつき)σ を指定可能
正規分布の確率密度関数
23
正規分布 (Rコード)
24
y <- seq(-5, 5, 0.1) mfrow(c(1,3)) plot(y, dnorm(y, mean = 0, sd = 1), type =“l”) plot(y, dnorm(y, mean = 0, sd = 3), type =“l”) plot(y, dnorm(y, mean = 2, sd = 1), type =“l”)
正規分布の確率
25
> pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1) [1] 0.07914 ! > dnorm(1.5, 0, 1) * 0.6 [1] 0.07771
確率 = 確率密度関数 × Δy
最尤推定yi が, である確率は、
26
最尤推定対数尤度は
!
!
連続分布ではσが小さいとき等に、対数尤度が正の値になったり、AICや逸脱度が負の値になる場合がある
27
最小二乗法と最尤推定最小二乗法ではσ=1としているので、第一項が定数に
28
✓ 最小二乗法と一致
6章 GLMの応用範囲 後半
29
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ま と め
ガンマ分布確率変数が0以上の連続確率分布 - 確率密度関数
30
例 花と葉っぱ花の重量 yi と葉の重量 xi の関係 - 花の重量 yi が平均 μi のガンマ分布に従うとする
平均花重量μi のモデル - 葉重量x_i の単調増加関数
31
線形予測子平均花重量
!
右辺で、A=exp(a) として
!
対数をとって
32
ガンマ分布のGLM 対数リンク関数 + ガンマ分布 線形予測子
33
glm(y ~ log(x), family = Gamma(link=“log”),data = d)
Coefficients: (Intercept) log(x) -1.0403 0.6833 !Degrees of Freedom: 49 Total (i.e. Null); 48 Residual Null Deviance: 35.37 Residual Deviance: 17.25 AIC: -110.9
6章 GLMの応用範囲 後半
34
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ま と め
6章 GLMの応用範囲 後半
35
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶連続値の 最尤推定
6.8 確率変数が0以上の連続値 ガンマ分布 対数リンク GLMすごい
6.9 ↑ この表 ↑
おわり。