一般化線形モデル -...

97
一般化線形モデル 一般化線形モデル 平成30年度 短期集合研修:数理統計(応用編),2018年11月15日 農研機構 農業環境変動研究センター 環境情報基盤研究領域 統計モデル解析ユニット,山村光司 一般線型モデルについて 一般化線形モデルとは (少し寄り道) Pseudo-replication(偽反復)の問題 一般化線形モデルの誤用の傾向とその対策(偽反復と関係) モデル選択(R D 指数) グレードスコアの分析法(発想を変えて情報をフル活用) 1

Upload: others

Post on 06-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一般化線形モデル一般化線形モデル

平成30年度 短期集合研修:数理統計(応用編),2018年11月15日

農研機構 農業環境変動研究センター 環境情報基盤研究領域統計モデル解析ユニット,山村光司

一般線型モデルについて

一般化線形モデルとは

(少し寄り道) Pseudo-replication(偽反復)の問題

一般化線形モデルの誤用の傾向とその対策(偽反復と関係)

モデル選択(RD指数)

グレードスコアの分析法(発想を変えて情報をフル活用)

1

Page 2: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

線形モデル

一般線形モデル(General Linear Model)線形モデル(Linear Model)

回帰分析 Regression

量的要因の影響を分析

分散分析 ANOVAカテゴリー要因の影響を分析

共分散分析 ANCOVA

量的要因とカテゴリー要因の影響を分析(一つずつの場合)

線型モデルLinear model

一般線形モデルGeneral Linear ModelX

T1

T2

T1 T2

2

Page 3: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

単回帰分析

単回帰分析

式で書くと

ただし は等分散の正規分布にしたがう

→ひとまとめにして書くと

これは次のようにも書ける

3

Page 4: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

重回帰分析

重回帰分析

2変量の場合,式で書くと

ただし は等分散の分布にしたがう

→ひとまとめにして書くと

これは次のようにも書ける

4

Page 5: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一元配置分散分析

一元配置分散分析

(例)三つの水準を設けて,完全無作為法でそれぞれの処理を2回ずつ反復した場合

ただし は等

分散の正規分布にしたがう

→ひとまとめにして書くと

全体の平均 μ をくくり出して表現すると 

これは

5

Page 6: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

線型モデルの一般式以上のすべては次のような式に書けた

:従属変数のベクトル

:デザイン行列(実験計画などに依存して決まる)

:パラメーターのベクトル

:誤差のベクトル(等分散正規分布にしたがう)

同じ式に書けるため,推定・検定の手順は基本的に同じ

→回帰分析と分散分析は区別する必要がない。

これを線型モデル,あるいは一般線型モデルと呼ぶ

→回帰分析と分散分析が混合した分析も可能。

6

Page 7: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

lmを用いた計算例(プログラム)

分散分析と回帰分析の混合例

地域トラップ番号

各月の総誘殺数

5月 6月 7月 8月

A 1 10 26 45 356

A 2 8 16 55 341

B 3 16 48 112 874

四国農試のハスモンヨトウ誘殺実験データcat(file="Hasumon.txt","Obs Area Trap Month Y1 A T1 5 102 A T1 6 263 A T1 7 454 A T1 8 3565 A T2 5 86 A T2 6 167 A T2 7 558 A T2 8 3419 B T3 5 1610 B T3 6 4811 B T3 7 11212 B T3 8 874")

(↑ スペースで区切ること)

トラップ間で誘殺数の対数値に差があるかどうかを検定(カテゴリー変数,名義変数)→[分散分析的]

月とともに誘殺数が増加するかどうかを検定(量的変数)→[回帰分析的]

Hasumon <- read.table("Hasumon.txt", header=TRUE)Hasumon.lmlog <- lm(log(Y+0.5)~ Trap+Month, data=Hasumon)

計算結果がHasumon.lmlogという名前のlmオブジェクトに保存される。 7

Page 8: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

パラメーター推定値の表示パラメーター推定結果

パラメーター推定値の表示

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -4.0042 0.6914 -5.791 0.000409 ***TrapT2 -0.1324 0.2792 -0.474 0.648123 TrapT3 0.7147 0.2792 2.560 0.033643 * Month 1.2054 0.1019 11.824 2.4e-06 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.3948 on 8 degrees of freedomMultiple R-squared: 0.9495, Adjusted R-squared: 0.9306 F-statistic: 50.15 on 3 and 8 DF, p-value: 1.566e-05

summary(Hasumon.lmlog)

サマリー関数からの出力は

8

Page 9: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

検定を実行「検定」という操作を行うのが慣習分散分析表lmを用いた分散分析表「分散分析表」の出力(回帰分析も含む「広義の分散分析」)

Analysis of Variance TableResponse: log(Y + 0.5)

Df Sum Sq Mean Sq F value Pr(>F) Trap 2 1.6613 0.8306 5.3283 0.03381 * Month 1 21.7931 21.7931 139.7981 2.4e-06 ***Residuals 8 1.2471 0.1559 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

anova(Hasumon.lmlog) # 分散分析表の出力

検定を実行(重要な要因だけをモデルに組み込むため)

トラップ効果に関する有意水準 P = 0.03 (分散分析部分)→ P 値が 0.05 より小さいので「有意」と判断される。

月の効果に関する有意水準 P = 2.4e-06 (回帰分析部分)→ P 値が 0.05より小さいので「有意」と判断される。

9

Page 10: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

パラメーター推定の原理

パラメーター推定の原理

dispersion パラメーター

固定効果パラメーター

最尤推定法とは:

手元の観測データが得られる確率が最大になるようにパラ

メーターを決定する方法。

この確率 を「尤度」とよぶ。

例:正規分布に従う場合(平均μ,分散σ2)

この正規分布から 観測値 を得たとき,

それが起こる確率(尤度)は

いま平均値μの推定を考える(分散σ2は既知)。

10

Page 11: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

最尤推定の簡単な例

パラメーターμの推定 二つの観測値,3,5を得たとき,尤度は

尤度の対数を考えると

最大点では傾きがゼロ →最大とするμは をμで微分して0とおくことによって求められる。

尤度Lを最大化することは対数尤度を最大化することと同じ

2 3 4 5 6−6

−5−4

−3

μ

log e

(L)

11

Page 12: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

最尤推定の簡単な例

パラメーターμの推定 二つの観測値,3,5を得たとき,尤度は

今の場合には対数尤度の分子部分を最小化すればよい。二乗和

を最小化する方法なので,これは「最小二乗法」である。つまり

正規分布誤差の場合は「最尤推定法=最小二乗法」。

線形モデルの場合は最小二乗法のための計算公式がある。

対数尤度

これを解くと最尤推定値は =4 つまり,平均値と等しい。

で微分してゼロとおくと

12

Page 13: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

最尤推定値を見つける方法

最小二乗推定値を簡単に見つける方法

線形モデル

ただし…,逆行列が決まるためにはXの列が線形独立でなければならない(列の要素を足しても他の列にはならない)

→OK !

→ダメ !

逆行列転置行列

行列計算で求まる

分散分析型回帰分析型

13

Page 14: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

推定のために「制約条件」をつける

分散分析型の部分には「制約条件」をつけてやる

ゼロ和制約: 0(三つの処理の平均がμである)

で を置き換える。

端点制約:たとえば 0( の処理がμである)行列の変形は楽。

→OK ! →OK !

いずれにせよ,列の数が一つ減る。線形独立な列の数は「自由度」とよばれる。→このため,分散分析では自由度は一つ減る

JMP SAS, R(S-PLUSも)

1 1 0 01 1 0 01 0 1 01 0 1 01 0 0 11 0 0 1

   

14

Page 15: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Rにおけるデザイン行列Rでの推定値の読み方

Rのデフォルト設定で使用されているデザイン行列を見る

(Intercept) TrapT2 TrapT3 Month1 1 0 0 52 1 0 0 63 1 0 0 74 1 0 0 85 1 1 0 56 1 1 0 67 1 1 0 78 1 1 0 89 1 0 1 510 1 0 1 611 1 0 1 712 1 0 1 8

model.matrix( ~ Trap+Month, data=Hasumon)

分散分析部分 回帰分析部分

推定されるパラメーター

この端点制約で推定されるパラメーターは四つ トラップ1 トラップ1とトラップ2の差 トラップ1とトラップ3の差 月の効果

端点を変えたい場合には relevel()を用いる。たとえばトラップ3を端点にするときはHasumon$Trap <- relevel(Hasumon$Trap, ref="T3")

15

Page 16: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

JMPとRの推定値の比較Rでの推定値の読み方

端点制約とゼロ和制約での推定値の違い

JMP の出力(ゼロ和制約)項 推定値 標準誤差 t値 P切片 -3.8100 0.6724 -5.6700 0.0005 トラップ[1] -0.1941 0.1612 -1.2000 0.2629 トラップ[2] -0.3265 0.1612 -2.0300 0.0774 月 1.2054 0.1019 11.8200 <.0001

R の出力(端点制約)Estimate Std. Error t value Pr(>|t|)

(Intercept) -4.0042 0.6914 -5.791 0.000409 ***TrapT2 -0.1324 0.2792 -0.474 0.648123 TrapT3 0.7147 0.2792 2.560 0.033643 * Month 1.2054 0.1019 11.824 2.4e-06 ***

推定されるパラメーターは異なる

(ゼロ和制約では切片は回帰分析の場合の切片と同じ)

パラメーターの推定値自体の意味は複雑16

Page 17: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

水準の推定値で議論分散分析部分は各水準の推定値で議論Rでの推定値の読み方

推定された平均値の出力library(lsmeans)lsmeans(Hasumon.lmlog, ~ Trap)

$`Trap lsmeans`Trap lsmean SE df lower.CL upper.CLT1 3.830642 0.1974146 8 3.375403 4.285880T2 3.698289 0.1974146 8 3.243051 4.153528T3 4.545382 0.1974146 8 4.090144 5.000621

次に「どのTrap間に有意差があるか」を知りたい。これは「多重比較」

95%信頼区間 → あとでゆっくり解説する

水準の推定値で議論(有意となった要因だけでよい)

分散分析表の出力anova(Hasumon.lmlog)Df Sum Sq Mean Sq F value Pr(>F) Trap 2 1.6613 0.8306 5.3283 0.03381 * Month 1 21.7931 21.7931 139.7981 2.4e-06 ***Residuals 8 1.2471 0.1559 次に「Trap」間の大小関係を知りたい。 しかしlmでは出してくれない。

17

Page 18: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

多重比較Rでの推定値の読み方

多重比較(先週の三輪先生の講義の復習)

library(lsmeans)lsmeans(Hasumon.lmlog, pairwise ~ Trap)

library(multcomp)summary(glht(Hasumon.lmlog,linfct = mcp(Trap="Tukey")))

ただし,今の場合は3水準だけなので,全体で有意差があればTukey を使う必要はなく,以下の LSD法がもっとも検出力が高い。

lsmeans(Hasumon.lmlog, pairwise ~ Trap, adjust=c("none"))

Estimate Std. Error t value Pr(>|t|) T2 - T1 == 0 -0.1324 0.2792 -0.474 0.8852 T3 - T1 == 0 0.7147 0.2792 2.560 0.0771 .T3 - T2 == 0 0.8471 0.2792 3.034 0.0385 *

estimate SE df t.ratio p.valueT1 - T2 0.1323523 0.2791863 8 0.47406 0.64813T1 - T3 -0.7147408 0.2791863 8 -2.56009 0.03364T2 - T3 -0.8470931 0.2791863 8 -3.03415 0.01621

水準間で総当りで比較したい(対比較) → 「多重性の問題」が生じる。解説文:山村光司 (1998) 土壌肥料学における数理統計手法の応用上の問題点3.Duncan の多重範囲検定はなぜ使えないか。日本土壌肥料学雑誌 69(6) 649–653

永田靖・吉田道弘(1997) 統計的多重比較法の基礎. サイエンティスト社

Tukeyが標準的

18

Page 19: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

検定の原理検定の原理

あるパラメーターを除いて当てはめる。 尤度比検定の基本コンセプト:

→当てはまり具合が悪くなる。つまり,対数尤度が低下する。

もしパラメーターが重要だったならあてはまり具合が大きく悪くなるはず。つまり対数尤度が大きく低下するはず

対数尤度の低下の大きさから検定ができる

「対数尤度の差」は「尤度の比の対数」なので,これを「尤度比検定」や「尤度比カイ二乗検定」とよぶ。

統計解析ソフトでデフォルトで出力されるのはWald検定だが,尤度比検定の方がカイ二乗近似が良い。

三種類の検定スコア検定,Wald検定,尤度比検定。

Wald検定やスコア検定では片方の値から外挿して計算するので計算は速いが精度は劣る。19

Page 20: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

検定のタイプ: Type I, II, III検定

パラメーターを抜く順番に関して,いくつかの検定の種類

Type I要因間に優劣がある場合に用いる。後ろから順番に要因を抜いてゆき,そのときの対数尤度の低下から検定する。

Type II交互作用を含めた検定の場合に用いる。交互作用をまず抜いて,そのときの対数尤度の低下から検定主効果の検定の際には,交互作用だけを抜いたモデルからその主効果だけを抜いたときの対数尤度の低下から検定する。

Type IIIある要因の検定の際には,その要因だけを抜いたときの対数尤度の低下から検定する。

Rでは anova()

要因効果を抜いて尤度比検定を行う際の抜く順序の違い

Rでは library(car) の Anova() でオプション指定

Rでは drop1() で工夫,あるいは library(car) の Anova()

An R Companion to Applied Regression

20

Page 21: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

データをフル活用する(プログラム)

この原理を踏まえてデータを再解析する

地域トラップ番号

各月の総誘殺数

5月 6月 7月 8月

A 1 10 26 45 356

A 2 8 16 55 341

B 3 16 48 112 874

多くの情報を持っている。地域間差,地域内のトラップ間差,月に伴う増加が加速的か減速的か,など。これらをフル活用するべき。

Hasumon.lmlogfull <- lm(log(Y+0.5) ~ Area + Trap +

I(Month) + I(Month^2) + I(Month^3), data=Hasumon)

anova(Hasumon.lmlogfull)

# 後半部分は先週の講義の「多項式回帰」の部分。「I()」でくくるのを忘れな

いように(inhibit関数) 。 21

Page 22: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

データをフル活用する(結果)

データをフル活用した一般線型モデルの結果

3次項は1次項と2次項で説明できない成分を示し,2次項は1次項で説明できない成分を示すため,この部分は Type I が妥当。したがって,anova 関数で大丈夫。分析の結果,Trapは有意でなかったのでモデルから除く。

定石にしたがって,有意差が出た成分については平均を計算するかグラフを描く。定量要因についてはグラフを描く。plot(log(Y+0.5)~Area,data=Hasumon)plot(log(Y+0.5)~Month,data=Hasumon)

Response: log(Y + 0.5)Df Sum Sq Mean Sq F value Pr(>F)

Area 1 1.6262 1.6262 57.7540 0.0002702 ***Trap 1 0.0350 0.0350 1.2442 0.3073317 I(Month) 1 21.7931 21.7931 773.9680 1.427e-07 ***I(Month^2) 1 0.8851 0.8851 31.4337 0.0013725 ** I(Month^3) 1 0.1931 0.1931 6.8569 0.0396623 * Residuals 6 0.1689 0.0282

22

Page 23: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

データをフル活用する(結果の解釈)

データをフル活用した一般線型モデルの結果

Response: log(Y + 0.5)Df Sum Sq Mean Sq F value Pr(>F)

Area 1 1.6262 1.6262 57.7540 0.0002702 ***Trap 1 0.0350 0.0350 1.2442 0.3073317 I(Month) 1 21.7931 21.7931 773.9680 1.427e-07 ***I(Month^2) 1 0.8851 0.8851 31.4337 0.0013725 ** I(Month^3) 1 0.1931 0.1931 6.8569 0.0396623 * Residuals 6 0.1689 0.0282

曲線性の検定

23

Page 24: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

95%信頼区間の計算検定と信頼区間:不確実性の表現法単回帰分析

95%信頼区間の計算

有意になった要因については,次にパラメーターの95%信頼区間を計算する。confint(Hasumon.lmlog)を実行すると

2.5 % 97.5 %(Intercept) -5.59856928 -2.4097308TrapT2 -0.77615718 0.5114525TrapT3 0.07093593 1.3585456Month 0.97026827 1.4404369

各水準の推定値の95%信頼区間については,先ほど計算したようにlsmeansを用いてlibrary(lsmeans)lsmeans(Hasumon.lmlog, ~ Trap)

$`Trap lsmeans`Trap lsmean SE df lower.CL upper.CLT1 3.830642 0.1974146 8 3.375403 4.285880T2 3.698289 0.1974146 8 3.243051 4.153528T3 4.545382 0.1974146 8 4.090144 5.000621

24

Page 25: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

N-P流の信頼区間N-P流の信頼区間とは何か単回帰分析

Neyman-Pearson流の信頼区間とは何か

いま計算した「95%信頼区間」の意味について見てみよう。検定には「Fisher流の検定」と「Neyman-Pearson流の検定」が存在し,前者は「有意性検定」後者は「仮説検定」と呼ばれている。現代では後者の検定が主流であり,仮設検定では「対立仮説」がキーワードである。しかし,私の講義では「有意性検定」だけを取り扱う。

95%信頼区間にもFisher流とNeyman-Pearson流があり,ほとんどすべての教科書でNeyman-Pearson流の信頼区間が採用されている。

Neyman-Pearson流の95%信頼区間「100回の実験を行ったときに平均して95回の実験で真の値を含む」ように構成された区間」。たとえば,95%信頼区間が1.4~1.8となったとき「真の値は95%の確率で1.4~1.8の範囲にある」と述べるのは大間違い。この1.4~1.8という特定の範囲には意味がない。あくまでも,このような推定操作を100回行えば,平均してそのうちの95回は真の値を含むというだけである。

25

Page 26: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Fisher流の信頼区間Fisher流の信頼区間とは何か単回帰分析

Fisher流の信頼区間とは何か

Fisher流の95%信頼区間「もし真の値がその区間の外に存在したならば,いま得られているようなデータかそれよりも極端なデータが生じる確率は5%以下」となるように構築された区間。

その意味で「真の値はたぶん『この』信頼区間の中にあるだろう」と考えることができる。Neyman-Pearson流の信頼区間においては「特定の信頼区間」が意味を持たないのに対して、Fisher流の信頼区間においては「特定の信頼区間」が意味を持っている。たとえば,95%信頼区間が1.4~1.8となったとき「真の値はたぶん1.4~1.8の範囲にある」と述べることができる。

ほとんどの場合は,計算上はNeyman-Pearson流の信頼区間と同じ区間となるが,解釈が異なる。

26

Page 27: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

推測区間とは何か単回帰分析推測区間とは何か

推測区間(fiducial interval)とは何か

Fisher流の95%推測区間「真の値は95%の確率で『この』区間の中にある」と考えることができる区間。つまり,特定の区間が非常に重要な意味を持つ。

たとえば,95%推測区間が1.4~1.8となったとき「真の値は95%の確率で1.4~1.8の範囲にある」と述べることができる。

多くの人がN-P流の信頼区間を間違ってこのように解釈している。

ただし,Fisher流の信頼区間を推測区間として用いることができるための条件が存在する。

• 各パラメーター推定値のそれぞれの確率分布に関して「平行移動スケール」が存在する。(各パラメーターが独立な連続変数である。) (山村 2018 補足を参照してください。)

• 「十分統計量」であるか,あるいはデータ量がある程度は多い。• 多くの場面でこれらの条件が成立している。

27

Page 28: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

3種類の区間の違い3種類の区間の違い単回帰分析

3種類の「区間」の違いを整理

Neyman-Pearson流の95%信頼区間100回の実験を行ったときに平均して95回の実験で真の値を含む。

特定の区間の両端の値には言及することができない。特定の区間が真の値を含むかどうかは永遠に不明である。そうい

う「問い」自体をNP区間では行わない。いま行っている「科学的探求」の行動の正しさを保証している。

Fisher流の95%信頼区間もし真の値がその区間の外に存在したならば,いま得られているようなデータかそれよりも極端なデータが生じる確率は5%以下。

特定の区間の両端の値に言及して,真の値は「たぶん『この』範囲内にあるだろう」と述べることができる。

Fisher流の95%推測区間(fiducial interval)95%の確率で真の値を含む区間。

特定の課題の特定の区間の両端の値に言及することができる。 28

Page 29: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一般化線形モデルとは

一般化線形モデル(Generalized Linear Model)

対数線形モデル loglinear model

ロジスティック回帰 Logistic regression

誤差が二項分布と仮定

線型モデルLinear model

一般線形モデルGeneral Linear Model

誤差が等分散正規分布と仮定

誤差が多項分布と仮定

一般化線形モデルGeneralized Linear Model

Nelder and Wedderburn (1972)

29

Page 30: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一般化線型モデルでは二つの拡張

線型モデル

これを言い換えると

(1)観測値 は期待値 の周りに正規分布にしたがって分布(2)期待値 に関して

は等分散の正規分布にしたがう

この二つをそれぞれ拡張する

(1)観測値 は の周りに正規分布で分布する必要はなく,「指数分布族の分布」にしたがって分布していればよい。(ポアソン分布,二項分布,ガンマ分布などを含む)

の逆関数をリンク関数と呼ぶ。これを と記すと期待値 をリンク関数で変換したものが線形関数

(2)期待値 に関しては指数関数やロジスティック関数などの「単調関数」

30

Page 31: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一般化線形モデルの例1

一般化線型モデルの例 1

(2)期待値 に関して

(1)観測値 は の周りに二項分布にしたがって分布

これはロジスティック回帰

をロジスティック関数で変換したもの

ロジスティック関数の逆関数はロジット関数:→ リンク関数がロジット関数

31

Page 32: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一般化線形モデルの例2

一般化線型モデルの例 2

これはポアソン回帰の一種

(2)観測値 に関して

リンク関数は対数関数

(1)観測値 は の周りにポアソン分布にしたがって分布

32

Page 33: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

最尤推定値を見つける方法最尤推定値を見つける方法は…

誤差に正規分布を仮定する場合(線形モデル)は

正規分布以外の誤差の場合はそう簡単には求まらない

試行錯誤法(ニュートン・ラフソン法,スコア法など)

対数尤度が最大となるパラメーターを探す。

行列計算で求まった

33

Page 34: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

計算例:ロジスティック回帰

(計算例)ロジスティック回帰(比率の場合,二項分布の場合)

木番号 アブラムシ 穴あり葉 穴なし葉 合計

1 無 35 1750 1785

1 有 23 1146 1169

2 無 146 1642 1788

2 有 30 333 363

アブラムシと葉の穴との関係についての実験(Crawley, 1993)「誘導抵抗性」に関する実験。アブラムシが存在すると,木が危険

性を察知して有害物質を生産する→後の季節に別の昆虫(イモムシ類)に食われにくくなる。

アブラムシが存在すると,後に葉に穴が出来やすいか否かを調べた。

木の要因とアブラムシの有無の要因の影響を調べる34

Page 35: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Rによるロジスティック回帰Rによるロジスティック回帰プログラムロジスティック回帰

cat(file="aphid.txt","tree aphid r non一番目 無 35 1750一番目 有 23 1146二番目 無 146 1642二番目 有 30 333")Aphid <- read.table("aphid.txt", header=TRUE)Aphid$d <- cbind(Aphid$r,Aphid$non) #(反応数,非反応数)の形Aphid.Fit1 <- glm(d ~ aphid + tree,

family=binomial, data=Aphid)

anova(Aphid.Fit1, test="Chisq") # これは間違い例:# anova 関数は Type I なので,二元配置実験の場合は使わないこと。

# car ライブラリの Anova 関数を使うと Type II 検定ができるlibrary(car)Anova(Aphid.Fit1)

Rによるロジスティック回帰

木番号 アブラムシ 穴あり葉 穴なし葉 合計

1 無 35 1750 1785

1 有 23 1146 1169

2 無 146 1642 1788

2 有 30 333 363

35

Page 36: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Typeによる結果の違いTypeによる結果の違い検定のタイプによる結果の違いロジスティック回帰

anova(Aphid.Fit1, test="Chisq")Df Deviance Resid. Df Resid. Dev Pr(>Chi)

NULL 3 110.687 aphid 1 6.659 2 104.027 0.009864 tree 1 104.027 1 0.001 < 2.2e-16

Typeによる結果の違い

Anova(Aphid.Fit1)LR Chisq Df Pr(>Chisq)

aphid 0.003 1 0.9542 tree 104.027 1 <2e-16

Type II だと aphid に効果はないが,Type I だと効果が間違って検出されてしまう !!

36

Page 37: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

なぜ検定のTypeで結果が異なるのかなぜタイプが重要かロジスティック回帰

Aphid.Fit2 <- glm(d ~ tree + aphid, binomial, Aphid)summary(Aphid.Fit2)Aphid.Fit3 <- glm(d ~ aphid, binomial, Aphid)summary(Aphid.Fit3)

なぜ検定のTypeで結果が異なるのか。(層別をきちんと行っているか否かの問題)

Estimate Std. Error z value Pr(>|z|) (Intercept) -3.914420 0.148106 -26.430 <2e-16 ***tree二番目 1.494968 0.158755 9.417 <2e-16 ***aphid有 0.009518 0.165722 0.057 0.954

Estimate Std. Error z value Pr(>|z|) (Intercept) -2.93068 0.07629 -38.42 <2e-16 ***aphid有 -0.39815 0.15926 -2.50 0.0124 *

不釣合い型実験の場合は層別を無視すると間違った「方向」に推定してしまう場合がある。これは正規分布の場合も普通に生じるが,二項分布の場合は特に「シンプソンのパラドックス」と呼ばれる。(実はパラドックスでも何でもない。)

aphidがプラスに働くと推定(有意ではないが…)

aphidがマイナスに働くと推定

37

Page 38: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

なぜ検定のTypeで結果が異なるのかなぜタイプが重要かロジスティック回帰

Aphid.Fit2 <- glm(d ~ tree + aphid, binomial, Aphid)summary(Aphid.Fit2)Aphid.Fit3 <- glm(d ~ aphid, binomial, Aphid)summary(Aphid.Fit3)

なぜ検定のTypeで結果が異なるのか。(層別をきちんと行っているか否かの問題)

Estimate Std. Error z value Pr(>|z|) (Intercept) -3.914420 0.148106 -26.430 <2e-16 ***tree二番目 1.494968 0.158755 9.417 <2e-16 ***aphid有 0.009518 0.165722 0.057 0.954

Estimate Std. Error z value Pr(>|z|) (Intercept) -2.93068 0.07629 -38.42 <2e-16 ***aphid有 -0.39815 0.15926 -2.50 0.0124 *

不釣合い型実験の場合は層別を無視すると間違った「方向」に推定してしまう場合がある。これは正規分布の場合も普通に生じるが,二項分布の場合は特に「シンプソンのパラドックス」と呼ばれる。(実はパラドックスでも何でもない。)

aphidがプラスに働くと推定(有意ではないが…)

aphidがマイナスに働くと推定

注意事項の三つの表現(同一のことを述べている)

検定の Type を間違わないこと。

階層型モデル群を常に考えておくこと。

パラメーターの優劣関係を常に考えておくこと。

今は Aphid と Tree に優劣がないので,平等に扱わないといけない。

38

Page 39: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

誤差とリンク関数の使い分け

誤差とリンク関数の一般的な使い分け

連続的な定量値の場合:正規分布 カウントデータの場合:ポアソン分布 比率データの場合:二項分布

正規分布誤差の場合:そのまま:identity link(無変換) ポアソン分布の場合:対数関数(対数変換) 二項分布の場合:ロジット関数(ロジット変換) ガンマ分布の場合:逆数(逆数変換)

(1)誤差に関して

先ほどの解析ではリンク関数を指定しなかったが,デフォルトで勝手に変数変換が行われていることに注意する。デフォルトで用いられるのは以下の canonical link (十分統計量が存在する)

(2)リンク関数に関して (つまり「期待値の変数変換」に関して)

39

Page 40: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

どの変数変換を採用すべきか?

どの変数変換を採用すべきか(基礎編で勉強済み)

足し算の関係になるような変換を行うべき

いま という式を使っている。つまり,期待値の変数変換値が,要因の足し算で表現できると仮定している。

掛け算の形で決まる現象の場合→対数変換を行うと「足し算の関係」。(例)昆虫の4齢幼虫数( )は1齢幼虫数( )と各段階の生存率

( )の積。

の変動量が同じでも, の値が2倍になると の変動量は2倍に増幅される。→ 等分散にはならない。

log の変動の影響はlog が2倍になっても変わらない。

掛け算で決まる現象の場合は対数変換が妥当40

Page 41: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

掛け算でない関係の例RDの計算例(GLMM)RDによるモデル選択例(GLMM)Rat の生存時間に関するデータ。3種の毒物で4種類の処理方法。

処理要因は瞬間死亡率に相加的に影響するはず。瞬間死亡率をaとすると生存時間は指数分布にしたがうので平均生存時間は 1/a→ 生存時間の逆数に関して相加性・等分散性が成立していると期待できる。

掛け算でない関係の例 ラットの毒性データ,Box and Cox (1964)

念のため,基礎編で勉強したBox-Cox変換を行って,正しい

変換法を決める。つまり,次式の変換で,最適な を求める。

1

log

0

0

41

Page 42: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

ラットの毒性データの場合の変換法RDの計算例(GLMM)RDによるモデル選択例(GLMM)cat(file="Rat.txt","Poison Treat TimeI A 0.31I A 0.45I A 0.46I A 0.43I B 0.82I B 1.1I B 0.88I B 0.72I C 0.43I C 0.45I C 0.63I C 0.76I D 0.45I D 0.71I D 0.66I D 0.62II A 0.36II A 0.29II A 0.4II A 0.23II B 0.92II B 0.61II B 0.49II B 1.24

II C 0.44II C 0.35II C 0.31II C 0.4II D 0.56II D 1.02II D 0.71II D 0.38III A 0.22III A 0.21III A 0.18III A 0.23III B 0.3III B 0.37III B 0.38III B 0.29III C 0.23III C 0.25III C 0.24III C 0.22III D 0.3III D 0.36III D 0.31III D 0.33")

Rat <- read.table("Rat.txt", header=TRUE)

library(MASS)boxcox(Time~Poison*Treat, data=Rat)

-2 -1 0 1 2

-60

-50

-40

-30

-20

-10

log-

Like

lihoo

d

95%

λの最尤推定値は-1程度予想どおり逆数変換が妥当だ。

ラットの毒性データの場合の変換法

42

Page 43: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Pseudo-replication の問題

(実験計画における致命的なミス)(一般化線形モデルの誤用とも関係)

Pseudo-replication の問題

Hurlbert (1984) によって指摘された。

アメリカ統計学会は,この論文が1984年のbiometry分野でもっとも重要な論文であるとして,「スネデカー賞」を与えた。

43

Page 44: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Pseudo-replicationとは(1)Pseudo-replicationの例四つの水田圃場 (170m2) にそれぞれ異なる施肥処理 (A,B,C,D) を施した。それぞれの圃場に 25 × 25 株の調査区を2ヵ所設定し,それぞれの調査区においてウンカの個体数を計測し,次の結果を得た。

施肥処理

A B C D

区1 10.49 15.86 7.91 0.83

区2 11.22 7.12 6.41 1.12

分散を安定化させるため,対数変換を行なった後,分散分析を行なったところ,次表の結果を得た。

自由度 平方和 平均平方 F 確率

施肥処理 3 7.977 2.659 27.27 0.0040

誤差 4 0.390 0.0975

全体 7 8.367

この論文は致命的な欠点を含んでいたため,却下された。

A B C D

Pseudo-replicationの例

44

Page 45: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Pseudo-replicationとは(2)Pseudo-replicationの例

Pseudo-replicationの例

四つの水田圃場 (170m2) にそれぞれ異なる施肥処理 (A,B,C,D) を施した。それぞれの圃場に 25 × 25 株の調査区を2ヵ所設定し,それぞれの調査区においてウンカの個体数を計測し,次の結果を得た。

施肥処理

A B C D

区1 10.49 15.86 7.91 0.83

区2 11.22 7.12 6.41 1.12

分散を安定化させるため,対数変換を行なった後,分散分析を行なったところ,次表の結果を得た。

自由度 平方和 平均平方 F 確率

施肥処理 3 7.977 2.659 27.27 0.0040

誤差 4 0.390 0.0975

全体 7 8.367

この論文は致命的な欠点を含んでいたため,却下された。

A B C D

ここで行っているのは「圃場間」の差の検定であり,「施肥処理間」の検定ではない。

(観測値) = (施肥処理による期待値)+(圃場での誤差成分)+(圃場内の観測誤差成分)

この部分の差の検定をしてしまっている。

45

Page 46: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Pseudo-replication を避ける

46/73

Pseudo-replication への対応

Pseudo-replicationを避ける

A B C D

ここで行っているのは「圃場間」の差の検定であり,「施肥処理」間の検定ではない。

D B A C D B

区を狭くして,どこかの区で反復を設けてランダマイズする。ただし,昆虫の場合には区間の移動に注意

C A D B

2年目は配置を換えて行い,年をブロックとする分散分析。

全圃場が精密に管理されているので,「施肥処理」の発現にはいかなる誤差も生じない,と主張する。ただし,レフェリーには通じない可能性が高い。

もし,実験を繰り返す時間や面積がないならば…

46

Page 47: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

繰り返し測定についての補足

処理区

処理区

対照区

対照区

1/3の確率でこのような配置が生じる。しかし,4圃場で反復数が2に見えるが,環境傾度がある場合には, 環境傾度を同じ割合で受けていない。→したがって反復数は1(反復なし)反復測定数が4 。

反復の配置はランダマイズされることが想定されるが,実際にはランダマイズは好ましくない。

反復の配置に関して

このように処理区と対照区を一定間隔で配置する方がよい。 これは「2ブロックによる乱塊法」や「ペアマッチング」とみなすこともできる。誤差の自由度をかせぐためにブロックやペアを無視した分析も行って,いずれか良い方を採用するとよい。(厳密には正しくはないが,プラクティカルな対処法)。

環境傾度が強く疑われる場合にはこれもよいが,対照区が一箇所に固まっているため問題が生じる。また,害虫発生の実験ではエッジ効果があるので問題。

47

Page 48: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

時間的な繰り返し測定

処理区 対照区

空間的な繰り返し測定

時間的な繰り返し測定時間

処理区

対照区

時間的な繰り返し測定もよく見られる

48

Page 49: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

繰り返し測定分散分析処理区

対照区

時間

ここには2種類の誤差が存在する

圃場に固有の誤差(1次誤差)

測定時点毎に生じる誤差(2次誤差)

共通の誤差

ただし,2次誤差間に相関がないと考えてよい場合(やや非現実的)。

最近では AR(1)構造誤差をなどを入れるのが定石。

繰り返し測定分散分析

→分割区型分散分析を行う(最低限)

split-plot experiment

共通の誤差

49

Page 50: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

cat(file="yuuki.txt","Obs type repl date y1 yuuki R1 D1 502 yuuki R1 D2 203 yuuki R1 D3 784 yuuki R1 D4 405 yuuki R2 D1 56 yuuki R2 D2 67 yuuki R2 D3 298 yuuki R2 D4 119 kanko R3 D1 2010 kanko R3 D2 811 kanko R3 D3 1012 kanko R3 D4 2013 kanko R4 D1 614 kanko R4 D2 115 kanko R4 D3 616 kanko R4 D4 2")yuuki <-read.table("yuuki.txt", header=TRUE)

その計算例日 10 16 24 29

有機農法

反復1 50 20 78 40

反復2 5 6 29 11

慣行農法

反復1 20 8 106 20

反復2 6 1 6 2

計算例:有機農法と昆虫数

50

Page 51: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

プログラム例 関数 lme を用いる場合library(nlme)yuuki.lme <- lme(log(y+0.5) ~ type + date, random = ~1|repl,data=yuuki)summary(yuuki.lme);anova(yuuki.lme)

関数 lmer を用いる場合library(lme4)yuuki.lmer <- lmer(log(y+0.5) ~ type + date + (1|repl), data=yuuki)summary(yuuki.lmer);anova(yuuki.lmer)

関数 aov を用いる場合yuuki.aov <- aov(log(y+0.5) ~ type + date + Error(repl), data=yuuki) summary(yuuki.aov)

日 10 16 24 29

処理1

反復1 50 20 78 40

反復2 5 6 29 11

処理0

反復1 20 8 106 20

反復2 6 1 6 2

repl 別に誤差が加わる

プログラム例

元データ

repl 別に誤差が加わる

repl 別に誤差が加わる

51

Page 52: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

結果(lme)

計算結果推定値

Fixed effects: log(y + 0.5) ~ type + date Value Std.Error DF t-value p-value

(Intercept) 2.0789599 0.7243408 9 2.8701408 0.0185typeyuuki 1.1015544 0.9785684 2 1.1256795 0.3772dateD2 -0.7702975 0.3497485 9 -2.2024329 0.0551dateD3 0.3629295 0.3497485 9 1.0376870 0.3265dateD4 -0.1096460 0.3497485 9 -0.3134995 0.7610

分散分析表numDF denDF F-value p-value

(Intercept) 1 9 26.117142 0.0006type 1 2 1.267154 0.3772date 3 9 3.652990 0.0570

第1時点と第2時点の間では marginallysignificant。

四つの時点間で marginally significant。

有機処理区,対照区の間では有意差はない。

52

Page 53: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Estimate Std.Error t value Pr(>|t|) dateD2 -0.7703 0.3497 -2.202 0.05512 . dateD3 0.3629 0.3497 1.038 0.32649 dateD4 -0.1096 0.3497 -0.313 0.76104

Df Sum Sq Mean Sq F value Pr(>F) date 3 2.6811 0.8937 3.653 0.0569743 .

ただし,これらは以下の単純な解析と同じこと

別の計算法 有機効果に関する検定 (replごとのlog(y+0.5)の平均値を用いた検定と同じ)

logY <- tapply(log(yuuki$y+0.5), yuuki$repl, mean)type <- c("yuuki", "yuuki", "kanko", "kanko")summary(lm(logY ~ type)); anova(lm(logY ~ type))

date に関する検定 (replをブロックとした検定と同じ)

yuuki.lm <- lm(log(y+0.5) ~ repl + date, data=yuuki)summary(yuuki.lm)anova(yuuki.lm)

lmeを使わなくてもlmを2回使えば同じ結果となる。

Df Sum Sq Mean Sq F value Pr(>F)type 1 1.2134 1.2134 1.2671 0.3772

53

Page 54: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

一般化線形モデルの誤用

一般化線型モデルの誤用

(平均値自体が変動する,という問題)pseudo-replication の問題

54

Page 55: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

ポアソン回帰の根拠個体数データは 0, 1, 2,... といった「非負の整数」,これは計数データ(カウントデータ)とよばれる

さらに,各個体の観測確率が十分に小さいならばポアソン分布

各個体が一定の確率で観測されるならば

二項分布

一般的な使い分け:計数データはポアソン分布で解析

しかし,実は問題はそんなに単純ではない。

1 2 3 4 5 6 7 8

(例) ポアソン回帰で個体数データを分析するケース

55

Page 56: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

p周りの発生個体数の変動(二項分布)

期待値自体が変動している!

期待値周りの個体数の変動(ポアソン分布)

1 2 3 4 5 6 7 8期待値が要因効果の周りに変動

実際の個体数の変動

ポアソン分布の期待値自体が変動しているのが普通

二項分布の期待値自体も変動している場合がある

発生率pが期待値まわりに変動

実際の個体数の変動

56

Page 57: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

これらはpseudo-replication の一種

これらは pseudo-replication 問題の一種

二項分布に関するpseudo-replicationの例をあげていた。

Hurlbert (1984) の論文(Pseudo-replication を初めて警告した論文)の Table 6

57

Page 58: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

解決策: ポアソン分布の場合解決策: ポアソン分布の場合

期待値周りの個体数の変動(ポアソン分布)

1 2 3 4 5 6 7 8期待値が要因効果の周りに変動

実際の個体数の変動

対数レベルの正規分布+真数レベルのポアソン分布 = 実際の個体数の変動

期待値の変動の性質個体数は掛け算の関係で決まる→対数スケールでは足し算の関係で決まる→対数スケールで誤差が足し算の関係になる→対数スケールで期待値の変動は正規分布になる

解決策: ポアソン分布の場合

これは一般化線形混合モデルの一種logarithmic Poisson GLMM

58

Page 59: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

解決策:二項分布の場合解決策: 二項分布の場合

ロジットスケールの正規分布+真数レベルの二項分布 = 実際の個体数の変動

期待値の変動の性質発生確率は二つの量 , の相対比 / で決まり,それらの量 , は,それぞれ何らかの要因の掛け算の関係で決まる→ロジットスケールで期待値の変動は正規分布になる

解決策: 二項分布の場合

これも一般化線形混合モデルの一種 logit binomial GLMM

p周りの発生個体数の変動(二項分布)

発生率pが期待値まわりに変動

実際の個体数の変動

→ しかし,計算はやや面倒。(数値積分かラプラス近似)

59

Page 60: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

近似的な解決策:ポアソン分布の場合(1)近似的な解決策2: ポアソン分布の場合

期待値の変動がポアソン分布変動よりもずっと小さいとき→ 期待値の変動を無視できる

期待値周りの変動期待値の変動

期待値の変動がポアソン分布変動よりもずっと大きいとき→ ポアソン分布変動を無視できる

対数変換した個体数 に関する分散分析を行う

ポアソン分布と対数リンクを仮定した分析(ポアソン回帰)を行う。

近似的な解決策: ポアソン分布の場合(その1)

60

Page 61: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

近似的な解決策:ポアソン分布の場合(2)近似的な解決策 1: ポアソン分布の場合

期待値周りの個体数の変動(ポアソン分布)

1 2 3 4 5 6 7 8期待値が要因効果の周りに変動

実際の個体数の変動

近似的な解決策: ポアソン分布の場合(その2)

≒ 真数レベルのガンマ分布(CV一定)

対数レベルの正規分布(等分散)= 真数レベルの対数正規分布(CV一定)

対数レベルの正規分布+真数レベルのポアソン分布(一般化線形混合モデル)

真数レベルのガンマ分布 + ポアソン分布 で近似(k一定の負の二項分布, NB2と呼ばれる)

61

Page 62: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

近似的な解決策:二項分布の場合近似的な解決策: 二項分布の場合

期待値の変動が二項分布変動よりもずっと大きいとき→ 二項分布変動を無視できる

近似的な解決策: 二項分布の場合

p周りの発生個体数の変動(二項分布)発生率pが期待値まわりに変動

経験ロジット変換した値に関する分散分析を行う。

期待値の変動が二項分布変動よりもずっと小さいとき→ 期待値の変動を無視できる

二項分布とロジットリンクを仮定した分析(ロジスティック回帰)を行う。62

Page 63: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

ポアソン回帰の誤用例

実は先ほどのハスモンヨトウのデータも「カウントデータ」。→公式どおりに一般化線型モデルを使うとどうなるか?

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -6.61328 0.32371 -20.429 <2e-16 ***TrapT2 -0.03968 0.06833 -0.581 0.561 TrapT3 0.87661 0.05693 15.399 <2e-16 ***Month 1.55732 0.04136 37.654 <2e-16 ***

Hasumon.poisson <- glm(Y ~ Trap + Month, poisson, data=Hasumon)

summary(Hasumon.poisson)

→ TrapT3で異常にP値が小さくなる

63

Page 64: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Rで一般化線形混合モデルを計算(lmer)

Rで一般化線形混合モデルで分析(glmer)

library(lme4)Hasumon.glmer <- glmer(Y ~ Trap +

Month + (1|Obs), family=poisson, data=Hasumon)

summary(Hasumon.glmer)library(car)Anova(Hasumon.glmer)

→ 今の場合は正確だが,信頼性がある程度確立されている関数(SASのnlmixed等)で確認しておく方がよいかもしれない。

Obs Area Trap Month Y1 A T1 5 102 A T1 6 263 A T1 7 454 A T1 8 3565 A T2 5 86 A T2 6 167 A T2 7 558 A T2 8 3419 B T3 5 1610 B T3 6 4811 B T3 7 11212 B T3 8 874

Estimate Std. Error z value Pr(>|z|) (Intercept) -4.60291 0.65492 -7.028 2.09e-12 ***TrapT2 -0.10746 0.24496 -0.439 0.66090 TrapT3 0.76809 0.23515 3.266 0.00109 ** Month 1.28509 0.09254 13.887 < 2e-16 ***

64

Page 65: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

SAS University Edition の使用

SAS University Edition の使用(2014年~)

[Q&A] 5.無償版の製品は、どんな用途・目的でも利用できますか?

学習や非営利の学術調査目的で利用いただけます。商用目的で利用することはできません。また、大学の医学部や病院の研究内容が論文発表を目的としたものであれば利用いただけますが、臨床試験等での使用も含まれる場合は有償版のSAS購入が必要です。同様に、政府機関や独立行政法人等の公的機関においても、その目的が論文発表等アカデミックな目的であればSAS University Edition ソフトウェアを利用いただけますが、政府の統計発表等の用途でお使いの場合は有償版SASを購入いただくことになります。

使用方法

SAS University Edition は仮想マシーン上で稼働する。Oracle VirtualBox あるいは VMware Workstation Player をインストールしておく。

Internet Explorer や Firefox などのブラウザからログインする。

65

Page 66: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

SASで一般化線形混合モデルを計算(nlmixed)

SAS で一般化線形混合モデルで分析(nlmixed)data Hasumon_obs;input OBS AREA$ TRAP$ MONTH Y;if TRAP='T1' then do dum1=0; dum2=0; end; * 非線形回帰用のprocedureなので;if TRAP='T2' then do dum1=1; dum2=0; end; * 自分でデザイン行列を作成する;if TRAP='T3' then do dum1=0; dum2=1; end;datalines;1 A T1 5 102 A T1 6 263 A T1 7 454 A T1 8 3565 A T2 5 86 A T2 6 167 A T2 7 558 A T2 8 3419 B T3 5 1610 B T3 6 4811 B T3 7 11212 B T3 8 874;proc nlmixed data=Hasumon_obs qpoints=20;parms b0=1 b1=-1 b2=-1 b3=1 s2=1;pred = exp(b0 + b1*dum1 + b2*dum2 + b3*MONTH + e1);random e1~normal(0,s2) subject=OBS;model Y ~ poisson(pred);run; 66

Page 67: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

SASで一般化線形混合モデルを計算(nlmixed)

SAS で一般化線形混合モデルで分析(glimmix)data Hasumon_obs;input OBS AREA$ TRAP$ MONTH Y; datalines;1 A T1 5 102 A T1 6 263 A T1 7 454 A T1 8 3565 A T2 5 86 A T2 6 167 A T2 7 558 A T2 8 3419 B T3 5 1610 B T3 6 4811 B T3 7 11212 B T3 8 874;proc glimmix data=Hasumon_obs method=laplace;class OBS TRAP(ref="T1");model y = TRAP MONTH/s dist=poisson link=log;random OBS;run;

67

Page 68: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

分析結果の比較分析結果の比較

対数変換後の分散分析Estimate Std.Error t value Pr(>|t|)

(Intercept) -4.0042 0.6914 -5.791 0.000409 ***TrapT2 -0.1324 0.2792 -0.474 0.648123 TrapT3 0.7147 0.2792 2.560 0.033643 * Month 1.2054 0.1019 11.824 2.4e-06 ***

Value Std.Error t-value p-value(Intercept) -4.6029 0.6715 -6.85 <.0001TrapT2 -0.1075 0.2453 -0.44 0.6698TrapT3 0.7681 0.2355 3.26 0.0076Month 1.2851 0.09475 13.56 <.0001

ポアソン回帰

一般化線形混合モデル(SAS の proc nlmixed)

Estimate Std. Error z value Pr(>|z|) (Intercept) -6.61328 0.32371 -20.429 <2e-16 ***TrapT2 -0.03968 0.06833 -0.581 0.561 TrapT3 0.87661 0.05693 15.399 <2e-16 ***Month 1.55732 0.04136 37.654 <2e-16 ***

推定値/SE

一般化線型混合モデルの結果は対数変換後の分散分析の結果とだいたい同じだが,ポアソン回帰の結果とは大きく異なる。 68

Page 69: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

負の二項分布で近似した場合(glm.nb)

負の二項分布(NB2)で近似した場合の計算(glm.nb)

Estimate Std. Error z value Pr(>|z|) (Intercept) -4.60096 0.65149 -7.062 1.64e-12 ***TrapT2 -0.12371 0.23728 -0.521 0.602104 TrapT3 0.76539 0.22817 3.355 0.000795 ***Month 1.29168 0.09161 14.100 < 2e-16 ***

library(MASS)Hasumon.nb <- glm.nb(Y ~ Trap + Month, data=Hasumon)summary(Hasumon.nb) # デフォルトで対数リンク。library(car);Anova(Hasumon.nb)# 推定kは正しく固定される。

Estimate Std. Error z value Pr(>|z|) (Intercept) -4.60291 0.65492 -7.028 2.09e-12 ***TrapT2 -0.10746 0.24496 -0.439 0.66090 TrapT3 0.76809 0.23515 3.266 0.00109 ** Month 1.28509 0.09254 13.887 < 2e-16 ***

一般化線形混合モデル(glmer)

このデータでは,GLMMの結果はNB2の結果とほとんど同じ。69

Page 70: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

Hurlbert (1984)Table 6のGLMM分析

Hurlbert (1984) Table 6のGLMM分析プログラム例cat(file="Fox.txt","predation plot male femaleWithFoxes A1 22 13WithFoxes A2 9 7NoFoxes B1 15 10NoFoxes B2 97 130")Fox <- read.table("Fox.txt", header=TRUE)library(lme4)Fox.glmer <- glmer(cbind(female, male) ~ predation +

(1|plot), family=binomial, data=Fox)summary(Fox.glmer)

キツネはメス率を下げるつまりキツネはネズミのメスを選択

結果(プロット間分散はゼロと推定されたので,結果は普通の glm と同じ。この場合はデータをプールしても良かった。)

Estimate Std. Error z value Pr(>|z|) (Intercept) 0.2231 0.1268 1.760 0.0784 predationWithFoxes -0.6614 0.3136 -2.109 0.0349 *

WithFoxesだと%femaleが減少する

70

Page 71: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

まとめ:一般線型モデル(LM)

まとめ: 一般線型モデル (LM)

一般線型モデルは,回帰分析や分散分析を統合するモデル。誤差に正規分布を仮定する。

「相加性」と「等分散正規分布」を仮定しているため,適切な変数変換を行う必要がある。(相加性を満たすように変換すれば,中心極限定理などにより,等分散正規分布の仮定も普通は成立する。)

分散分析の推定では,制約条件を設けることによりパラメーターを一つに決めている。したがって,用いる制約条件の違いにより,統計解析ソフトにより推定結果は異なる。

検定ではパラメーターを抜く順序によって検定結果は異なる。したがって,用いる関数により検定結果は異なる。パラメーターの優劣を判断して適切な順序を選ぶ必要がある

71

Page 72: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

まとめ:一般化線型モデル(GLM)

まとめ: 一般化線型モデル (GLM)

一般化線型モデルは,誤差を正規分布から指数型分布族に拡張している。

期待値に関する変数変換関数はリンク関数と呼ばれ,デフォルトで自動的に変数変換が行われる。

期待値に関して「相加性」を仮定しているため,一般線型モデルと同様に,相加性を満たすような変数変換を選択しないといけない。

「制約条件の問題」と「検定の順序の問題」は一般線型モデルと同じ。したがって,使用する関数により結果は異なる。

期待値が変動している際にポアソン回帰を使うと,本来は差がないのに間違って有意差を出してしまうことが多くなる。ロジスティック回帰も同様。→あぶない方向に偏るので要注意。

一般化線形混合モデルが妥当である場合が多いと思われる。72

Page 73: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

まとめ:一般化線型混合モデル(GLMM)

まとめ: 一般化線型混合モデル (GLMM)

パラメーター推定には数値積分やラプラス近似などの複雑な計算が必要。したがって,関数や統計解析ソフトによっては正しい解を出力しない場合もあるので要注意。

期待値に関して「相加性」と「等分散正規分布」を仮定しているため,相加性を満たすような適切な変数変換を選択する必要がある。

「制約条件の問題」と「検定の順序の問題」は一般線型モデルと同じ。したがって,使用する関数により結果は異なる。

一般化線形混合モデルの推定が困難な場合は「対数変換後の分散分析」や「経験ロジット変換後の分散分析」が近似として使用可能な場合がある。

ポアソン一般化線形混合モデルは, が一定の負の二項分布モデルで近似できる。ただし対数リンクを使用する。

73

Page 74: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

モデルの評価基準モデルの評価基準

モデル選択とモデル評価

なぜモデル評価が必要か?

AIC (赤池情報量基準)の問題点

RD 基準の活用

# ここからは簡単のため,次の2トラップのデータを用いる(基礎編と同じ)cat(file="MothData.txt","trap month y1 5 81 6 161 7 551 8 3412 5 162 6 482 7 1122 8 874")MothData <- read.table("MothData.txt", header=TRUE)

74

Page 75: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

検定の目的(Fisherの考え)検定には意味が無い(?)

検定の目的(Fisherの考え)

かつてFisherは,統計処理の目的は「データの縮約」にあるとして,次の三つのプロセスを示唆していた:

(1)P値を用いた有意性検定によるモデル同定の問題(2)同定されたモデルのパラメーター推定の問題(3)推定されたパラメーターの推測分布の問題。

しかし,こうしたFisherの意図に反して,検定を統計処理の最終目標だと解釈する人々が現在では非常に多い。

つまり,まず有意性検定を行って,有意になったパラメーターだけを暫定的に残し,その残されたパラメーターについてだけ推定を行う。

75

Page 76: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

検定には意味がない 検定が「統計処理の最終目標」になりえないことについては,Fisher以降も一部の統計学者によって繰り返し指摘されてきた。

検定で有意差が出なかったときには「差を検出するのにサンプル数が足りなかった」ことを示しているにすぎず,一方,有意差が出たときには「差を検出するのにサンプル数が十分に多かった」ことを示しているにすぎない。つまり,統計的な有意差の有無は,単に私らが用いたサンプル数の大きさによって決まる問題であり,それは私らが探求している真実とは無関係であるとも言える。

最近になって,ようやくアメリカ統計学会が公式にこの問題を認知しはじめたようである(Baker 2016;Wasserstein and Lazar 2016)。

検定には意味がない

76

Page 77: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

検定に代わる手法とは?

検定に代わる手法とは?

Fisherの手法「有意性検定によるモデル選択法」は実用的な

方法だったが,先述のように論理的に不備があった。モデル選

択の手段として,現在では別の手法を用いるべきであろう。

では,どのような基準で選択するべきか?

一般に,モデルは手持ちのデータだけを記述することを目的と

するのではなく、何らかの別のデータにも適用できることを暗黙

の前提としている。

こうしたモデルの性質から考えれば、予測力でモデルの妥当

性を評価するのが唯一の妥当な評価法だと言える。そうした

評価法の一つがAIC(赤池情報量基準)である。

77

Page 78: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

AICの考え方

AIC の考え方

いま手元のデータによく当てはまるモデルは,次にデータをとったときに,その新しいデータにもうまく当てはまるとは限らない。

そこで,次にデータをとったときの確率分布が真の確率分布にKullback-Leibler 情報量の尺度でもっとも近くなるようにモデルを選択することを考えて,赤池氏は情報量基準AICを導いた。

尤度を とし,モデルに含まれるパラメーター数(切片を含む)を とするとき,AICは次式で定義される。

「真のモデル」を選ぶことを目指しているわけではないので,検定のような「論理的矛盾」が生じない。

78

Page 79: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

AIC の問題点

AIC の問題点

AICが根拠としている「予測におけるKullback-Leibler情報量の尺度で測った近さ」の現実的意義が明確ではない。そのため,たとえばAIC=15.2という値が出たときに,この値(15.2)自体には意味はない。AICの使用においては,同じデータのもとで二つ以上のモデルのAICを比較した場合にのみ相対的に意味がある。つまり,AICは量的変数ではなく順序変数でしかない。

現在のデータの量や質が十分であるかどうかを判断するためには,「モデル選択」だけでなく「モデル評価」を行うことが極めて重要である。しかし,AICを用いた場合には,これは「相対的な尺度」であるから,「モデル選択」はできても絶対的な「モデル評価」を行うことができない。

検定と同様に,データ量が多ければ「もっとも複雑なモデル」が採用されて議論が終了するだけであり,そのモデルの有用性を評価することはできない。

79

Page 80: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RD指数の提案

RD 指数の提案(Yamamura 2016)

Kullback-Leibler 情報量の尺度ではなく,「実際に当たる確率」で正しくモデルを評価するべきではないか? そうすれば,選択されたモデルが「有用なモデル」かどうかを判断できる。また,単に「予測力最大」ではなく,コストが少なく「適度の予測力」を持つモデルも選択可能になる。

尤度ではなく発生確率で比較するために,ラプラス哲学にしたがって「真のモデル」を飽和モデルなどもっとも複雑なモデルに固定する。(固定しなければ発生確率の比較にはならない。)

その上で,予測力の改善割合 を考える。将来のデータをすべて知っている「神」が予測した場合に は100%となり,説明変数をまったく持たない「凡人」が予測した場合に が0%となるように改善割合 を定義する。この の推定値として 指数が導出されている。(なお,Laplaceは無神論者だったので,「神」とは言わずに「Intelligence」と言った。)

80

Page 81: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RD指数の定義式RDによるモデル評価(計算式,プログラム)RDによるモデル選択(計算式,プログラム)

RD 指数の定義式

は候補モデルでの対数尤度

は切片だけを含むモデル (null model) における対数尤度

は固定効果パラメーター数とデータ数が等しい最大モデル(maximum model) における対数尤度。

ただし,まず「真のモデル」から分散パラメーターを推定し,その分散パラメーター(つまり確率の定義)を固定して,これらの値を計算。

分母の は切片の数であるため,多変量の場合は,分母の を変量の数に置き換える。

RDの定義式

81

Page 82: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RDの計算例検定に代わるものとしてのAICの使用

RD 指数の計算プログラム

を計算するための1変量用のR関数(RDcompare)およびSAS

マクロが以下のサイトにおいてある。論文の著者版原稿もここに置

いてある。

http://cse.naro.affrc.go.jp/yamamura/RD_criterion_program.html

R用の関数を使えば一般化線型モデルにおいて の計算を自動

的に行うことができる。stepAIC関数と同じく,交互作用に関しては,

パラメーターの優劣関係を自動的に判定してくれる。要因数が多

すぎて誤差の自由度が少ない場合には,あらかじめ分散を推定し

てから,その分散を固定して指定することもできる。

一方,SAS用の関数を使えば一般化線型混合モデルにおいて

の計算を自動的に行うことができる。stepAIC関数と同じく,交互

作用に関しては,パラメーターの優劣関係を自動的に判定してく

れる。82

Page 83: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RDの計算例(LM)

RDの計算例(LM)

近似を用いた場合(ハスモンヨトウのデータで2トラップの場合)

もっとも予測力が高いモデルは交互作用を無視したモデルで

ある。その予測力の改善割合の推定値は = 0.90679867であ

り,予測力は十分に高いことが分かる。

source("RDcompare.txt")RDcompare(log(y+0.5) ~ trap*month, data=MothData)

# RD ranking for the hierarchical family of models #RD Model

1 0.90679867 log(y+0.5) ~ 1 + trap + month 2 0.88850757 log(y+0.5) ~ 1 + trap + month + trap:month3 0.84623461 log(y+0.5) ~ 1 + month 4 0.06056406 log(y+0.5) ~ 1 + trap 5 0.00000000 log(y+0.5) ~ 1

出力の一部

83

Page 84: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RDの計算例(GLMM)RDの計算例(GLMM)RDによるモデル選択例(GLMM)

RDの計算例(GLMM)

Rank ModelDF RD RSD Model1 3 0.93664 0.97052 Trap Month2 4 0.92718 0.96072 Trap Month Trap*Month3 2 0.86550 0.89680 Month4 2 0.05197 0.05385 Trap5 1 0.00000 0.00000

R関数は一般化線形モデルまでしか対応していないが,SASマクロは一般化線形混合モデル(GLMM)まで対応している。結果は以下の通り。最新版 RDcompare 関数では method=laplaceをデフォルトとしているのでnlmixed のデフォルト(qpoints=1)による計算と同じ。

一般化線形混合モデルによる結果は に関する線形モデル分析の結果と近い。個体数が大きい場合には,このようにGLMMをLMで近似することができる。

84

Page 85: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RDの計算例(GLMM)RDの計算例(GLMM)RDによるモデル選択例(GLMM)

RDの計算SASプログラム(GLMM)

title 'Trap data of Oriental leafworm moth';data MothData;input Trap Month y;datalines;1 5 81 6 161 7 551 8 3412 5 162 6 482 7 1122 8 874;* Specify the location of RDcomparSAS.txt.;%inc '/folders/myfolders/RDcompareSAS.txt' / nosource; run;* RD ranking for Poisson GLMM, using RDcompare.;%RDcompare(data = MothData,

class = Trap(ref="1"),DepVar = y, TrueModel = Trap Month Trap*Month,dist = poisson, link = log, ShowModel = 2)

85

Page 86: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

(例)ラットの毒性データ(RDの計算)RDの計算例(GLMM)RDによるモデル選択例(GLMM)

(例)ラットの毒性データ Box and Cox (1964)

カレントディレクトリーにあらかじめ RDcompare.txt をコピーしておく。(カレントディレクトリーの場所は getwd() で調べられる。)source("RDcompare.txt")RDcompare(1/Time~Poison*Treat, data=Rat)

# RD ranking for the hierarchical family of models #RD RSD Model

1 0.8015489 0.9223645 1/Time ~ 1 + Poison + Treat 2 0.7816922 0.8995148 1/Time ~ 1 + Poison + Treat + Poison:Treat3 0.5140040 0.5914786 1/Time ~ 1 + Poison 4 0.2875449 0.3308859 1/Time ~ 1 + Treat 5 0.0000000 0.0000000 1/Time ~ 1

タイプと処理効果の主効果だけを含むモデルの予測力がもっとも高い。その予測力の改善割合は80%なので,かなり予測力は良い。

プログラム

出力の一部

結果の解釈

86

Page 87: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

RDでのモデル選択の柔軟性RDの計算例(GLMM)RDによるモデル選択例(GLMM)

RDでのモデル選択はAICよりも柔軟性が高い

• 必ずしも が最大となるモデルを採択する必要はない。

• 最良モデルと比較してあまり が低下しておらず,かつ,利用しやすいモデルを採用するべきである。たとえば,予測力が1%程度低下するだけなら,それは大したロスではないことも多い。むしろ,効率の悪い説明変数を測定するコストを避ける方がよい。

• 上位モデル群の中から「良いモデル」を選ぶ。(1)説明変数の数が少ないモデルや(2)容易に観測できる説明変数のみからなるモデル,(3)容易に解釈できるモデル,などが良いであろう。

• これに対して,AICは相対的な指数なのでAICが第2位のモデルや第3位のモデルを採択する理屈が存在しない。 それと対照的に,このように では「良いモデル」を柔軟に採択することができる。

87

Page 88: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

計算例:管理者の勤務評定に関する研究計算例単回帰分析

計算例: 管理者の勤務評定に関する研究チャタジー・プライス(1980)「回帰分析の実際」新曜社より

• 大金融機関の事務員について,かれらの「管理者に対する満足度」などを調べたサーヴェイ。6個の説明変数。30の部局で得られた30個のデータがある。

:管理者の行う仕事の全体的評価:被雇用者の不平不満の処理(管理者との人間関係):えこひいきをしない(管理者との人間関係):進取の気性に富む(管理者の仕事に関して):管理者への昇進は仕事ができたからである(管理者の仕事):まずい仕事に対する批判がきびしすぎる(人間関係):仕事が段々おもしろくなる(自分の昇進についての考え)

• データは講義サイトに置いてある「rating.txt」

88

Page 89: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

計算例:管理者の勤務評定に関する研究計算例単回帰分析

計算例: 管理者の勤務評定に関する研究

rating <- read.table("rating.txt", header=TRUE)

rating.lm <- lm(y~X1+X2+X3+X4+X5+X6, data= rating)library(MASS)stepAIC(rating.lm)

• まずはAICで選択してみる。

Step: AIC=118y ~ X1 + X3

Df Sum of Sq RSS AIC<none> 1254.7 118.00- X3 1 114.73 1369.4 118.63- X1 1 1370.91 2625.6 138.16

• データ読み込み

• 結果

89

Page 90: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

計算例:管理者の勤務評定に関する研究計算例単回帰分析

計算例: 管理者の勤務評定に関する研究

source("RDcompare.txt")RDcompare(y~X1+X2+X3+X4+X5+X6, data= rating)

• 次に で分析

# RD ranking for the hierarchical family of models #RD RSD Model

1 0.6464793 0.8751838 y ~ 1 + X1 + X3 2 0.6431086 0.8706207 y ~ 1 + X1 3 0.6409360 0.8676795 y ~ 1 + X1 + X3 + X6 4 0.6305861 0.8536681 y ~ 1 + X1 + X2 + X3 5 0.6240258 0.8447870 y ~ 1 + X1 + X3 + X4 6 0.6237561 0.8444219 y ~ 1 + X1 + X3 + X5 7 0.6229100 0.8432765 y ~ 1 + X1 + X4 8 0.6220949 0.8421731 y ~ 1 + X1 + X2 9 0.6218734 0.8418732 y ~ 1 + X1 + X2 + X3 + X6 10 0.6213290 0.8411361 y ~ 1 + X1 + X6 11 0.6210653 0.8407791 y ~ 1 + X1 + X3 + X4 + X6 12 0.6203872 0.8398613 y ~ 1 + X1 + X5

• 結果

確かにX1+X3が最良だが,X1だけでも0.3%しか予測力は低下しない。

X1だけのモデルを採用すべきだ。

90

Page 91: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

計算例:管理者の勤務評定に関する研究計算例単回帰分析

計算例: 管理者の勤務評定に関する研究

# Parameters of the best 5 model ## Model 1 #

Estimate Std. Error(Intercept) 9.8708805 7.3214464X1 0.6435176 0.1228436X3 0.2111918 0.1393568

# Model 2 #Estimate Std. Error

(Intercept) 14.3763194 6.69067404X1 0.7546098 0.09857435

# Model 3 #Estimate Std. Error

(Intercept) 13.5777411 7.9177491X1 0.6227297 0.1240013X3 0.3123870 0.1618413X6 -0.1869508 0.1520322

• パラメーター推定値

「被雇用者の不平不満の処理」の係数は0.75である。

91

Page 92: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

グレードスコアの場合

グレードスコアの場合の分析法

グレード ツマグロ個体数

(巡回調査:水田20回振り)

甚 1501 ~

多 751 ~ 1500

中 51 ~ 750

少 1 ~ 50

無 0

(例)発生予察実施基準

グレードスコアは順序尺度の変数:一般化線形モデルで分析可能だが,強い仮定が必要。

連続変数

順序変数

名義変数

-、+、++、+++やレベル1、2、3など、程度を区分したデータ

Yamamura K, Nemoto H (2003) Appl Entomol Zool 38:149-156

92

Page 93: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

ツマグロのグレードスコア

「発生予察実施基準」におけるツマグロヨコバイのグレード法の意味

0

1

2

3

4

0 200 400 600 800 1000 1200 1400 1600

グレⅠド

ツマグロ個体数

93

Page 94: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

ノンパラメトリック変数変換グレード法とはノンパラメトリック変数変換だ

曲線は0.47(x+0.5)0.27

0

1

2

3

4

0 200 400 600 800 1000 1200 1400 1600

グレⅠド

ツマグロ個体数

x0.27 は平方根変換と対数変換の間94

Page 95: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

ノンパラメトリック変数変換グレード法とはノンパラメトリック変数変換

普通の分析手順データを採取 → 変数変換 → 分散分析

グレード法データを採取時に変数変換 → 分散分析

ただし,グレードスコアがあらかじめ適切な変数変換になっていることが前提

まずは,グレードの変換をプロットして妥当な変換かどうかを調べる。

95

Page 96: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

グレード区切りの概念

適切なグレード区切りの決定法

適切な変換関数をまず求めておく。同じ程度の変動が生じるように枠を決める。その変換後のスケールで等間隔になるように区切りを決める。例えば,掛け算で決まる値の場合には対数スケールで等間隔にする。

96同じ程度の変動が生じるように枠を決める。

Page 97: 一般化線形モデル - cse.naro.affrc.go.jpcse.naro.affrc.go.jp/yamamura/Images/kenshuu_slide_glm_2018.pdf · 一般化線形モデル一般化線形モデル 平成30年度短期集合研修:数理統計(応用編),2018年11月15日

いい加減な調査の薦め

グレード法のメリット

一所懸命な調査(正確計数)を行った場合1サンプルの処理に時間がかかる→各サンプルの誤差やバイアスが少ないが

総サンプル数が少なくなる→結果的に,調査精度が低い

一見いい加減な調査(=グレード法)を行った場合1サンプルの処理に時間がかからない→各サンプルの誤差やバイアスが大きいが

総サンプル数を多くできる→結果的に,調査精度が高い

ただし,正しいグレード区切りになっているかどうかを一度は確認しておくべき。その後は普通に線形モデルで解析可能。

97