祝rnf 植生データの解析jsgs.chobi.net/wakate/misc/rnf2016_yasudat.pdf ·...

21
祝RNF 植生データの解析 山梨県富士山科学研究所 安田泰輔

Upload: others

Post on 22-May-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

祝RNF植生データの解析山梨県富士山科学研究所 安田泰輔

Page 2: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

植生データの解析

呑みながら話す機会を作っていただきありがとうございます。すでに呑んでますので、呂律が回らなくなってもご容赦ください。

GLMMに関する良い資料はネットで多数ヒットします。今回は、GLMMの入り口について話します。

2015年度 一般化線形モデルGLM

2016年度 一般化線形混合モデルGLMM

植生データの構造

GLMM

Page 3: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

植生データの構造:Yが1つのとき

基本はY:応答変数とX:説明変数

Y X1 X2 X3

10 1.2 0 0.32

15 5.6 0 0.8923 9.7 1 0.16

0 12.5 1 0.01

9 6.3 0 0.98

… … … …

・Yが1つ、Xが複数・Xは連続変数、離散変数、ダミー変数

このような状況であればGLMが選択しの1つ・Yの確率分布を考える・線形予測子を考える

e.g. mu = a+bX1+cX2+dX3・リンク関数でYと線形予測子を繋げる

e.g. Y = mu, log(Y) = mu・RでGLM : fit<-glm(…)

Page 4: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

植生データの構造:Yがたくさんある

植生データはYが多次元

種あ

種い

種う

1つのコドラート

コドラート番号1種名 被度(%)あ 30

い 15.3

う 80

… …

Page 5: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

なにを解析するか?

種の“まとまり” and/or 種ごと

種あ

種い

種う

種う=Y

・非計量多次元尺度構成法(NMDS)、etc.

・多変量分類木(mvpart):サポートが切れて、CRANからも削除された。自前でインストールの必要あり

一般化線形モデル(GLM)など

Page 6: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

Yが多次元

まとまり

非計量多次元尺度構成法、etc.

多次元でよくわからない、想像もできない

1~3程度の低次元に落とすと見やすくなる

傾向らしきものが出てくるので、Xとの関係から解釈

種ごと

種を取り出してきて、Xとの関係を解析、解釈

今回はこちら

Page 7: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

GLMからGLMMへ

GLMでは対処できない場合がある

架空の人物KKさんのデータを用いて解説

久保拓弥(2012)データ解析のための統計モデリング入門第7章を参考に、草地植生版として説明してみる

Page 8: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

ここでの野外調査設定~KKさんの例

目的

ある草地の種数や種構成など平均的な状況を把握したい

土壌硬度と種(個体群)の出現率の関係を明らかにしたい

調査

1m*1mのコドラートを13個設置

コドラートは4*4=16個に分割されている(小コドラート)

小コドラートに出現した種を記載~出現頻度、occurrence

Page 9: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

補足

優占度の指標として被度

ヒトが目視で図る場合 と 点格子板で図る場合

点格子板で、100点測定し(あるなし)、62点あったときは被度=62点/100点=62%としている。

このデータも、n回中k回観察されたデータとして、二項分布を基礎とした以下の解析を適用できる。

Page 10: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

GLMおさらい

Page 11: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

R:架空のデータセットを作ってGLM

本当

本当→データ生成→推定

“架空のデータセットを作ってGLM:vol.1” の実行結果

Page 12: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

> summary(fit)

Call:

glm(formula = cbind(y, n - y) ~ x, family = binomial, data = dt001)

Deviance Residuals:

Min 1Q Median 3Q Max

-1.27942 -0.15775 0.06343 0.58500 1.69979

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.0496 0.4898 -6.226 4.79e-10 ***

x 1.6451 0.2267 7.256 3.98e-13 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 97.488 on 12 degrees of freedom

Residual deviance: 10.258 on 11 degrees of freedom

AIC: 43.92

Number of Fisher Scoring iterations: 4

β0 = -2.45

β1 = 1.52

Page 13: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

架空の研究者KKさん

このような架空データを使って、これからやろうとしている野外調査の解析を検討しました。

で、調査終了後、解析を始めました…

Page 14: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

野外調査の解析結果“架空のデータセットを作ってGLM:vol.2” の実行結果

データのばらつきが大きいようですが

Page 15: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

> summary(fit)

Call:

glm(formula = cbind(y, n - y) ~ x, family = binomial, data = dt001)

Deviance Residuals:

Min 1Q Median 3Q Max

-3.5591 -1.4163 0.8775 1.9062 4.2947

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.6264 0.3968 -4.099 4.14e-05 ***

x 1.1139 0.1879 5.929 3.06e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 109.352 on 12 degrees of freedom

Residual deviance: 61.676 on 11 degrees of freedom

AIC: 92.663

Number of Fisher Scoring iterations: 4

β0 = -2.45

β1 = 1.52

Page 16: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

summary(fit)の比較

Test: Residual deviance: 10.258 on 11 degrees of freedom

Residual deviance/df = 10.258/11=0.933

Real: Residual deviance: 61.676 on 11 degrees of freedom

Residual deviance/df = 61.676/11=5.607 >1

過(大)分散 Over-dispersion

・データのばらつきは二項分布での範囲内と仮定・もしそうなら、residual deviance/df ~ 1

・しかし、実際のデータの residual deviance/df > 1

草地植生のデータはこのケースが多い

Page 17: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

GLMM

一般化線形混合モデル

全体の変動を表す土壌硬度の効果~固定効果

コドラートごとの“何らかの効果”~ランダム効果

場所間差:パッチ構造、ほかの物理的要因、etc.

このおかげで、期待した確率分布(二項分布)よりもデータのばらつきが大きくなっていると考えられる

Page 18: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

モデル組み立て

1. 確率分布: yi ~ Binomial(pi, n=16)

2. リンク関数: logit(pi) = log(pi/(1-pi))=線形予測子

3. 線形予測子:β0 + β1*xi + ri ri ~ ランダム効果

Page 19: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

GLMM

“架空のデータセットを作ってGLMM” の実行結果 “架空のデータセットを作ってGLM:vol.2” の実行結果

Page 20: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

> fit

Call: glmmML(formula = cbind(y, n - y) ~ x, family = binomial("logit"),

data = dt001, cluster = id)

coef se(coef) z Pr(>|z|)

(Intercept) -2.608 1.1935 -2.185 0.02890

x 1.761 0.5566 3.164 0.00155

Scale parameter in mixing distribution: 1.425 gaussian

Std. Error: 0.4047

LR p-value for H_0: sigma = 0: 1.01e-08

Residual deviance: 30.2 on 10 degrees of freedom AIC: 36.2

β0 = -2.45

β1 = 1.52

s = 1.7

Page 21: 祝RNF 植生データの解析jsgs.chobi.net/wakate/misc/RNF2016_YasudaT.pdf · 植生データの構造:Yが1つのとき 基本はY:応答変数とX:説明変数 y x1 x2

まとめ

植生データは多次元

多変量解析

種ごと

GLMM

二項分布・ポアソン分布での過分散

ランダム効果を含むGLMM~実際の場面で必要

データをプールしないこと