一般化線形混合モデル isseing333

54
1 一般化線形混合モデル GLIMMIX 東京大学医学系研究科 M1 倉橋 一成

Upload: issei-kurahashi

Post on 14-Jun-2015

3.605 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 一般化線形混合モデル isseing333

1

一般化線形混合モデルGLIMMIX

東京大学医学系研究科

M1 倉橋 一成

Page 2: 一般化線形混合モデル isseing333

2

4.Computational Aspects

コンピュータ計算をする際の問題点

分散の初期値:共分散は0,分散は小さな値

分散パラメータが負になるときの対処

two-level problem(Lamotte 1972)作業行列Yの計算方法

Page 3: 一般化線形混合モデル isseing333

3

5.Simulation Study

:個人

:繰り返し

:グループ

:二項結果変数

:試行回数

:変量効果ベクトルの共分散行列

( ) 0 10 1 2 3 1logit kl k l k k l k kE y b t x x t b b tα α α α= + + + + +

1 2

1 0 .50 00 0 0 .25

or = =

D D   

( )1,...,100k =( )1,...,7l =( )1 1,...,50 , 0k kx if k x otherwise= = =        

klxymD

( )1,2,4,8m =( )1 1200, 100→ →D D

以下のモデルによりデータを発生

Page 4: 一般化線形混合モデル isseing333

4

PQLの結果1:パラメータ

mが大きくなるにつれて真値に近づいた

過度に過小評価

負になるものもあるが,mが大きくなるにつれて頻度は減少した

Page 5: 一般化線形混合モデル isseing333

5

PQLの結果2:パラメータの標準誤差

(14)式で求めた分散の標準誤差

(15)式で求めた値を平均して平方根をとったもの

m=1の場合はほとんど一致しない

その他はsimとestはだいたい一致した

Page 6: 一般化線形混合モデル isseing333

6

MQLの結果

(18)式の近似の良さを調べたい

平均構造のモデルを誤特定したときの共分散行列の歪み具合を知りたい

Balanced design→MQLとロジスティック回帰での固定効果の推定値は等しい

の状況:近似は良さそう

の状況: を過大推定, はしばしば負

→係数の符号が逆であることが原因

1D2D 00σ 01σ

Page 7: 一般化線形混合モデル isseing333

7

これまでの復習

混合モデルの記述に2通りの方法がある

1.階層モデル

2.周辺モデル

Breslow and ClaytonはそれぞれPQLとMQLによるパラメータ推定を提案

→実際にSASで使われている解析方法を簡単に紹介

Page 8: 一般化線形混合モデル isseing333

8

例:Hessian Flyの畑への影響

畑を4ブロックに分割し,各ブロックを4×4分割

:block(4ブロック)

:entry(16種)

:その区画に生息する小麦の数(n):害を受けた小麦の数(Y)

生物統計データでは:entry→人?

block→時点?

ijn

ijY

ji

Page 9: 一般化線形混合モデル isseing333

9

データセット

data HessianFly;label Y = ’No. of damaged plants’n = ’No. of plants’;input block entry lat lng n Y @@;

datalines;1 14 1 1 8 2 1 16 1 2 9 1 1 7 1 3 13 9 1 6 1 4 9 91 13 2 1 9 2 1 15 2 2 14 7 1 8 2 3 8 6 1 5 2 4 11 81 11 3 1 12 7 1 12 3 2 11 8 1 2 3 3 10 8 1 3 3 4

12 51 10 4 1 9 7 1 9 4 2 15 8 1 4 4 3 19 6 1 1 4 4 8 7・・・

Page 10: 一般化線形混合モデル isseing333

10

解析1:一般化線形モデル(GLM)仮定

害の受けやすさはそれぞれ独立

同じ区画内の小麦は同じくらい害を受けやすい

→ は独立に二項分布に従う

一般化線形モデルでの解析

ijY

( )64 4 16 4 161 1 1 ,ijE Y I I = ⊗ ⊗ β ( )1 4 1 16, ,..., , ,...,Tb b e eµ β β β β=β

11 1 11 1

1 1

,m c

n nm r rc

a a b bA B

a a b b

= =

11 1

1

m

n nm

a B a BA B

a B a B

⊗ =

のとき, である.ただし,

n×m r×c nr×mc

Page 11: 一般化線形混合モデル isseing333

11

SASプログラム(GLM)

class statement:block,entrymodel statement:結果変数→二項分布

リンク関数→logitオプションにdist=binomial link=logitを挿入しても同じ

proc glimmix data=HessianFly;

class block entry;

model y/n =block entry / solution;

run;

Page 12: 一般化線形混合モデル isseing333

12

結果:model

検定の自由度はresidual法で計算

→オブザベーション数から計画行列のランクを引く方法

DDFMオプションで変更可能

The GLIMMIX Procedure

Model Information

Data Set WORK.HESSIANFLY

Response Variable (Events) Y

Response Variable (Trials) n

Response Distribution Binomial

Link Function Logit

Variance Function Default

Variance Matrix Diagonal

Estimation Technique Maximum Likelihood

Degrees of Freedom Method Residual

Page 13: 一般化線形混合モデル isseing333

13

結果:class,observationClass Level Information

Class Levels Values

block 4 1 2 3 4

entry 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Number of Observations Read 64

Number of Observations Used 64

Number of Events 396

Number of Trials 736

Page 14: 一般化線形混合モデル isseing333

14

結果:dimension

計画行列 :切片,block×4,entry×16

Dimensions

Columns in X 21

Columns in Z 0

Subjects (Blocks in V) 1

Max Obs per Subject 64

X

Page 15: 一般化線形混合モデル isseing333

15

結果:optimization

デフォルト:Newton-Raphson法のランク数だけのパラメータを推定

Optimization Information

Optimization Technique Newton-Raphson

Parameters in Optimization 19

Lower Boundaries 0

Upper Boundaries 0

Fixed Effects Not Profiled

TX X

Page 16: 一般化線形混合モデル isseing333

16

結果:iteration

change:目的関数の変化

Iteration History

Objective Max

IterationRestarts Evaluations Function ChangeGradient

0 0 4 134.13393738 . 4.899609

1 0 3 132.85058236 1.28335502 0.206204

2 0 3 132.84724263 0.00333973 0.000698

3 0 3 132.84724254 0.00000009 3.029E-8

Convergence criterion (GCONV=1E-8) satisfied.

Page 17: 一般化線形混合モデル isseing333

17

結果:fit statistics

-2 Log Likelihoodはnested modelを比較する際に有用

その他はnonnested modelを比較する際に有用

Pearson Chi-Square / DF>1→overdispersion

Fit Statistics

-2 Log Likelihood 265.69

AIC (smaller is better) 303.69

AICC (smaller is better) 320.97

BIC (smaller is better) 344.71

CAIC (smaller is better) 363.71

HQIC (smaller is better) 319.85

Pearson Chi-Square 106.74

Pearson Chi-Square / DF 2.37

Page 18: 一般化線形混合モデル isseing333

18

結果:parameterParameter Estimates

Standard

Effect block entry Estimate Error DF t Value Pr > |t|

Intercept -1.2936 0.3908 45 -3.31 0.0018

block 1 -0.05776 0.2332 45 -0.25 0.8055

block 2 -0.1838 0.2303 45 -0.80 0.4289

block 3 -0.4420 0.2328 45 -1.90 0.0640

block 4 0 . . . .

entry 1 2.9509 0.5397 45 5.47 <.0001

entry 2 2.8098 0.5158 45 5.45 <.0001

entry 3 2.4608 0.4956 45 4.97 <.0001

Page 19: 一般化線形混合モデル isseing333

19

entry 5 2.7784 0.5293 45 5.25 <.0001

entry 6 2.0403 0.4889 45 4.17 0.0001

entry 7 2.3253 0.4966 45 4.68 <.0001

entry 8 1.3006 0.4754 45 2.74 0.0089

entry 9 1.5605 0.4569 45 3.42 0.0014

entry 10 2.3058 0.5203 45 4.43 <.0001

entry 11 1.4957 0.4710 45 3.18 0.0027

entry 12 1.5068 0.4767 45 3.16 0.0028

entry 13 -0.6296 0.6488 45 -0.97 0.3370

entry 14 0.4460 0.5126 45 0.87 0.3889

entry 15 0.8342 0.4698 45 1.78 0.0826

entry 16 0 . . . .

結果:parameter

Page 20: 一般化線形混合モデル isseing333

20

結果:test

固定効果に対するWald流の検定

entry効果が有意

→entry間で害の受けやすさが異なる

Type III Tests of Fixed Effects

Num Den

Effect DF DF F Value Pr > F

block 3 45 1.42 0.2503

entry 15 45 6.96 <.0001

Page 21: 一般化線形混合モデル isseing333

21

過大分散の原因:

二項分布がfitしてない?

重要な主効果が抜けている?

観測値が相関している?

→まずはblock効果を変量効果と考えたモデル

解析2:一般化線形混合モデル(階層モデル)

( ) ( )64 4 16 4 161 1 1ijE Y I I = ⊗ + ⊗ β b

( ) ( )1 16 1 4, ,..., , ,...,T Te e b bµ β β= =β b

Page 22: 一般化線形混合モデル isseing333

22

block効果を変量効果と考えたモデル

結果変数は二項分布を仮定

SASプログラム(階層モデル)

proc glimmix data=HessianFly;

class block entry;

model y/n = entry / solution;

random block;

run;

Page 23: 一般化線形混合モデル isseing333

23

条件付モデルの場合はREMLを使用する

計画行列 :切片,entry×16

:block×4

結果:model,dimension

Estimation Technique Residual PL

Degrees of Freedom Method Containment

Columns in X 17

Columns in Z 4

XZ

Page 24: 一般化線形混合モデル isseing333

24

GLMMではQuasi-Newton法がデフォルト

この方法は二次導関数を必要としない

共分散を指定していない

→Dual Quasi-Newton法

結果:optimization

Optimization Technique Dual Quasi-Newton

Parameters in Optimization 1

Page 25: 一般化線形混合モデル isseing333

25

block効果の分散はかなり小さい

→block要因単独では過大分散に対処できていない

結果:covariance

Cov Standard

Parm Estimate Error

block 0.01116 0.03116

Page 26: 一般化線形混合モデル isseing333

26

変量効果の影響で全体的に減少傾向

結果:parameterStandard

Effect entry Estimate Error DF t Value Pr > |t|

Intercept -1.4637 0.3738 3 -3.92 0.0296

entry 1 2.9609 0.5384 45 5.50 <.0001

entry 2 2.7807 0.5138 45 5.41 <.0001

entry 3 2.4339 0.4934 45 4.93 <.0001

Page 27: 一般化線形混合モデル isseing333

27

周辺モデルによって共分散構造を直接指定

解析3:一般化線形混合モデル(周辺モデル)

proc glimmix data=HessianFly;

class entry;

model y/n = entry / solution ddfm=contain;

random _residual_ / subject=intercept type=sp(exp)(lng lat);

run; 測定誤差行列を指定

全観測値が相関していると仮定

Page 28: 一般化線形混合モデル isseing333

28

SP(EXP)は3倍する→3 × 0.9052 = 2.7156この値はblock内の相関を表している

この相関を考慮した分散が2.5315であ

結果:covariance

Cov Parm Subject Estimate Error

SP(EXP) Intercept 0.9052 0.4404

Residual 2.5315 0.6974

Page 29: 一般化線形混合モデル isseing333

29

F値は大幅に減少しており,過大分散を考慮できていると考えられる

結果:test

Num Den

Effect DF DF F Value Pr > F

entry 15 48 3.60 0.0004

Page 30: 一般化線形混合モデル isseing333

30

相関のあるデータを解析する場合の過大分散に対処するためのモデル

1.G-side random effects models(階層モデル)

2.R-side spatial covariance structure models(周辺モデル)

2つのモデルでは結果が異なる

リンク関数がidenticalな場合は同じ結果となる

簡単なまとめ

Page 31: 一般化線形混合モデル isseing333

31

6.4 Mixed Model for the Log Odds Ratio

小児癌の研究(Oxford S) Oxford Survey of Childhood Cancers(ORCC) RF:妊娠期の放射線(X-ray)の曝露

コホート期間:1953-65 小児癌での死亡年齢:0-9120個の2×2表をもとに各オッズ比を計算

粗解析(Zelen 1971) 死亡年齢(j)ではオッズ比はほぼ等しい

出生年(k)ではオッズ比が異なるKneale(1971) Biometrics,27,563-90

Page 32: 一般化線形混合モデル isseing333

32

データセットの例

出生年(k)/死亡年齢(j) 9 8 7 6 5 ・・・

1944 3 - - - - ・・・

1945 5 2 - - - ・・・

1946 7 7 2 - - ・・・

1947 5 3 5 11 - ・・・

1948 6 6 11 4 4 ・・・

1949 2 8 8 6 5 ・・・

・・・

1957 - - 8 9 8 ・・・

1958 - - - 4 4 ・・・

放射線の曝露を受けていたcase 2×2表の左上の度数

Page 33: 一般化線形混合モデル isseing333

33

SASデータセットdata OSCC;

input cohort aad case ray weight @@;

cards;

1944 9 1 1 3.5 1944 9 0 1 0.5

1944 9 1 0 25.5 1944 9 0 0 28.5

1945 9 1 1 5 1945 9 0 1 2

1945 9 1 0 16 1945 9 0 0 19

1945 8 1 1 2 1945 8 0 1 2

1945 8 1 0 30 1945 8 0 0 30

…非曝露群のコントロールが0だったので0.5を加えた

age at death

X-ray(曝露)

出生年

Page 34: 一般化線形混合モデル isseing333

34

モデル

( )21 2log 22 ,jk k k kYear Yearψ α β β σµ= + + − +

log jk kψ α=

1log ,jk k kYearψ α β σµ= + +

1 2 1 0 0 02 5 4 1 0 0

1 4 6 4 1 00 1 4 6 4 1

T T

− − − = − −

− −

μ Rμ μ μ

( )~ 0,1 , . . .k N i i dµ

1.相対リスクを出生年(k)毎に推定

2.出生年の固定効果と変量効果を考慮

3.出生年の変量効果に自己回帰構造を想定

Page 35: 一般化線形混合モデル isseing333

35

結果(モデル1)

Page 36: 一般化線形混合モデル isseing333

36

結果(モデル1)

外れ値の影響で二次曲線の当てはまりが良いのでは?

Page 37: 一般化線形混合モデル isseing333

37

試行錯誤1(WLS)

data out3;

set out3;

_alpha=0.59; _beta1=-0.05; _beta2=-0.006;

_myu=exp(_alpha+_beta1*year+_beta2*year2);

_weight=1/(N/(N-1)/((1/_myu)+(1/(_myu+n1-m1))+(1/(m1-myu))+(1/(n2-_myu))));

run;proc nlmixed data=out3;

myu=alpha+beta1*year+beta2*year2;

ll=-((logrr-myu)**2)*_weight;

model logrr ~ general(ll);

run;

重み付き最小二乗法(WLS)変量効果無し

重み(分散)を作る

固定効果

Mixedで推定した値

対数尤度

結果変数がこの対数尤度に従うと指定

対数オッズ比

Page 38: 一般化線形混合モデル isseing333

38

思考錯誤2(IWLS)

proc nlmixed data=out3;

myu=alpha+beta1*year+beta2*year2;

weight=1/(N/(N-1)/((1/exp(myu))+

(1/(exp(myu)+n1-m1))+(1/(m1-exp(myu)))+(1/(n2-exp(myu)))));

ll=-((logrr-myu)**2)*weight;

model logrr ~ general(ll);

parms alpha=0.58 beta1=-0.051 beta2=0;

run;

繰り返し重み付き最小二乗法(IWLS)変量効果無し

→WLS,IWLS共にGauss-Hermite quadratureで最適化

初期値を設定

固定効果をモデル化

Page 39: 一般化線形混合モデル isseing333

39

結果1,2(WLS,IWLS)

Estimate StandardError

P Value

alpha 0.5942 0.07556 <.0001beta1 -0.05166 0.01499 0.0008beta2 0.007435 0.002787 0.0087

alpha 0.6867 0.07326 <.0001beta1 -0.02526 0.01198 0.0371beta2 0.001737 0.002162 0.4233

WLS(変量効果無し)

IWLS(変量効果無し)

Page 40: 一般化線形混合モデル isseing333

40

思考錯誤3(IWLS)

proc nlmixed data=out3 method=firo;

exp_myu=exp(alpha+beta1*year+beta2*year2+myu_k);

weight=N/(N-1)/((1/exp_myu)+(1/(exp_myu+n1-m1))

+(1/(m1-exp_myu))+(1/(n2-exp_myu)));

model rr ~ normal(exp_myu,weight);

parms alpha=0.58 beta1=-0.051 beta2=0;

random myu_k ~ normal(0,1) subject=year;

run;

繰り返し重み付き最小二乗法(IWLS)変量効果有り Beal and Sheinerの一次近

似法

結果変数の分布型を指定

変量効果の分布型を指定

変量効果

Page 41: 一般化線形混合モデル isseing333

41

結果3

Estimate StandardError

P Value

alpha 0.9459 0.1243 <.0001beta1 -0.00458 0.01408 0.7482beta2 -0.00378 0.003017 0.2245

IWLS(変量効果有り)

PQLの結果との乖離が大きい

Page 42: 一般化線形混合モデル isseing333

42

結果(モデル3)モデル①の結果

モデル③の結果 モデル①の結果への

二次曲線の当てはめ

モデル②でも二次項は有意になった

変化が平坦になっている

急にリスクが増加

Page 43: 一般化線形混合モデル isseing333

43

スコットランドで口腔癌の発症率を調査

調査期間:1975~1980 56郡で調査

期待死亡数はClayton and Kaldor(1987)が報告

SMRを観測値から計算

目的

郡ごとの相対リスクを知りたい

SMRを知りたい

6.5 Spatial Aggregation in Scottish Lip Cancer Rates

Clayton and Kalder(1987) Biometrics,43,671-81

Page 44: 一般化線形混合モデル isseing333

44

データセット

data lipcancer;

input county observed expected employment SMR;

if (observed > 0) then expCount = 100*observed/SMR;

else expCount = expected;

datalines;

1 9 1.4 16 652.2

2 39 8.7 16 450.3

3 11 3.0 10 361.8

4 9 2.5 24 355.7

・・・

オフセット項の準備

職業:日に当たる時間の代替指標

Page 45: 一般化線形混合モデル isseing333

45

モデル

1.固定効果のみのモデル

2.郡の変量効果が独立であると仮定

3.郡の変量効果に自己回帰構造を想定

0 1log log /10bi i in xµ α α= + +

0 1log log /10 ,bi i i in x bµ α α= + + + ( )2~ 0, , . . .ib N i i dσ

0 1log log /10bi i i in x bµ α α= + + +

:Basag(1991)の構造を仮定R

Page 46: 一般化線形混合モデル isseing333

46

SASプログラム(モデル1)

固定効果の検定:

F検定,t検定→χ2検定,z検定

proc glimmix data=lipcancer;

x = employment / 10;

logn = log(expCount);

model observed = x / dist=poisson offset=logn solution ddfm=none;

SMR_pred = 100*exp(_zgamma_ + _xbeta_);

id employment SMR SMR_pred;

output out=glimmixout;

run;

日照時間を示す変数

オフセット項

データセットに出力する変数の指定

ポアソン分布を仮定

Page 47: 一般化線形混合モデル isseing333

47

SASプログラム(モデル2)proc glimmix data=lipcancer;

class county;

x = employment / 10;

logn = log(expCount);

model observed = x / dist=poisson offset=logn solution ddfm=none;

random county;

SMR_pred = 100*exp(_zgamma_ + _xbeta_);

id employment SMR SMR_pred;

output out=glimmixout;

run;

変量効果を指定

Page 48: 一般化線形混合モデル isseing333

48

パラメータの結果(モデル1,2)Standard

Effect Estimate Error DF t Value Pr > |t|

Intercept -0.5419 0.06951 Infty -7.80 <.0001

x 0.7374 0.05954 Infty 12.38 <.0001Intercept -0.4406 0.1572 Infty -2.80 0.0051

x 0.6799 0.1409 Infty 4.82 <.0001Cov Standard

Parm Estimate Error

county 0.3567 0.09869

モデル1

モデル2

固定効果パラメータがattenuateしている

Page 49: 一般化線形混合モデル isseing333

49

パラメータの結果(モデル1~3)

固定効果パラメータがattenuateしている

固定効果を入れることで分散が減少

→日照時間は地域の影響を良く説明している

固定効果をattenutateさせるような他の因子(交絡要因)がないか考察するべき

Page 50: 一般化線形混合モデル isseing333

50

GLIMMIXとGENMOD

proc glimmix data=lipcancer;

model observed = x / dist=poisson offset=logn solution;

run;

proc genmod data=lipcancer;

model observed = x / dist=poisson offset=logn solution;

run;

GLMMでの周辺モデルとGLIMは同じ

Page 51: 一般化線形混合モデル isseing333

51

SMRの結果(モデル1)

変量効果を考慮していない

共変量が同じ観測値の推定結果が等しくなる

Page 52: 一般化線形混合モデル isseing333

52

SMRの結果(モデル2)

推定値の方がSMRが小さい推定値の方が

SMRが大きい

推定値がshrinkageしている

Page 53: 一般化線形混合モデル isseing333

53

7.Discussion and Conclutions

GLMの枠組みで変量効果を考慮することができた

階層が複雑でもGoldstein(1986)などの方法で解析可能

PQLの問題点

変量効果パラメータが多いとコンピュータ計算が大変

PQLでは分散行列が正定にならないこともある 一次と二次の積率しか与えてないことによる情報不足

固定効果パラメータが分散の推定値に大きく依存

→GibbsサンプリングやBootstrap法が良い場合もある

Page 54: 一般化線形混合モデル isseing333

54

7.Discussion and Conclutions

MQLについて

シミュレーションでは固定効果パラメータがattenuationした

固定効果パラメータについてはMQLとGEEは等しい

他の研究との関連

MQLはGoldsteinのGLMMと等しい

リンク関数が非線形の場合はPQLとNLMIXは等しい

作業行列Yを使うことの正当化

自己回帰構造について

Zeger(1988)やGoldstein(1991)がさらなる研究

このようなモデルはベイズ流のアプローチと関係がある