一般化加法モデル(gam)による イベントヒストリー解析 ·...

40
一般化加法モデル(GAM)による イベントヒストリー解析 ○田中 祐輔* 辻谷 将明** *イーピーエス株式会社 臨床情報本部 データサイエンスセンター 統計解析2**大阪電気通信大学 情報通信工学部 Event History Analysis Using GAM Yusuke Tanaka* Masaaki Tsujitani** * Clinical Information Division Data Science Center Statistics Analysis Department 2, EPS Corporation ** Department of Engineering Informatics, Osaka Electro- Communication University

Upload: others

Post on 24-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

一般化加法モデル(GAM)によるイベントヒストリー解析

○田中祐輔* 辻谷将明***イーピーエス株式会社 臨床情報本部 データサイエンスセンター

統計解析2部**大阪電気通信大学 情報通信工学部

Event History Analysis Using GAM

Yusuke Tanaka* Masaaki Tsujitani**

* Clinical Information Division Data Science Center Statistics

Analysis Department 2, EPS Corporation

** Department of Engineering Informatics, Osaka Electro-

Communication University

Page 2: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

要旨:骨髄移植データについて、一般化加法モデル(GAM)を援用した非線形解析を試み、移植後の回復過程の可視化及びイベントが発生した時点での1年後の条件付き生存率を予測する

キーワード:Multi-stateモデル、一般化加法モデル、平滑化スプ

ライン、クロス・バリデーション、適合度検定、影響分析、生存率予測

2

Page 3: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

はじめに

Multi-stateモデル― 骨髄移植データ

一般化加法モデル(GAM)

PROC GAM

生存率予測

まとめ

目次

3

Page 4: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

イベントヒストリー解析共変量の値がイベント(state)ごとに変動する時間依存型データ

はじめに

4

【ベンチマークデータ】骨髄移植データ(136例)― Klein, J.P. and Moeschberger, M.L.(2003).

Survival Analysis, 2nd ed.,Springer.

GAMを援用した非線形解析より1年後の条件付き生存率を予測

Page 5: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

骨髄移植データランダムに発生する種々のイベント(multi-state)を経て、最終の目標事象(生存又は死亡)へ至る

Multi-stateモデル

5

移植

血小板回復

急性GVHD

急性GVHD

死亡慢性GVHD

再発

Page 6: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

共変量Time: 発生日数(時間依存型)Delta3=1: 再発(時間依存型)Za=1: 急性GVHD発症(時間依存型)Zc=1: 慢性GVHD発症(時間依存型)Zp=1: 血小板回復(時間依存型)Z1: 患者年齢Z2: ドナー年齢Z3: 患者の性別(1-男性,0-女性)Z4: ドナーの性別(1-男性,0-女性)Z5: 患者のサイトメガロウイルス(CMV)の免疫状態

(1-陽性,0-陰性)

骨髄移植データ(1/2)

6

Page 7: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

共変量Z6: ドナーのCMV(1-陽性,0-陰性)Z7: 移植までの待時間Z8: French-American-British(FAB)基準の分類

(1-FAB分類で4か5でAML症状, 0それ以外の症状)Z9: 病院(1-OSU, 2-AH, 3-SVH, 4-HU)Z10: GVHD防止薬としてMTX(メトトレキサート)の使用

(0-使用しなかった, 1-使用)g: 病状グループ

(1-急性リンパ芽球性白血病(ALL), 2-急性骨髄性白血病(AML)低リスク, 3-AML高リスク)

骨髄移植データ(2/2)

7

Page 8: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

応答変数に指数分布族を仮定

平滑化関数 の加法モデル

一般化加法モデル(1/2)(Generalized Addtive Models: GAM)

8

s x

0 1ln1

I

ps x s x

p

ロジット変換

平滑化スプライン

: 2値応答1,0Y

Pr( 1)Y p : 確率

Page 9: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

GAMプロシージャ 平滑化関数

―局所回帰(LOESS)―平滑化スプライン(SPLINE)―薄板平滑化スプライン(SPLINE2)

GCV(Generalized Cross Validation:一般化クロス

バリデーション)規準に基づく最適な平滑化パラメータの自動選択

一般化加法モデル(2/2)

9

2

ˆ,y

Hg

nDevV

n tr

GCV :

Page 10: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

PROC GAM (1/2)

10

PROC GAM DATA=DATA1;CLASS Delta3 Zc Zp Z8 g;MODEL Cens(EVENT='死亡') =

PARAM(Delta3 Zc Zp Z1 Z2 Z8 gZp*g Z1*Z2 Zp*Z1 Zp*Z2)

SPLINE(Time)/ LINK=LOGIT DIST=BINOMIAL METHOD=GCV;

OUTPUT OUT=OUT_PRED_FIN PRED;RUN;

① MODELの左辺は目的変数,右辺はモデル式② 線形項: PARAM( VAR1, VAR2, ・・・, VARn)平滑化スプライン: SPLINE( VAR, DF=NUM )

Page 11: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

PROC GAM (2/2)

11

③ METHOD=GCVを指定するとGCV規準に基づいて,Back Fitting algorithmによる最適な平滑化パラメータの選択

PROC GAM DATA=DATA1;CLASS Delta3 Zc Zp Z8 g;MODEL Cens(EVENT='死亡') =

PARAM(Delta3 Zc Zp Z1 Z2 Z8 gZp*g Z1*Z2 Zp*Z1 Zp*Z2)

SPLINE(Time)/ LINK=LOGIT DIST=BINOMIAL METHOD=GCV;

OUTPUT OUT=OUT_PRED_FIN PRED;RUN;

Page 12: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

LOOCV(Leaving-one-out CV)とGCVGCVはLOOCVの近似解1人の患者が複数の観測値をもつ場合

変形ν-重 CV法(1/2)

12

Subj Cens Time Delta3 Za Zc Zp

112 0 17 0 0 0 1

112 0 21 0 1 0 1

112 0 100 0 1 1 1

112 0 268 1 1 1 1

112 1 341 1 1 1 1

135 0 59 0 0 0 1

135 0 113 1 0 0 1

135 1 153 1 0 0 1

#112観測値:5つ

#135観測値:3つ

Page 13: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

変形ν-重 CV法(2/2)

13

PROC GAM DATA=DATA1(WHERE=(WEIG^=0));BY MODEL_ID;CLASS Delta3 Zc Zp Z8 g;MODEL Cens(EVENT='死亡') =

PARAM(Delta3 Zc Zp Z1 Z2 Z8 gZp*g Z1*Z2 Zp*Z1 Zp*Z2)

SPLINE(Time, DF=&I.)/ LINK=LOGIT DIST=BINOMIAL;SCORE DATA=DATA1 (WHERE=(WEIG=0)) OUT=_RESULT0_;

RUN;

PROC GAMではWEIGHTステートメントが使用できないが、BY-SCOREステートメントで代用可能

Page 14: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

スプライン関数 SPLINE(Time) 変形ν-重CV規準

平滑化スプライン(影響分析前)

14

非線形効果の尤度比検定

死亡率

高い

低い

DF=6.8CV値= 303.269逸脱度= 250.634

Page 15: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

DIFDEV影響分析(1/3)

15

0d d

Dev DevDev

検定の方法

::

dd

DevDev

すべての個体を用いたときの逸脱度番目の個体を取り除いたときの逸脱度

dならば、 番目の個体を除去

2 0.05dfdDev

Re Red

df s s ただし、

Page 16: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 20 40 60 80 100 120 140

影響観測値影響分析(2/3)

16症例番号#36(0.00642)

#69(0.0163)

#108(0.00640)

#80(0.0389)

P-V

alu

e

Page 17: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

影響観測値(概要)影響分析(3/3)

17

Subj Cens Time Delta3 Za Zc Zp

36 1 107 0 0 0 0

69 0 12 0 0 0 1

69 1 2204 0 0 0 1

80 0 14 0 0 0 1

80 1 48 0 0 0 1

108 1 2 0 0 0 0

血小板回復以降、他のイベントが発生せずに、2204日目に死亡

Page 18: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

スプライン関数 SPLINE(Time) #36,69,80,108除去

平滑化スプライン(影響分析後)

18

非線形効果の尤度比検定

死亡率

高い

低い

DF=6.8CV値=258.506逸脱度=217.387

Page 19: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

ブートストラップ標本(400組)の逸脱度適合度検定

19

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300

逸脱度

140 160 180 200 220 240 260 280

236.753

DF=6.8CV値=258.506逸脱度=217.387

Page 20: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

1年後条件付き生存率生存率予測(1/4)

20

State(発生日数) GAMの予測値P 生存率 計算式

移植手術時点 - 1.0000 -

血小板回復(17) 0.0162 0.9838 1.0000×(1-0.0162)

急性GVHD(21) 0.0186 0.9655 0.9838×(1-0.0186)

慢性GVHD(100) 0.0745 0.8936 0.9655×(1-0.0745)

再発(268) 0.4547 0.4872 0.8936×(1-0.4547)

再発・1年後(268+365)

0.6138 0.1882 0.4872×(1-0.6138)

再発時点の1年後条件付き生存率

0.1882 / 0.4872 = 0.3863

Page 21: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

0

0.2

0.4

0.6

0.8

1

13 67 121 2081

1年後条件付き生存率

発生日数

GAM

GLM

1年後条件付き生存率(#1: 患者26歳,ドナー33歳)生存率予測(2/4)

21

血小板回復

急性G

VH

D

生存(打切り)

慢性G

VH

D

Page 22: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

0

0.2

0.4

0.6

0.8

1

20 28 104 156

1年後条件付き生存率

発生日数

GAM

GLM

1年後条件付き生存率(#18: 患者20歳,ドナー33歳)生存率予測(3/4)

22

血小板回復

急性G

VH

D 再発

死亡

Page 23: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

0

0.2

0.4

0.6

0.8

1

18 100 288

1年後条件付き生存率

発生日数

GAM

GLM

1年後条件付き生存率(#75: 患者45歳,ドナー43歳)生存率予測(4/4)

23

急性G

VH

D

死亡

慢性G

VH

D

Page 24: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

死亡 打ち切り 死亡 打ち切り 死亡 打ち切り

病状グループ, イベント有無別血小板回復時期に関する解析(1/2)

24

1年後条件付き生存率

ALL AML 低リスク AML 高リスク

Page 25: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

ALL AML 低リスク AML 高リスク ALL AML 低リスク AML 高リスク

血小板数回復までの期間, 病状グループ別

25

1年後条件付き生存率

3週以下 3週超

血小板回復時期に関する解析(2/2)

Page 26: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

GAMを援用した非線形解析

骨髄移植手術後の回復過程の可視化

各患者の1年後条件付き生存率の予測

変形ν-重 CV法の適用

まとめ

26

Page 27: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

Altman,D.G. and De Stavola, B.L.(1994).Practical problems in fitting a proportional hazards model to data

with updated measurements of the covariates,Stat. Med.,13, 301-341.

Andersen, P.K. and Gill,R.D.(1982). Cox's regression model for counting process: A large sample study, Ann.

Statist., 10, 1100-1120.

Andersen,P.K., Borgan, O, Gill,R.D. and Keiding,N.(1993).Statistical Models Based on Counting

Processes,Springer.

Christensen, E., Schlichting, P., Andersen, P.K., Fauerholdt, L., Schou, G., Pedersen, B.V., Juhl, E., Poulsen,

H., Tygstrup, N. and Copenhagen Study Group for Liver Disease (1986).Updating prognosis and therapeutic

effect evaluation in cirrhosis with Cox’s multiple regression model for time-dependent variables, Scand. J.

Gastroenterology, 21, 163-174.

Christensen, E., Altman, D.G., Neuberger, J., De Stavola, B.L., Tygstrup, N., Williams, R. and The PBC1 and

PBC2 Trial groups(1993).Updating prognosis in primary biliary cirrhosis using a time-dependent Cox

regression model, Gastroenterogy, 105, 1865-1876.

Collett, D.(2003). Modelling Survival Data in Medical Research, 2nd ed., Chapman & Hall/CRC.

Collett, D.(2003). Modelling Binary Data, Chapman & Hall.

Cox, D.R.(1975).Partial likelihood, Biometrika, 62, 269-276.

Efron, B.(1988).Logistic regression, survival analysis, and Kaplan-Meier curve, J. Amer. Statist. Assoc., 83,

414-425.

Altman,D.G. and De Stavola, B.L.(1994).Practical problems in fitting a proportional hazards model to data

with updated measurements of the covariates,Stat. Med.,13, 301-341.

参考文献(1/4)

27

Page 28: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

Andersen, P.K. and Gill,R.D.(1982). Cox's regression model for counting process: A large sample study, Ann.

Statist., 10, 1100-1120.

Andersen,P.K., Borgan, O, Gill,R.D. and Keiding,N.(1993).Statistical Models Based on Counting

Processes,Springer.

Christensen, E., Schlichting, P., Andersen, P.K., Fauerholdt, L., Schou, G., Pedersen, B.V., Juhl, E., Poulsen,

H., Tygstrup, N. and Copenhagen Study Group for Liver Disease (1986).Updating prognosis and therapeutic

effect evaluation in cirrhosis with Cox’s multiple regression model for time-dependent variables, Scand. J.

Gastroenterology, 21, 163-174.

Christensen, E., Altman, D.G., Neuberger, J., De Stavola, B.L., Tygstrup, N., Williams, R. and The PBC1 and

PBC2 Trial groups(1993).Updating prognosis in primary biliary cirrhosis using a time-dependent Cox

regression model, Gastroenterogy, 105, 1865-1876.

Collett, D.(2003). Modelling Survival Data in Medical Research, 2nd ed., Chapman & Hall/CRC.

Collett, D.(2003). Modelling Binary Data, Chapman & Hall.

Cox, D.R.(1975).Partial likelihood, Biometrika, 62, 269-276.

Efron, B.(1988).Logistic regression, survival analysis, and Kaplan-Meier curve, J. Amer. Statist. Assoc., 83,

414-425.

Efron, B. and Tibshirani, R.J.(1993). An Introduction to the Bootstrap, Chapman & Hall.

Hastie, T.J. and Tibshirani, R.J.(1990). Generalized Additive Models, Chapman & Hall.

Hastie, T.J., Tibshirani, R.J. and Friedman, J.(2001). The Elements of Statistical Learning: Data Mining,

Inference, and Prediction, Springer.

参考文献(2/4)

28

Page 29: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

Klein, J.P.(2002).Multi-sate models for bone marrow transplantation studies, Ststist. Methods in Med. Res., 11,

117-139.

Klein, J.P., Keiding, N. and Copelan, E.A.(1994).Plotting summary predictions in multistate survival

models:Probabilities of relapse and death in remission for bone marrow transplantation patients, Ststist. in Med.,

13, 2315-2332.

Klein, J.P. and Moeschberger, M.L.(2003). Survival Analysis, 2nd ed.,Springer.

Marubini, E. and Valsecchi, M.G.(1995). Analysing Survival Data from Clinical Trials and Observational

Studies, John Wiley.

McCullagh, P. and Nelder, J.A.(1989). Generalized Linear Models, 2nd ed., Chapman & Hall.

Murtaugh, P.A., Dickson, E.R., Van Dam, G.M., Malinchoc, M., Grambsch, P.M., Langworthy, A.L. and Gips,

C.H.(1994).Primary biliary cirrhosis: Prediction of short-term survival based on repeated patient visits,

apatology, 20, 126-134.

中村剛(2001),『Cox比例ハザードモデル』朝倉書店.

大橋靖雄,浜田和久馬(1995). 『生存時間解析』東大出版.

Tsujitani, M. and Koshimizu, T.(2000). Neural Discriminant Analysis, IEEE Trans. Neural Netw., 11, 1394-

1401.

Tsujitani, M. and Sakon, M.(2009).Analysis of survival data having time-dependent covariates, IEEE Trans.

Neural Netw., 20, 389-394.

Kalbfleisch, J.D. and Prentice, R.J.(2002). The Statistical Analysis of Failure Time Data, 2nd ed., John Wiley.

参考文献(3/4)

29

Page 30: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

辻谷将明,竹澤邦夫(2009). 『Rで学ぶデータサイエンス6,マシンラーニング』共立出版.

Tsujitani, M., Tanaka, Y. and Sakon, M.(2012). Survival analysis with time-dependent covariates

using generalized additive models, Computational and Mathematical Methods in Medicine, 2012,

Article ID 986176.

Tsujitani, M. and Tanaka, Y.(2013). Analysis of heart transplant survival data using generalized

additive models, Computational and Mathematical Methods in Medicine, 2013, Article ID

609857.

辻谷将明,中井崇人,田中祐輔(2013). 骨髄移植データに関するイベントヒストリー解析,投稿中.

Wood, S.N.(2004). Stable and efficient multiple smoothing parameter estimation for generalized

additive models, J. Amer. Statist. Assoc., 99, 673-686,2004.

Wood, S.N.(2006). Generalized Additive Models: An Introduction with R, Chapman & Hall.

Wood, S.N.(2008).Fast stable direct fitting and smoothness selection for generalized additive

models, J. Roy. Statist. Soc.,B70,495-518.

Zhang, P.(1993).Model selection via multifold cross validation, Ann. Statist., 21, 299-313.

参考文献(4/4)

30

Page 31: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

補足資料

Page 32: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

32

2 2

=1

n

i i

i

y s x s x dx

最小にするスプライン関数

s x の曲率

小さいほどモデルの当てはまりは良い

小さいほど滑らかな曲線(曲げ弾性エネルギー)

平滑化スプライン

0

3

1

1

1

12d

n

d

d

y s x x x xc c

平滑化パラメータ

ペナルティ付き残差平方和

Page 33: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

33

平滑化パラメータ の決定

ハット行列

y H yy応答 の予測値:

モデルの自由度

実効自由度(=有効パラメータ数)

Hdf = tr

df自由度 の決定

平滑化パラメータと自由度

Page 34: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

34

で構築したモデルの, の予測値yd

Xd

1例消去(leaving-one-out)CV法

1 2 1 1, , , , , ,X X X X X X

d d n

d

1 2, , ,X X X X

n初期標本:

d番目を除去: 1 , ;Xd d d

I

dx x y

最小にする平滑化パラメータ が最適

1

ˆ ˆ2 ln 1 ln 1n

d d d d

d dd

CV y p y p

クロスバリデーション(CV)

Page 35: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

35

2

1

1

1

y H yni i

i ii

CVn h

•1つの個体を除いて推定したモデルで、除いた

個体の当てはまりを評価することを全データに行う

/I Hntr n

置き換える

クロスバリデーション(CV)

Page 36: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

36

最小にする平滑化パラメータ が最適

2

2

y H y

H

nGCV

n tr

y

有効パラメータ数

残差平方和

(当てはまりの悪さ)

一般化クロスバリデーション(GCV)

Page 37: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

37

最小にする平滑化パラメータ が最適

有効パラメータ数

2

ˆ,y p

Hg

nDevV

n tr

逸脱度

(当てはまりの悪さ)

GCV逸脱度:

2値応答(0 or 1) 予測値(確率)

一般化クロスバリデーション(GCV)

Page 38: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

38

ブートストラップ法

* * *, , , , ,* 1 <2>* d D

b b b b b < > < > < >X X X X X

, , , , ,1 2 d D 初期標本  X X X X X:

の生成( 1,...,400)b

手順2逸脱度の計算

* ˆ2ln ; , 1, 2,...,Dev b L b b B X θ

手順3適合度検定*Dev Dev モデルは妥当でない

*

ˆ2ln ;

1

Dev L

Dev Dev b j

- j B 1

を小さい順に並べたとき、の第番目の値

X θ

手順1 ブートストラップ標本

手順0

Page 39: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

共変量の回帰係数とP値共変量の有意性検定(1/2)

39

共変量 回帰係数 P値

再発の有無(Delta3) 0.508 0.167

慢性GVHD(Zc) -1.069 0.003

血小板回復(Zp) -8.793 0.001

患者年齢(Z1) -0.803 <0.001

ドナー年齢(Z2) 0.453 0.002

FAB基準(Z8) -0.623 0.168

病状グループ(g) ALL -1.796 0.254

病状グループ(g) AML 高リスク -4.969 0.003

Page 40: 一般化加法モデル(GAM)による イベントヒストリー解析 · 一般化加法モデル(GAM)による イベントヒストリー解析 田中祐輔* 辻谷将明** *イーピーエス株式会社臨床情報本部データサイエンスセンター

共変量の回帰係数とP値(交互作用)共変量の有意性検定(2/2)

40

共変量 回帰係数 P値

血小板回復(Zp)×病状グループ(g) ALL

2.731 0.103

血小板回復(Zp)×病状グループ(g) AML 高リスク

5.747 0.001

患者年齢(Z1)×ドナー年齢(Z2) 0.004 0.009

血小板回復(Zp)×患者年齢(Z1) 0.728 <0.001

血小板回復(Zp)×ドナー年齢(Z2) -0.583 <0.001