logisticプロシジャに よる解析と最新の機能拡張logisticプロシジャに...

Post on 28-Feb-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

LOGISTICプロシジャに

よる解析と最新の機能拡張 映画「タイタニック」のロマンティック回帰

浜田知久馬 東京理科大学

Analysis of SAS LOGISTIC procedure and new

functions.

Chikuma Hamada

Tokyo University of Science

1

要旨:

生存・死亡のような2値データの多変量解析を行うLOGISTICプロシジャについて,モデル構築の方法のチュートリアルを行う.

またLOGISTICプロシジャのV.9.3までの

機能拡張について紹介する.

キーワード:LOGISTIC ROC曲線, 多重性調整オッズ比,

Firth’s Penalized Likelihood 2

内容

1)オッズ比,予測確率のプロット等,グラフ表示のODS GRAPHICSの機能の充実

2)CONTRAST,ESTIMATE,LSMEANS,LSMESTIMATE,ODDSRATIOO文を利用することで

共変量と多重性の双方を同時に調整した解析

3)ROC曲線を,ROC文で作成し,ROCCONTRAST文で複数のモデル間でAUCの比較

4)MODEL文のFIRTHオプションでFirth’s Penalized Likelihoodに基づいた推測

3

映画「タイタニック」

運命を変える恋がある

ロジステイック回帰で ロマンテイック回帰 ジャックとローズの ラブロマンスが かなう確率を分析

ジャック ローズ

4

5

SASによるロジステイック回帰

LOGISTICプロシジャ

CATMODプロシジャ

GENMODプロシジャ

INSIGHTプロシジャ

PROBITプロシジャ

GLIMMIXプロシジャ

5

生存 死亡

何が影響をあたえるか

6

ロジスティックモデル

ある現象の発生する確率(割合) を

その現象の生起を説明するために観測された変数群

で説明するモデルを考える,r個の変数群 の下で現象が生起するという条件付き確率を で表し,これを,

x

),,(},,,|Pr{)( 121 rr xxFxxxp 生起x

という分布関数Fを用いてモデル化

)(xp

)(xp

),,,( 21 rxxx x

7

ロジスティックモデル 分布関数Fを用いてモデル化:

)exp(1

)exp(

),,,(

},,,|Pr{)(

22110

22110

21

21

rr

rr

r

r

xxx

xxx

xxxF

xxxp

生起x

z

z

rr

ZZ

ZZF

xxxZ

718.21

718.2

)exp(1

1

)exp(1

)exp()(

22110

ロジスティック関数:

8

ロジスティック曲線

Z +∞ -∞

Probability

確率p

001

0)-(

1718.2

718.2)(

5.011

1

718.21

718.2)0(

718.21

718.2

)exp(1

)exp()(

0

0

p

p

p

Z

ZZp

z

z

z

z

9

+∞ -∞

ロジスティック曲線とオッズ

イベント発現確率p

z1

1-p1

p1

1-p2

p2 Z

p

p

p

podds

Z

Zp

1log

1

)exp(1

)exp(

z2

1

1

2

2

1

1

p

p

p

p

OR

10

ロジット(logit)

という対数オッズのロジット上記左辺を

うとここから,式変形を行

)()(

)(1

)(log

)exp(1

1

)exp(1

)exp()(

22110

22110

22110

22110

x

x

x

x

p

xxxp

p

xxx

xxx

xxxp

rr

rr

rr

rr

11

オッズ(odds):p/(1-p)

させたときのオッズ比

1単位変化他の変数固定で,xを

に対するオッズというの上記左辺を

:)exp(

)(1)(

expexp

)1(exp)(1

)(

)1()(1

)(log

122110

22110

22110

xx

x

x

x

x

pp

xxx

xxxp

p

xxxp

p

rr

rr

rr

12

説明変数が1つの場合

xp

p10

1log

x

xp

10

10

exp1

exp

x=0:drug- x=1:drug+

薬剤

薬剤

+

イベント

+ 5 10

イベント

- 95 90

11.2905

95101

ORe

13

likelihood(尤度)

尤度(L)=モデルの下でデータが得られる確率

最尤法:β0,β1の値を動かしてLが最も大きくなるようにする方法

MLE:Maximum Likelihood Estimator

9010955)1()1( ppppL

10

10

0

0

exp1

exp,

exp1

exp

pp

薬剤

薬剤

+

イベント

+ 5 10

イベント

- 95 90

14

尤度曲面 尤度

0 1

9010955)1()1( ppppL

(-2.94,0.75)

15

対数尤度曲面 対数尤度

0 1

(-2.94,0.75)

)1log(90log10)1log(95log5log ppppL

16

絨毯爆撃 パラメータが多いと破綻

0 1

尤度

17

0log

0

d

Ld 0log

1

d

Ld

(-2.94,0.75)

0 1

対数尤度 山の頂点では傾きは0

18

対数尤度とスコア関数

ba

appdcpbaca

d

LdU

dc

cppdcc

d

LdU

pdpcpbpaL

ppppL dcba

0)()(log

)(

0)(log

)(

)1log(log)1log(loglog

)1()1(

0

0

1

1

薬剤

薬剤

+

イベント

+ a c

イベント

- b d

19

最尤推定量

ad

bc

p

p

p

p

d

c

dcc

dcc

p

p

b

a

baa

baa

p

p

xp

p

log1

log1

log

log)(1

)(log

1log

log)(1

)(log

1log

1log

1

10

0

10

薬剤

薬剤

+

イベント+ a c

イベント- b d

データセットNeuralgia(N=60) Example 53.2 Logistic Modeling with Categorical Predictors

高齢者のNeuralgia(神経痛)に対する

鎮痛薬の試験

反応変数:Pain(痛みの有無:Yes, No)の消失率

群変数:Treatment(治療:P(プラセボ),A,B)

共変量:Sex(性別:F, M)

Age(治療開始時の年齢:連続量)

Duration(履病期間:連続量(月)) 20

データセットNeuralgia(N=60) Data Neuralgia;

input Treatment $ Sex $ Age Duration Pain $ @@;

datalines;

P F 68 1 No B M 74 16 No P F 67 30 No P M 66 26 Yes

B F 67 28 No B F 77 16 No A F 71 12 No B F 72 50 No

B F 76 9 Yes A M 71 17 Yes A F 63 27 No A F 69 18 Yes

B F 66 12 No A M 62 42 No P F 64 1 Yes A F 64 17 No

P M 74 4 No A F 72 25 No P M 70 1 Yes B M 66 19 No

B M 59 29 No A F 64 30 No A M 70 28 No A M 69 1 No

B F 78 1 No P M 83 1 Yes B F 69 42 No B M 75 30 Yes

P M 77 29 Yes P F 79 20 Yes A M 70 12 No A F 69 12 No

B F 65 14 No B M 70 1 No B M 67 23 No A M 76 25 Yes

P M 78 12 Yes B M 77 1 Yes B F 69 24 No P M 66 4 Yes

P F 65 29 No P M 60 26 Yes A M 78 15 Yes B M 75 21 Yes

A F 67 11 No P F 72 27 No P F 70 13 Yes A M 75 6 Yes

B F 65 7 No P F 68 27 Yes P M 68 11 Yes P M 67 17 Yes

B M 70 22 No A M 65 15 No P F 67 1 Yes A M 67 10 No

P F 72 11 Yes A F 74 1 No B M 80 21 Yes A F 69 3 No ;

21

データセットNeuralgia:痛みの消失率

22

5/20=25%

15/20=75% 15/20=75%

955

1515

da

cbOROR BPAP

LOGISTICの基本プログラム ods graphics on;

proc logistic PLOTS=(ODDSRATIO EFFECT)

data=neuralgia;

class treatment sex/param=glm;

model pain= treatment;

oddsratio treatment;

run;

ods graphics off; 23

パラメータ推定値とオッズ比

24

最尤推定値の分析

パラメータ 自由度 推定値 標準誤差 Wald カイ 2 乗

Pr > ChiSq

Intercept 1 -1.0986 0.5164 4.5261 0.0334

Treatment A 1 2.1972 0.7303 9.0521 0.0026

Treatment B 1 2.1972 0.7303 9.0521 0.0026

Treatment P 0 0 . .

オッズ比推定と Wald による信頼区間 oddsratio treatment ラベル 推定値 95% 信頼限界

Treatment A vs B 1.000 0.239 4.184

Treatment A vs P 9.000 2.151 37.659

Treatment B vs P 9.000 2.151 37.659

PLOTS=(ODDSRATIO) デフォルトはdiff=all

25

955

1515

BPAP OROR

1155

515

BAOR

PLOTS=(EFFECT)

26

15/20=75% 15/20=75%

5/20=25%

oddsratio treatment /diff=ref; 基準群との比較

デフォルトはdiff=all

27

PLOTS=(ODDSRATIO(LOGBASE=E))

28 自然対数(等比スケール),Wald型では左右対称

1/2.718 1 2.718 2.7182 2.7183

2.15 9.00 37.66

4.18倍 4.18倍

PLOTS=(ODDSRATIO(RANGE=CLIP)) 点推定値が最小と最大の範囲

29

最小:1

最大:9

PLOTS=(ODDSRATIO(RANGE=(0,30))) オッズ比の範囲を指定

30

PLOTS=(ODDSRATIO(TYPE=VERTICAL)) 垂直に信頼区間をプロット

31

PLOTS=(ODDSRATIO(TYPE=HORIZONTALSTAT)) ORの数値をグラフにプロット

32

oddsratio treatment /cl=pl; 尤度比検定に基づく信頼区間

33

オッズ比推定とプロファイル尤度による信頼区間

ラベル 推定値 95% 信頼限界

Treatment A vs B 1.000 0.233 4.301

Treatment A vs P 9.000 2.306 41.745

Treatment B vs P 9.000 2.306 41.745

オッズ比の多重比較 lsmeans treatment/adj=tukey cl exp ;

34

Treatment の最小 2 乗平均の差

多重比較の調整 : Tukey

Treatment

_Treatment

調整済 P

アルファ

指数 Exponentiated

Exponentiated

調整済 調整済

Lower Upper 下限 Exp

上限 Exp

A B 1 0.05 1 0.239 4.184 0.181 5.538

A P 0.007 0.05 9 2.151 37.66 1.625 49.84

B P 0.007 0.05 9 2.151 37.66 1.625 49.84

オッズ比

多重性調整オッズ比

日本語訳の不統一はひどい

未調整オッズ比

多重性調整p値

オッズ比の多重比較 lsmeans treatment/adj=tukey cl exp;

35

P-A P-B の比較

A-B の比較

実線が対角線(点線)を含まなければ有意

オッズ比の多重比較 lsmeans treatment/adj=dunnett diff=control(“P”) cl exp ;

P群との比較

Treatment の最小 2 乗平均の差

多重比較の調整 : Dunnett

Treatme

nt

_Treatm

ent

調整済

P

アルファ 指数 Expone

ntiated

Expone

ntiated

調整済 調整済

Lower Upper 下限

Exp

上限

Exp

A P 0.0051 0.05 9 2.1509 37.6593 1.7891 45.274

B P 0.0051 0.05 9 2.1509 37.6593 1.7891 45.274

36

多重性調整オッズ比 未調整オッズ比

多重性調整p値

交絡を調整したオッズ比

ods graphics on;

proc logistic data=Neuralgia PLOTS=(ODDSRATIO(TYPE=HORIZONTALSTAT));

class treatment sex / param=glm;

model pain= treatment sex age duration;

oddsratio treatment;

run;

37

交絡を調整したオッズ比 各変数の検定結果

効果に対する Type 3 分析

効果 自由度 Wald カイ 2 乗

Pr > ChiSq

Treatment 2 12.5310 0.0019**

Sex 1 5.2946 0.0214*

Age 1 7.2977 0.0069**

Duration 1 0.0315 0.8591

38

交絡を調整したオッズ比 パラメータ推定値

最尤推定値の分析

パラメータ 自由度 推定値 標準誤差

Wald カイ 2 乗

Pr > ChiSq

Intercept 1 15.5744 6.5915 5.5828 0.0181

Treatment A 1 3.1817 1.0161 9.8049 0.0017**

Treatment B 1 3.7085 1.1407 10.5700 0.0011**

Treatment P 0 0 . . .

Sex F 1 1.8322 0.7963 5.2946 0.0214*

Sex M 0 0 . . .

Age 1 -0.2621 0.0970 7.2977 0.0069**

Duration 1 0.00586 0.0330 0.0315 0.8591 39

交絡のみを調整したオッズ比

40

多重性と交絡を調整したオッズ比

ods graphics on;

proc logistic data=Neuralgia PLOTS=(ODDSRATIO(TYPE=HORIZONTALSTAT));

class treatment sex / param=glm;

model pain= treatment sex age duration;

lsmeans treatment/adj=tukey cl exp;

run;

41

多重性と交絡を調整したオッズ比 Treatment の最小 2 乗平均の差 多重比較の調整 : Tukey-Kramer(調整後)

Treatment

_Treatment

Pr > |z| 調整済 P

指数 Exponentiated Lower

Exponentiated Upper

調整済 下限 Exp

調整済 上限 Exp

A B 0.5740 0.8402 0.5905 0.09409 3.7053 0.06567 5.3088

A P 0.0017 0.0050 24.0874 3.2876 176.48 2.2261 260.64

B P 0.0011 0.0033 40.7942 4.3616 381.55 2.8154 591.09

オッズ比推定と Wald による信頼区間(参考 未調整)

ラベル 推定値 95% 信頼限界

Treatment A vs B 1.000 0.239 4.184

Treatment A vs P 9.000 2.151 37.659

Treatment B vs P 9.000 2.151 37.659 42

多重性調整オッズ比 多重性調整p値

予測確率のプロット

ods graphics on;

proc logistic data=Neuralgia PLOTS=(EFFECT);

class treatment sex / param=glm;

model pain= treatment sex age duration;

oddsratio Treatment;

run;

43

消失率の予測確率のプロット

B F

AF

P F

PM

BM AM

年齢とともに低下 A,B,女性は高い

44

平均履病期間

等高線プロット

ods graphics on;

proc logistic data=Neuralgia;

model pain= age duration;

effectplot contour;

run;

ods graphics off;

45

等高線プロット 平面 model pain= age duration;

46

モデルの適合度統計量

基準 切片のみ 切片と共変量

AIC 83.503 78.472

SC 85.598 84.755

-2 Log L 81.503 72.472

●:No 消失 ●:Yes 痛み有

予測確率を 等高線で結ぶ

罹病期間が長くて 低年齢な人の 消失率が高い

等高線プロット 年齢の2次の項追加

ods graphics on;

proc logistic data=Neuralgia;

model pain= age age*age duration;

effectplot contour;

run;

ods graphics off;

47

等高線プロット 曲面 model pain= age age*age duration;

48

モデルの適合度統計量

基準 切片のみ 切片と共変量

AIC 83.503 77.790

SC 85.598 86.167

-2 Log L 81.503 69.790

●:No 消失 ●:Yes 痛み有

等高線プロット 交互作用項の追加

ods graphics on;

proc logistic data=Neuralgia;

model pain= age age*age duration duration*duration age*duration;

effectplot contour;

run;

ods graphics off; 49

50

等高線プロット 曲面 model pain= age age*age duration duration*duration age*duration;

モデルの適合度統計量

基準 切片のみ

切片と共変量

AIC 83.503 76.235

SC 85.598 88.801

-2 Log L 81.503 64.235

罹病期間が長くて,低年齢な人の消失率が高い

●:No 消失 ●:Yes 痛み有

モデルの比較

モデル(切片を含むパラメータ数) -2 Log L AIC

duration(2) 79.886 83.886

age(2) 73.056 77.056

age duration(3) 72.472 76.472

duration duration*duration age(4) 70.996 78.996

duration age age*age(4) 69.790 77.790

duration duration*duration age age*age(5)

68.360 78.360

duration duration*duration age age*age age*duration(6)

64.235 76.235

AIC最小 51

ROC(Receiver Operating Characteristic)曲線

52

Negative

Threshold(閾値)を下げると 陽性率 疾患(感度) 健常(1-特異度) が増加

偽陽性

真陰性 特異度

真陰性

健常群

疾患群

閾値

真陽性 感度

53

ROC(Receiver Operating Characteristic)曲線

真陽性 感度

偽陽性 1-特異度

閾値を下げる

data work;

input group time censor @@;

cards;

1 4 1 1 6 1 1 8 1

2 5 1 2 7 1 2 9 1

;

proc logistic PLOTS=ROC descending;

model group=time;run;

疾患なし * * *

疾患あり * * *

54

疾患なし * * *

疾患あり * * * 閾値

ROC曲線

感度:疾患ありで閾値以上

1-特異度:疾患なしで閾値以上

AUC=6/9 0.2 0.3 0.4 0 .5 0.6 0 .7 0.8

55

ROC曲線下の面積(AUC) AUCが1に近い方が予測力が高い

感度

1-特異度

曲線下面積(AUC: Area Under the Curve) 0.5~1

AUC 0.9 - 1.0 High accuracy

AUC 0.7 - 0.9 Moderate accuracy

AUC 0.5 - 0.7 Low accuracy

Mann-WhitneyのAUC?

56

(0,1)感度=1,特異度=1

ROC曲線のAUCの解釈

「疾患あり」集団が「疾患なし」集団より

予測確率が高くなる割合

「疾患あり」の集団から1人,「疾患なし」の集団から1人,それぞれランダムに選んだとき,「疾患あり」の人の予測確率が「疾患なし」の人の検査値よりも大きくなる確率

どちらの予測確率が高いか

「疾患あり」 「疾患なし」 57

Mann-WhitneyのAUC

0

5.

1

),(

),(NN

AUC

:

:

:N

:N

21

21

21

21

21

N

1

N

121

2

1i

2

1

1 2

ji

ji

ji

jiij

ji

i j

ij

j

pp

pp

pp

ppU

ppU

jp

ip

の予測確率疾患なし群の個体

の予測確率疾患あり群の個体

サイズ疾患なし群のサンプル

サイズ疾患あり群のサンプル

58

p11 p12 ・・・

p21 0 1

p22 1 1

・・・

N1人

N2人

N1× N2人の 予測確率の比較

疾患あり

疾患なし 1-3

5 (0.37)

1-2

7 (0.55)

1-1

9 (0.71)

2-1

8 (0.63)

2-2

6 (0.45)

2-3

4 (0.29) 59

疾患なし * * *

疾患あり * * * 3 2 1

1は疾患なしの 3人より値が大

2は疾患なしの 2人より値が大

1は疾患なしの 3人より値が大 3

2

3

1

3

1

3

2

3

1

3

3

3

1AUC

(0.00,0.33)

(0.33,0.67)

(0.67,1.00)

面積は=6/9

60

予測値の分布とAUC

予測値の分布

疾患なし 疾患あり

ROC曲線

AUC=1 感度=1 1-特異度=1

AUC=0.8 感度> 1-特異度

AUC=0.5 感度= 1-特異度

AUC 61

感度=1 特異度=1

感度≒1-特異度

(0,1)

閾値右

閾値左

ROC曲線の作成とAUCの比較 モデル(4変数) ods graphics on;

proc logistic data=Neuralgia PLOTS=ROC(ID=PROB);

class treatment sex/param=glm;

model pain= treatment sex age duration;

roc 'age' age ;

roc 'duration' duration;

roccontrast reference(model)/estimate e;

run;

62

ROC曲線の作成:4変数(モデル)

63

ROC曲線の作成:ageのみ

64

ROC曲線の作成:durationのみ

65

ROC曲線の比較

66

モデル(4変数)

age

duration

AUCの比較

ROC 関連性の統計量

ROC モデル

Mann-Whitney Somers の D (Gini)

ガンマ Tau-a

面積 標準 誤差

95% Wald 信頼限界

モデル (4変数)

0.9051 0.0412 0.8244 0.9858 0.8103 0.8103 0.4006

age 0.7011 0.0717 0.5605 0.8418 0.4023 0.4211 0.1989

duration 0.5806 0.0744 0.4348 0.7263 0.1611 0.1693 0.0797

67

AUCの比較 ROC 対比の係数

ROC モデル Row1 Row2

モデル -1 -1

age 1 0

duration 0 1

68

ROC 対比検定の結果 3種類のモデル全体でAUCに差があるか

対比 自由度 カイ 2 乗 Pr > ChiSq

Reference = モデル 2 20.0075 <.0001

行ごとの ROC 対比推定と検定の結果

対比 推定値 標準 誤差

95% Wald 信頼限界

カイ 2 乗 Pr > ChiSq

age - モデル -0.2040 0.0743 -0.3496 -0.0584 7.5402 0.0060**

duration - モデル -0.3246 0.0815 -0.4842 -0.1649 15.8789 <.0001**

69

0セルがある場合の例

薬剤

薬剤

+

イベント

+

5 10 15

イベント

5 0 5

計 10 10 20

薬剤

薬剤

+

イベント

+

a c n-・

イベント

b d n+・

計 n・- n・+ n

05

510

da

bcOR

c=0のときOR=0

オッズ比は∞,信頼区間は構成不能

10

05

510

da

bcOR

70

0セルがある場合の解析(FREQ) data data;

input x y w @@;

cards;

0 0 5 0 1 5 1 0 0 1 1 10

;

ods graphics on;

proc freq;

tables x*y/ plots=freqplot(TWOWAY=stack)cmh; weight w;run;

71

相対リスクの推定値 ( 行 1 / 行 2 )

研究の種類 調整方法 値 95% 信頼限界

ケースコントロール研究

Mantel-Haenszel

. . .

(オッズ比) ロジット ** 21.0000 0.9716 453.9116

コーホート研究

Mantel-Haenszel

. . .

(列 1 のリスク) ロジット ** 11.0000 0.6880 175.8626

コーホート研究

Mantel-Haenszel

0.5000 0.2690 0.9293

(列 2 のリスク) ロジット 0.5000 0.2690 0.9293

計算していない推定値があります。 ** セル度数が 0 を含む表の場合には、その表の 全セルに0.5を加えて、調整を行っています。

215.0

5.10

5.05.5

5.105.5

OR

72

CMHオプション

セル度数+0.5

薬剤

薬剤

+

イベント

+

5.5 10.5 11

イベント

5.5 0.5 6

計 11 11 202

薬剤

薬剤

+

イベント

+

a+.5 c+.5 n-・+1

イベント

b+.5 d+.5 n+・+1

計 n・-+1 n・++1 n+2

0.215.05.5

5.105.5

da

bcOR

73

LOGISTICプロシジャによる解析

proc logistic descending;

model y=x ;freq w;run;

proc logistic descending;

model y=x /firth;freq w;run;

proc logistic descending;

model y=x /;exact x/estimate=both;

freq w;run; x

xp

10

10

exp1

exp

74

通常の解析 最尤推定値の分析

パラメータ 自由度 推定値 標準誤差 Wald カイ 2 乗

Pr > ChiSq

Intercept 1 -106E-18 0.6325 0.0000 1.0000

x 1 12.5661 169.3 0.0055 0.9408

オッズ比の推定

効果 点推定値 95% Wald 信頼限界

x >999.999 <0.001 >999.999

WARNING: 恐らくデータ点が準完全分離の状態です。最尤推定値は存在しないかもしれません。 WARNING: LOGISTICプロシジャは上記の警告にもかかわらず継続します。 最尤反復に基づいて結果が表示されます。モデルの当てはめの妥当性は疑わしいです。

x

xp

exp1

exp

75

反復計算の履歴 β0 →0 β1→+∞

最大尤度反復履歴

反復 リッジ -2 対数尤度 Intercept x

0 0 22.493406 1.098612 0

1 0 15.684718 -0.234721 2.666667

2 0 14.446460 0.002161 3.517650

3 0 14.073301 -1.682489E-9 4.549416

4 0 13.939772 6.938894E-17 5.559990

5 0 13.891133 -1.07553E-16 6.563839

6 0 13.873304 7.112366E-17 7.565249

7 0 13.866754 -1.06252E-16 8.565767

8 0 13.864345 7.123208E-17 9.565958

9 0 13.863459 -1.0636E-16 10.566028

10 0 13.863133 7.127274E-17 11.566054

11 0 13.863013 -1.06353E-16 12.566063

1

0

76

準完全分離:complete separation

10

01055

,0

110/10,5.010/5

)1()1(

pp

ppppL

x

x

x

xp

exp1

exp

exp1

exp

10

10

1

77

Firth法:パラメータ推定値 最尤推定値の分析

パラメータ 自由度 推定値 標準誤差 Wald カイ 2 乗

Pr > ChiSq

Intercept 1 -0.00003 0.6325 0.0000 1.0000

x 1 3.0446 1.6446 3.4270 0.0641

オッズ比の推定

効果 点推定値 95% Wald 信頼限界

x 21.001 0.836 527.438

78

Firth法:予測確率と信頼区間

79

80

ロジスティック回帰 likelihood(尤度)

薬剤-:x=0,薬剤+:x=1 尤度(L)=モデルの下でデータが得られる確率

最尤法:β0,β1の値を動かしてLが最も大きくなるようにする方法

MLE:Maximum Likelihood Estimator

01055)1()1( ppppL

10

10

0

0

exp1

exp,

exp1

exp

pp

薬剤

薬剤

+

イベント

+ 5 10

イベント

- 5 0

81

対数尤度とスコア関数

55

50)010()55(105

log)(

010

100)010(10

log)(

)1log(0log10)1log(5log5log

)1()1(

0

0

1

1

01055

pppd

LdU

ppd

LdU

ppppL

ppppL

薬剤

薬剤

+

イベント

+ 5 10

イベント

- 5 0

82

最尤推定量

05

510log

1log

1log

0

10log

)010(101

)010(10log

1log

05

5log

)55(51

)55(5log

1log

1log

1

10

0

10

p

p

p

p

p

p

p

p

xp

p

薬剤

薬剤

+

イベント+ 5 10

イベント- 5 0

尤度曲面

0 1

尤度

83

β0 →0 β1→+∞

01055)1()1( ppppL

))1()1(log(log 01055

ppppL対数尤度 の等高線

0

184

β0 →0 β1→+∞

Firth法:一般論 尤度に罰則項を積算

)exp(1

)exp(

)()(5.0)()(

0.5,:)(

)(log5.0)|L(log)|(logL

)()|L()|(L

)(,:)(),|L(

10

10

1*

5.0

*

5.0*

i

ii

x

xp

d

dIItrUU

I

I

I

IU

単変量のモデル:

乗情報行列の行列式の罰則項

罰則項付き尤度:

情報行列:スコア関数尤度:

β

ββββ

β

βYβYβ

βYβYβ

ββYβ

85

86

単変量ロジスティックモデル

)()()(

)(

)exp(1

)exp(log

)(

)exp(1

)exp(log

)exp(1log)(log

)exp(1

1

)exp(1

)exp(

10

10

1

1

10

10

0

0

1010

1

1010

10

iiiiiii

T

iii

i

iiii

ii

i

ii

iii

y

i

y

i

i

pyxpypy

pyx

x

xxyx

d

LdU

py

x

xy

d

LdU

xxyL

xx

xL

ii

ixU

87

情報行列

)1()1(

)1()1(

loglog

loglog

log

2

11

2

01

210

2

00

2

iiiiii

iiiii

T

ppxppx

ppxpp

dd

Ld

dd

Ld

dd

Ld

dd

Ld

dd

Ld

ββI

推定値の分散は情報行列 の逆行列によって与えられる.

88

情報行列(2×2の分割表) xiは0,1

)1()1(

)1())(1()()(||

)1()(

)1()()1()(

)1()1(

)1()1(

2

2

ppppnn

ppbappdcfeffefI

ppdcf

ppdcppbae

ff

fe

ppxppx

ppxpp

iiiiii

iiiiiI

Firth法のpenalized尤度L* 尤度と情報量の積を最大化

)5.0)(5.0(

)5.0)(5.0()exp(

)1()1(

)]1()1([)1()1(*

)1())(1()(||

)1()1(

||*

1

5.5.5.5.

2/1

2/1

da

cbOR

pppp

ppppppppL

ppbappdcI

ppppL

ILL

dcba

dcba

dcba

89

Firth法のpenalized尤度L* 0セルが存在する場合(d=0)

5.0||

1

)1())(1(

)1())(1()(||

)1(

)1()1(

][][||* 2/1

pIMax

pLMax

ppbapcp

ppbappdcI

ppp

ppppL

yVyVLILL

cba

dcba

p(1-p) (0.5,0.25)

p 90

5.05.105.55.5)1()1( ppppL

尤度曲面 尤度

01

(0, 3.05)

05.35.05.5

5.105.5log1

91

))1()1(log(log 5.05.105.55.5

ppppL

対数尤度 の等高線

(0, 3.05)

0

192

田中勇輔 浜田知久馬 佐野雅隆(2014)

稀なイベントを対象としたメタ・アナリシスの性能評価 計量生物学会

0セル存在下のメタアナリシス

通常の方法でオッズ比を算出すると,

2群の一方で0セルがあるとメタアナリシスの対象外,オッズ比は0または無限大

安全性のメタアナリシス

ロシグリタゾン(心筋梗塞)では(30/42)研究が除外

ベバシズマブ(治療関連死)では(2/14)研究が除外

93

94

JackとRoseの ロマンティック回帰

「運命を変える恋がある.」

しかし2人の死亡確率は

大きく違った.

http://www.encyclopedia-titanica.org/index.php タイタニック号の乗員のデータベース

ジャックは20歳男性で

3等船室の乗客

ローズは20歳女性で

1等船室の乗客

95

2人+ローズ婚約者の死亡確率 ジャックは20歳男性で3等船室の乗客

p=0.95

ローズは20歳女性で1等船室の乗客

p=0.20

ローズ婚約者は男性で1等船室の乗客

200344.04978.25221.31

log

p

p

200344.05221.31

log

p

p

AGEPCLASSPCLASSMALESEXp

p0344.0)3(2897.2)2(2806.1)(4978.25221.3

1log

200344.02897.24978.25221.31

log

p

p

p=0.45

男>女 2等>1等 3等>1等

Jack, Rose, Rose婚約者の死亡のオッズ比 proc logistic data=titanic ;

class sex pclass/param=glm ref=first;

model survived=sex pclass pclass*sex;

lsmestimate pclass*sex

" Jack-Rose" -1 0 0 0 0 1,

" Jack-fiance" 0 -1 0 0 0 1,

" fiance-Rose" -1 1 0 0 0 0

/adj=simulate exp;run;

1 1 2 2 3 3

女 男 女 男 女 男

R F J

96

シミュレーションによって,任意の 対比の多重性の調整が可能

Jack, Rose, Rose婚約者の死亡のオッズ比 の多重比較

Least Squares Means Estimates Adjustment for Multiplicity: Simulated 多重性調整p値

効果 ラベル 推定値 標準誤差

z 値 Pr > |z| 調整済 P

指数

SEX*PCLASS

Jack-Rose

5.0430 0.4721 10.68 <.0001 <.0001 154.94

SEX*PCLASS

Jack-fiance

3.7764 0.3312 11.40 <.0001 <.0001 43.6578

SEX*PCLASS

fiance-Rose

1.2666 0.5488 2.31 0.0210 0.0516 3.5489

97

Bonferroni法ほど保守的ではない.

ラブロマンスと生存パターン ヒーロー

ヒロ イン

ラブロマンス 確率

生存 生存 シンデレラ 美女と野獣 0.05×0.80 =0.04

生存 死亡 ある愛の詩 野菊の墓 赤い疑惑

0.05×0.20 =0.01

死亡 生存 タイタニック 愛と誠 続星の金貨

0.95×0.80 =0.76

死亡 死亡 ロミオとジュリエット 失楽園

0.95×0.20 =0.19

98

参考文献 Christopher Zorn (2005)

A Solution to Separation in Binary Response Models. Political Analysis 13:157–170

大倉征幸・鎌倉稔成(2007)

精確ロジスティック回帰の近似推定値.

応用統計学,36-2,3, 87-98

99

top related