logisticプロシジャに よる解析と最新の機能拡張logisticプロシジャに...
Post on 28-Feb-2020
1 Views
Preview:
TRANSCRIPT
LOGISTICプロシジャに
よる解析と最新の機能拡張 映画「タイタニック」のロマンティック回帰
浜田知久馬 東京理科大学
Analysis of SAS LOGISTIC procedure and new
functions.
Chikuma Hamada
Tokyo University of Science
1
要旨:
生存・死亡のような2値データの多変量解析を行うLOGISTICプロシジャについて,モデル構築の方法のチュートリアルを行う.
またLOGISTICプロシジャのV.9.3までの
機能拡張について紹介する.
キーワード:LOGISTIC ROC曲線, 多重性調整オッズ比,
Firth’s Penalized Likelihood 2
内容
1)オッズ比,予測確率のプロット等,グラフ表示のODS GRAPHICSの機能の充実
2)CONTRAST,ESTIMATE,LSMEANS,LSMESTIMATE,ODDSRATIOO文を利用することで
共変量と多重性の双方を同時に調整した解析
3)ROC曲線を,ROC文で作成し,ROCCONTRAST文で複数のモデル間でAUCの比較
4)MODEL文のFIRTHオプションでFirth’s Penalized Likelihoodに基づいた推測
3
映画「タイタニック」
運命を変える恋がある
ロジステイック回帰で ロマンテイック回帰 ジャックとローズの ラブロマンスが かなう確率を分析
ジャック ローズ
4
5
SASによるロジステイック回帰
LOGISTICプロシジャ
CATMODプロシジャ
GENMODプロシジャ
INSIGHTプロシジャ
PROBITプロシジャ
GLIMMIXプロシジャ
5
生存 死亡
何が影響をあたえるか
6
ロジスティックモデル
ある現象の発生する確率(割合) を
その現象の生起を説明するために観測された変数群
で説明するモデルを考える,r個の変数群 の下で現象が生起するという条件付き確率を で表し,これを,
x
),,(},,,|Pr{)( 121 rr xxFxxxp 生起x
という分布関数Fを用いてモデル化
)(xp
)(xp
),,,( 21 rxxx x
7
ロジスティックモデル 分布関数Fを用いてモデル化:
)exp(1
)exp(
),,,(
},,,|Pr{)(
22110
22110
21
21
rr
rr
r
r
xxx
xxx
xxxF
xxxp
生起x
z
z
rr
ZZ
ZZF
xxxZ
718.21
718.2
)exp(1
1
)exp(1
)exp()(
22110
ロジスティック関数:
8
ロジスティック曲線
Z +∞ -∞
Probability
確率p
001
0)-(
1718.2
718.2)(
5.011
1
718.21
718.2)0(
718.21
718.2
)exp(1
)exp()(
0
0
≒
≒
p
p
p
Z
ZZp
z
z
z
z
9
+∞ -∞
ロジスティック曲線とオッズ
イベント発現確率p
z1
1-p1
p1
1-p2
p2 Z
p
p
p
podds
Z
Zp
1log
1
)exp(1
)exp(
z2
1
1
2
2
1
1
p
p
p
p
OR
10
ロジット(logit)
という対数オッズのロジット上記左辺を
うとここから,式変形を行
)()(
)(1
)(log
)exp(1
1
)exp(1
)exp()(
22110
22110
22110
22110
x
x
x
x
p
xxxp
p
xxx
xxx
xxxp
rr
rr
rr
rr
11
オッズ(odds):p/(1-p)
させたときのオッズ比
1単位変化他の変数固定で,xを
に対するオッズというの上記左辺を
:)exp(
)(1)(
expexp
)1(exp)(1
)(
)1()(1
)(log
122110
22110
22110
xx
x
x
x
x
pp
xxx
xxxp
p
xxxp
p
rr
rr
rr
12
説明変数が1つの場合
xp
p10
1log
x
xp
10
10
exp1
exp
x=0:drug- x=1:drug+
薬剤
-
薬剤
+
イベント
+ 5 10
イベント
- 95 90
11.2905
95101
ORe
13
likelihood(尤度)
尤度(L)=モデルの下でデータが得られる確率
最尤法:β0,β1の値を動かしてLが最も大きくなるようにする方法
MLE:Maximum Likelihood Estimator
9010955)1()1( ppppL
10
10
0
0
exp1
exp,
exp1
exp
pp
薬剤
-
薬剤
+
イベント
+ 5 10
イベント
- 95 90
14
尤度曲面 尤度
0 1
9010955)1()1( ppppL
(-2.94,0.75)
15
対数尤度曲面 対数尤度
0 1
(-2.94,0.75)
)1log(90log10)1log(95log5log ppppL
16
絨毯爆撃 パラメータが多いと破綻
0 1
尤度
17
0log
0
d
Ld 0log
1
d
Ld
(-2.94,0.75)
0 1
対数尤度 山の頂点では傾きは0
18
対数尤度とスコア関数
ba
appdcpbaca
d
LdU
dc
cppdcc
d
LdU
pdpcpbpaL
ppppL dcba
0)()(log
)(
0)(log
)(
)1log(log)1log(loglog
)1()1(
0
0
1
1
薬剤
-
薬剤
+
イベント
+ a c
イベント
- b d
19
最尤推定量
ad
bc
p
p
p
p
d
c
dcc
dcc
p
p
b
a
baa
baa
p
p
xp
p
log1
log1
log
log)(1
)(log
1log
log)(1
)(log
1log
1log
1
10
0
10
薬剤
-
薬剤
+
イベント+ a c
イベント- b d
データセットNeuralgia(N=60) Example 53.2 Logistic Modeling with Categorical Predictors
高齢者のNeuralgia(神経痛)に対する
鎮痛薬の試験
反応変数:Pain(痛みの有無:Yes, No)の消失率
群変数:Treatment(治療:P(プラセボ),A,B)
共変量:Sex(性別:F, M)
Age(治療開始時の年齢:連続量)
Duration(履病期間:連続量(月)) 20
データセットNeuralgia(N=60) Data Neuralgia;
input Treatment $ Sex $ Age Duration Pain $ @@;
datalines;
P F 68 1 No B M 74 16 No P F 67 30 No P M 66 26 Yes
B F 67 28 No B F 77 16 No A F 71 12 No B F 72 50 No
B F 76 9 Yes A M 71 17 Yes A F 63 27 No A F 69 18 Yes
B F 66 12 No A M 62 42 No P F 64 1 Yes A F 64 17 No
P M 74 4 No A F 72 25 No P M 70 1 Yes B M 66 19 No
B M 59 29 No A F 64 30 No A M 70 28 No A M 69 1 No
B F 78 1 No P M 83 1 Yes B F 69 42 No B M 75 30 Yes
P M 77 29 Yes P F 79 20 Yes A M 70 12 No A F 69 12 No
B F 65 14 No B M 70 1 No B M 67 23 No A M 76 25 Yes
P M 78 12 Yes B M 77 1 Yes B F 69 24 No P M 66 4 Yes
P F 65 29 No P M 60 26 Yes A M 78 15 Yes B M 75 21 Yes
A F 67 11 No P F 72 27 No P F 70 13 Yes A M 75 6 Yes
B F 65 7 No P F 68 27 Yes P M 68 11 Yes P M 67 17 Yes
B M 70 22 No A M 65 15 No P F 67 1 Yes A M 67 10 No
P F 72 11 Yes A F 74 1 No B M 80 21 Yes A F 69 3 No ;
21
データセットNeuralgia:痛みの消失率
22
5/20=25%
15/20=75% 15/20=75%
955
1515
da
cbOROR BPAP
LOGISTICの基本プログラム ods graphics on;
proc logistic PLOTS=(ODDSRATIO EFFECT)
data=neuralgia;
class treatment sex/param=glm;
model pain= treatment;
oddsratio treatment;
run;
ods graphics off; 23
パラメータ推定値とオッズ比
24
最尤推定値の分析
パラメータ 自由度 推定値 標準誤差 Wald カイ 2 乗
Pr > ChiSq
Intercept 1 -1.0986 0.5164 4.5261 0.0334
Treatment A 1 2.1972 0.7303 9.0521 0.0026
Treatment B 1 2.1972 0.7303 9.0521 0.0026
Treatment P 0 0 . .
オッズ比推定と Wald による信頼区間 oddsratio treatment ラベル 推定値 95% 信頼限界
Treatment A vs B 1.000 0.239 4.184
Treatment A vs P 9.000 2.151 37.659
Treatment B vs P 9.000 2.151 37.659
PLOTS=(ODDSRATIO) デフォルトはdiff=all
25
955
1515
BPAP OROR
1155
515
BAOR
PLOTS=(EFFECT)
26
15/20=75% 15/20=75%
5/20=25%
oddsratio treatment /diff=ref; 基準群との比較
デフォルトはdiff=all
27
PLOTS=(ODDSRATIO(LOGBASE=E))
28 自然対数(等比スケール),Wald型では左右対称
1/2.718 1 2.718 2.7182 2.7183
2.15 9.00 37.66
4.18倍 4.18倍
PLOTS=(ODDSRATIO(RANGE=CLIP)) 点推定値が最小と最大の範囲
29
最小:1
最大:9
PLOTS=(ODDSRATIO(RANGE=(0,30))) オッズ比の範囲を指定
30
PLOTS=(ODDSRATIO(TYPE=VERTICAL)) 垂直に信頼区間をプロット
31
PLOTS=(ODDSRATIO(TYPE=HORIZONTALSTAT)) ORの数値をグラフにプロット
32
oddsratio treatment /cl=pl; 尤度比検定に基づく信頼区間
33
オッズ比推定とプロファイル尤度による信頼区間
ラベル 推定値 95% 信頼限界
Treatment A vs B 1.000 0.233 4.301
Treatment A vs P 9.000 2.306 41.745
Treatment B vs P 9.000 2.306 41.745
オッズ比の多重比較 lsmeans treatment/adj=tukey cl exp ;
34
Treatment の最小 2 乗平均の差
多重比較の調整 : Tukey
Treatment
_Treatment
調整済 P
アルファ
指数 Exponentiated
Exponentiated
調整済 調整済
Lower Upper 下限 Exp
上限 Exp
A B 1 0.05 1 0.239 4.184 0.181 5.538
A P 0.007 0.05 9 2.151 37.66 1.625 49.84
B P 0.007 0.05 9 2.151 37.66 1.625 49.84
オッズ比
多重性調整オッズ比
日本語訳の不統一はひどい
未調整オッズ比
多重性調整p値
オッズ比の多重比較 lsmeans treatment/adj=tukey cl exp;
35
P-A P-B の比較
A-B の比較
実線が対角線(点線)を含まなければ有意
オッズ比の多重比較 lsmeans treatment/adj=dunnett diff=control(“P”) cl exp ;
P群との比較
Treatment の最小 2 乗平均の差
多重比較の調整 : Dunnett
Treatme
nt
_Treatm
ent
調整済
P
アルファ 指数 Expone
ntiated
Expone
ntiated
調整済 調整済
Lower Upper 下限
Exp
上限
Exp
A P 0.0051 0.05 9 2.1509 37.6593 1.7891 45.274
B P 0.0051 0.05 9 2.1509 37.6593 1.7891 45.274
36
多重性調整オッズ比 未調整オッズ比
多重性調整p値
交絡を調整したオッズ比
ods graphics on;
proc logistic data=Neuralgia PLOTS=(ODDSRATIO(TYPE=HORIZONTALSTAT));
class treatment sex / param=glm;
model pain= treatment sex age duration;
oddsratio treatment;
run;
37
交絡を調整したオッズ比 各変数の検定結果
効果に対する Type 3 分析
効果 自由度 Wald カイ 2 乗
Pr > ChiSq
Treatment 2 12.5310 0.0019**
Sex 1 5.2946 0.0214*
Age 1 7.2977 0.0069**
Duration 1 0.0315 0.8591
38
交絡を調整したオッズ比 パラメータ推定値
最尤推定値の分析
パラメータ 自由度 推定値 標準誤差
Wald カイ 2 乗
Pr > ChiSq
Intercept 1 15.5744 6.5915 5.5828 0.0181
Treatment A 1 3.1817 1.0161 9.8049 0.0017**
Treatment B 1 3.7085 1.1407 10.5700 0.0011**
Treatment P 0 0 . . .
Sex F 1 1.8322 0.7963 5.2946 0.0214*
Sex M 0 0 . . .
Age 1 -0.2621 0.0970 7.2977 0.0069**
Duration 1 0.00586 0.0330 0.0315 0.8591 39
交絡のみを調整したオッズ比
40
多重性と交絡を調整したオッズ比
ods graphics on;
proc logistic data=Neuralgia PLOTS=(ODDSRATIO(TYPE=HORIZONTALSTAT));
class treatment sex / param=glm;
model pain= treatment sex age duration;
lsmeans treatment/adj=tukey cl exp;
run;
41
多重性と交絡を調整したオッズ比 Treatment の最小 2 乗平均の差 多重比較の調整 : Tukey-Kramer(調整後)
Treatment
_Treatment
Pr > |z| 調整済 P
指数 Exponentiated Lower
Exponentiated Upper
調整済 下限 Exp
調整済 上限 Exp
A B 0.5740 0.8402 0.5905 0.09409 3.7053 0.06567 5.3088
A P 0.0017 0.0050 24.0874 3.2876 176.48 2.2261 260.64
B P 0.0011 0.0033 40.7942 4.3616 381.55 2.8154 591.09
オッズ比推定と Wald による信頼区間(参考 未調整)
ラベル 推定値 95% 信頼限界
Treatment A vs B 1.000 0.239 4.184
Treatment A vs P 9.000 2.151 37.659
Treatment B vs P 9.000 2.151 37.659 42
多重性調整オッズ比 多重性調整p値
予測確率のプロット
ods graphics on;
proc logistic data=Neuralgia PLOTS=(EFFECT);
class treatment sex / param=glm;
model pain= treatment sex age duration;
oddsratio Treatment;
run;
43
消失率の予測確率のプロット
B F
AF
P F
PM
BM AM
年齢とともに低下 A,B,女性は高い
44
平均履病期間
等高線プロット
ods graphics on;
proc logistic data=Neuralgia;
model pain= age duration;
effectplot contour;
run;
ods graphics off;
45
等高線プロット 平面 model pain= age duration;
46
モデルの適合度統計量
基準 切片のみ 切片と共変量
AIC 83.503 78.472
SC 85.598 84.755
-2 Log L 81.503 72.472
●:No 消失 ●:Yes 痛み有
予測確率を 等高線で結ぶ
罹病期間が長くて 低年齢な人の 消失率が高い
等高線プロット 年齢の2次の項追加
ods graphics on;
proc logistic data=Neuralgia;
model pain= age age*age duration;
effectplot contour;
run;
ods graphics off;
47
等高線プロット 曲面 model pain= age age*age duration;
48
モデルの適合度統計量
基準 切片のみ 切片と共変量
AIC 83.503 77.790
SC 85.598 86.167
-2 Log L 81.503 69.790
●:No 消失 ●:Yes 痛み有
等高線プロット 交互作用項の追加
ods graphics on;
proc logistic data=Neuralgia;
model pain= age age*age duration duration*duration age*duration;
effectplot contour;
run;
ods graphics off; 49
50
等高線プロット 曲面 model pain= age age*age duration duration*duration age*duration;
モデルの適合度統計量
基準 切片のみ
切片と共変量
AIC 83.503 76.235
SC 85.598 88.801
-2 Log L 81.503 64.235
罹病期間が長くて,低年齢な人の消失率が高い
●:No 消失 ●:Yes 痛み有
モデルの比較
モデル(切片を含むパラメータ数) -2 Log L AIC
duration(2) 79.886 83.886
age(2) 73.056 77.056
age duration(3) 72.472 76.472
duration duration*duration age(4) 70.996 78.996
duration age age*age(4) 69.790 77.790
duration duration*duration age age*age(5)
68.360 78.360
duration duration*duration age age*age age*duration(6)
64.235 76.235
AIC最小 51
ROC(Receiver Operating Characteristic)曲線
52
Negative
Threshold(閾値)を下げると 陽性率 疾患(感度) 健常(1-特異度) が増加
偽陽性
真陰性 特異度
真陰性
健常群
疾患群
閾値
真陽性 感度
53
ROC(Receiver Operating Characteristic)曲線
真陽性 感度
偽陽性 1-特異度
閾値を下げる
data work;
input group time censor @@;
cards;
1 4 1 1 6 1 1 8 1
2 5 1 2 7 1 2 9 1
;
proc logistic PLOTS=ROC descending;
model group=time;run;
疾患なし * * *
疾患あり * * *
54
疾患なし * * *
疾患あり * * * 閾値
ROC曲線
感度:疾患ありで閾値以上
1-特異度:疾患なしで閾値以上
AUC=6/9 0.2 0.3 0.4 0 .5 0.6 0 .7 0.8
55
ROC曲線下の面積(AUC) AUCが1に近い方が予測力が高い
感度
1-特異度
曲線下面積(AUC: Area Under the Curve) 0.5~1
AUC 0.9 - 1.0 High accuracy
AUC 0.7 - 0.9 Moderate accuracy
AUC 0.5 - 0.7 Low accuracy
Mann-WhitneyのAUC?
56
(0,1)感度=1,特異度=1
ROC曲線のAUCの解釈
「疾患あり」集団が「疾患なし」集団より
予測確率が高くなる割合
「疾患あり」の集団から1人,「疾患なし」の集団から1人,それぞれランダムに選んだとき,「疾患あり」の人の予測確率が「疾患なし」の人の検査値よりも大きくなる確率
どちらの予測確率が高いか
「疾患あり」 「疾患なし」 57
Mann-WhitneyのAUC
0
5.
1
),(
),(NN
AUC
:
:
:N
:N
21
21
21
21
21
N
1
N
121
2
1i
2
1
1 2
ji
ji
ji
jiij
ji
i j
ij
j
pp
pp
pp
ppU
ppU
jp
ip
1
の予測確率疾患なし群の個体
の予測確率疾患あり群の個体
サイズ疾患なし群のサンプル
サイズ疾患あり群のサンプル
58
p11 p12 ・・・
p21 0 1
p22 1 1
・・・
N1人
N2人
N1× N2人の 予測確率の比較
疾患あり
疾患なし 1-3
5 (0.37)
1-2
7 (0.55)
1-1
9 (0.71)
2-1
8 (0.63)
2-2
6 (0.45)
2-3
4 (0.29) 59
疾患なし * * *
疾患あり * * * 3 2 1
1は疾患なしの 3人より値が大
2は疾患なしの 2人より値が大
1は疾患なしの 3人より値が大 3
2
3
1
3
1
3
2
3
1
3
3
3
1AUC
(0.00,0.33)
(0.33,0.67)
(0.67,1.00)
面積は=6/9
60
予測値の分布とAUC
予測値の分布
疾患なし 疾患あり
ROC曲線
AUC=1 感度=1 1-特異度=1
AUC=0.8 感度> 1-特異度
AUC=0.5 感度= 1-特異度
AUC 61
感度=1 特異度=1
感度≒1-特異度
(0,1)
閾値右
閾値左
ROC曲線の作成とAUCの比較 モデル(4変数) ods graphics on;
proc logistic data=Neuralgia PLOTS=ROC(ID=PROB);
class treatment sex/param=glm;
model pain= treatment sex age duration;
roc 'age' age ;
roc 'duration' duration;
roccontrast reference(model)/estimate e;
run;
62
ROC曲線の作成:4変数(モデル)
63
ROC曲線の作成:ageのみ
64
ROC曲線の作成:durationのみ
65
ROC曲線の比較
66
モデル(4変数)
age
duration
AUCの比較
ROC 関連性の統計量
ROC モデル
Mann-Whitney Somers の D (Gini)
ガンマ Tau-a
面積 標準 誤差
95% Wald 信頼限界
モデル (4変数)
0.9051 0.0412 0.8244 0.9858 0.8103 0.8103 0.4006
age 0.7011 0.0717 0.5605 0.8418 0.4023 0.4211 0.1989
duration 0.5806 0.0744 0.4348 0.7263 0.1611 0.1693 0.0797
67
AUCの比較 ROC 対比の係数
ROC モデル Row1 Row2
モデル -1 -1
age 1 0
duration 0 1
68
ROC 対比検定の結果 3種類のモデル全体でAUCに差があるか
対比 自由度 カイ 2 乗 Pr > ChiSq
Reference = モデル 2 20.0075 <.0001
行ごとの ROC 対比推定と検定の結果
対比 推定値 標準 誤差
95% Wald 信頼限界
カイ 2 乗 Pr > ChiSq
age - モデル -0.2040 0.0743 -0.3496 -0.0584 7.5402 0.0060**
duration - モデル -0.3246 0.0815 -0.4842 -0.1649 15.8789 <.0001**
69
0セルがある場合の例
薬剤
-
薬剤
+
計
イベント
+
5 10 15
イベント
-
5 0 5
計 10 10 20
薬剤
-
薬剤
+
計
イベント
+
a c n-・
イベント
-
b d n+・
計 n・- n・+ n
05
510
da
bcOR
c=0のときOR=0
オッズ比は∞,信頼区間は構成不能
5
5
10
05
510
da
bcOR
70
0セルがある場合の解析(FREQ) data data;
input x y w @@;
cards;
0 0 5 0 1 5 1 0 0 1 1 10
;
ods graphics on;
proc freq;
tables x*y/ plots=freqplot(TWOWAY=stack)cmh; weight w;run;
71
相対リスクの推定値 ( 行 1 / 行 2 )
研究の種類 調整方法 値 95% 信頼限界
ケースコントロール研究
Mantel-Haenszel
. . .
(オッズ比) ロジット ** 21.0000 0.9716 453.9116
コーホート研究
Mantel-Haenszel
. . .
(列 1 のリスク) ロジット ** 11.0000 0.6880 175.8626
コーホート研究
Mantel-Haenszel
0.5000 0.2690 0.9293
(列 2 のリスク) ロジット 0.5000 0.2690 0.9293
計算していない推定値があります。 ** セル度数が 0 を含む表の場合には、その表の 全セルに0.5を加えて、調整を行っています。
215.0
5.10
5.05.5
5.105.5
OR
72
CMHオプション
セル度数+0.5
薬剤
-
薬剤
+
計
イベント
+
5.5 10.5 11
イベント
-
5.5 0.5 6
計 11 11 202
薬剤
-
薬剤
+
計
イベント
+
a+.5 c+.5 n-・+1
イベント
-
b+.5 d+.5 n+・+1
計 n・-+1 n・++1 n+2
0.215.05.5
5.105.5
da
bcOR
73
LOGISTICプロシジャによる解析
proc logistic descending;
model y=x ;freq w;run;
proc logistic descending;
model y=x /firth;freq w;run;
proc logistic descending;
model y=x /;exact x/estimate=both;
freq w;run; x
xp
10
10
exp1
exp
74
通常の解析 最尤推定値の分析
パラメータ 自由度 推定値 標準誤差 Wald カイ 2 乗
Pr > ChiSq
Intercept 1 -106E-18 0.6325 0.0000 1.0000
x 1 12.5661 169.3 0.0055 0.9408
オッズ比の推定
効果 点推定値 95% Wald 信頼限界
x >999.999 <0.001 >999.999
WARNING: 恐らくデータ点が準完全分離の状態です。最尤推定値は存在しないかもしれません。 WARNING: LOGISTICプロシジャは上記の警告にもかかわらず継続します。 最尤反復に基づいて結果が表示されます。モデルの当てはめの妥当性は疑わしいです。
x
xp
exp1
exp
75
反復計算の履歴 β0 →0 β1→+∞
最大尤度反復履歴
反復 リッジ -2 対数尤度 Intercept x
0 0 22.493406 1.098612 0
1 0 15.684718 -0.234721 2.666667
2 0 14.446460 0.002161 3.517650
3 0 14.073301 -1.682489E-9 4.549416
4 0 13.939772 6.938894E-17 5.559990
5 0 13.891133 -1.07553E-16 6.563839
6 0 13.873304 7.112366E-17 7.565249
7 0 13.866754 -1.06252E-16 8.565767
8 0 13.864345 7.123208E-17 9.565958
9 0 13.863459 -1.0636E-16 10.566028
10 0 13.863133 7.127274E-17 11.566054
11 0 13.863013 -1.06353E-16 12.566063
1
0
76
準完全分離:complete separation
10
01055
,0
110/10,5.010/5
)1()1(
pp
ppppL
x
x
x
xp
exp1
exp
exp1
exp
10
10
1
77
Firth法:パラメータ推定値 最尤推定値の分析
パラメータ 自由度 推定値 標準誤差 Wald カイ 2 乗
Pr > ChiSq
Intercept 1 -0.00003 0.6325 0.0000 1.0000
x 1 3.0446 1.6446 3.4270 0.0641
オッズ比の推定
効果 点推定値 95% Wald 信頼限界
x 21.001 0.836 527.438
78
Firth法:予測確率と信頼区間
79
80
ロジスティック回帰 likelihood(尤度)
薬剤-:x=0,薬剤+:x=1 尤度(L)=モデルの下でデータが得られる確率
最尤法:β0,β1の値を動かしてLが最も大きくなるようにする方法
MLE:Maximum Likelihood Estimator
01055)1()1( ppppL
10
10
0
0
exp1
exp,
exp1
exp
pp
薬剤
-
薬剤
+
イベント
+ 5 10
イベント
- 5 0
81
対数尤度とスコア関数
55
50)010()55(105
log)(
010
100)010(10
log)(
)1log(0log10)1log(5log5log
)1()1(
0
0
1
1
01055
pppd
LdU
ppd
LdU
ppppL
ppppL
薬剤
-
薬剤
+
イベント
+ 5 10
イベント
- 5 0
82
最尤推定量
05
510log
1log
1log
0
10log
)010(101
)010(10log
1log
05
5log
)55(51
)55(5log
1log
1log
1
10
0
10
p
p
p
p
p
p
p
p
xp
p
薬剤
-
薬剤
+
イベント+ 5 10
イベント- 5 0
尤度曲面
0 1
尤度
83
β0 →0 β1→+∞
01055)1()1( ppppL
))1()1(log(log 01055
ppppL対数尤度 の等高線
0
184
β0 →0 β1→+∞
Firth法:一般論 尤度に罰則項を積算
)exp(1
)exp(
)()(5.0)()(
0.5,:)(
)(log5.0)|L(log)|(logL
)()|L()|(L
)(,:)(),|L(
10
10
1*
5.0
*
5.0*
i
ii
x
xp
d
dIItrUU
I
I
I
IU
単変量のモデル:
乗情報行列の行列式の罰則項
罰則項付き尤度:
情報行列:スコア関数尤度:
β
ββββ
β
βYβYβ
βYβYβ
ββYβ
85
86
単変量ロジスティックモデル
)()()(
)(
)exp(1
)exp(log
)(
)exp(1
)exp(log
)exp(1log)(log
)exp(1
1
)exp(1
)exp(
10
10
1
1
10
10
0
0
1010
1
1010
10
iiiiiii
T
iii
i
iiii
ii
i
ii
iii
y
i
y
i
i
pyxpypy
pyx
x
xxyx
d
LdU
py
x
xy
d
LdU
xxyL
xx
xL
ii
ixU
87
情報行列
)1()1(
)1()1(
loglog
loglog
log
2
11
2
01
210
2
00
2
iiiiii
iiiii
T
ppxppx
ppxpp
dd
Ld
dd
Ld
dd
Ld
dd
Ld
dd
Ld
ββI
推定値の分散は情報行列 の逆行列によって与えられる.
88
情報行列(2×2の分割表) xiは0,1
)1()1(
)1())(1()()(||
)1()(
)1()()1()(
)1()1(
)1()1(
2
2
ppppnn
ppbappdcfeffefI
ppdcf
ppdcppbae
ff
fe
ppxppx
ppxpp
iiiiii
iiiiiI
Firth法のpenalized尤度L* 尤度と情報量の積を最大化
)5.0)(5.0(
)5.0)(5.0()exp(
)1()1(
)]1()1([)1()1(*
)1())(1()(||
)1()1(
||*
1
5.5.5.5.
2/1
2/1
da
cbOR
pppp
ppppppppL
ppbappdcI
ppppL
ILL
dcba
dcba
dcba
89
Firth法のpenalized尤度L* 0セルが存在する場合(d=0)
5.0||
1
)1())(1(
)1())(1()(||
)1(
)1()1(
][][||* 2/1
pIMax
pLMax
ppbapcp
ppbappdcI
ppp
ppppL
yVyVLILL
cba
dcba
p(1-p) (0.5,0.25)
p 90
5.05.105.55.5)1()1( ppppL
尤度曲面 尤度
01
(0, 3.05)
05.35.05.5
5.105.5log1
91
))1()1(log(log 5.05.105.55.5
ppppL
対数尤度 の等高線
(0, 3.05)
0
192
田中勇輔 浜田知久馬 佐野雅隆(2014)
稀なイベントを対象としたメタ・アナリシスの性能評価 計量生物学会
0セル存在下のメタアナリシス
通常の方法でオッズ比を算出すると,
2群の一方で0セルがあるとメタアナリシスの対象外,オッズ比は0または無限大
安全性のメタアナリシス
ロシグリタゾン(心筋梗塞)では(30/42)研究が除外
ベバシズマブ(治療関連死)では(2/14)研究が除外
93
94
JackとRoseの ロマンティック回帰
「運命を変える恋がある.」
しかし2人の死亡確率は
大きく違った.
http://www.encyclopedia-titanica.org/index.php タイタニック号の乗員のデータベース
ジャックは20歳男性で
3等船室の乗客
ローズは20歳女性で
1等船室の乗客
95
2人+ローズ婚約者の死亡確率 ジャックは20歳男性で3等船室の乗客
p=0.95
ローズは20歳女性で1等船室の乗客
p=0.20
ローズ婚約者は男性で1等船室の乗客
200344.04978.25221.31
log
p
p
200344.05221.31
log
p
p
AGEPCLASSPCLASSMALESEXp
p0344.0)3(2897.2)2(2806.1)(4978.25221.3
1log
200344.02897.24978.25221.31
log
p
p
p=0.45
男>女 2等>1等 3等>1等
Jack, Rose, Rose婚約者の死亡のオッズ比 proc logistic data=titanic ;
class sex pclass/param=glm ref=first;
model survived=sex pclass pclass*sex;
lsmestimate pclass*sex
" Jack-Rose" -1 0 0 0 0 1,
" Jack-fiance" 0 -1 0 0 0 1,
" fiance-Rose" -1 1 0 0 0 0
/adj=simulate exp;run;
1 1 2 2 3 3
女 男 女 男 女 男
R F J
96
シミュレーションによって,任意の 対比の多重性の調整が可能
Jack, Rose, Rose婚約者の死亡のオッズ比 の多重比較
Least Squares Means Estimates Adjustment for Multiplicity: Simulated 多重性調整p値
効果 ラベル 推定値 標準誤差
z 値 Pr > |z| 調整済 P
指数
SEX*PCLASS
Jack-Rose
5.0430 0.4721 10.68 <.0001 <.0001 154.94
SEX*PCLASS
Jack-fiance
3.7764 0.3312 11.40 <.0001 <.0001 43.6578
SEX*PCLASS
fiance-Rose
1.2666 0.5488 2.31 0.0210 0.0516 3.5489
97
Bonferroni法ほど保守的ではない.
ラブロマンスと生存パターン ヒーロー
ヒロ イン
ラブロマンス 確率
生存 生存 シンデレラ 美女と野獣 0.05×0.80 =0.04
生存 死亡 ある愛の詩 野菊の墓 赤い疑惑
0.05×0.20 =0.01
死亡 生存 タイタニック 愛と誠 続星の金貨
0.95×0.80 =0.76
死亡 死亡 ロミオとジュリエット 失楽園
0.95×0.20 =0.19
98
参考文献 Christopher Zorn (2005)
A Solution to Separation in Binary Response Models. Political Analysis 13:157–170
大倉征幸・鎌倉稔成(2007)
精確ロジスティック回帰の近似推定値.
応用統計学,36-2,3, 87-98
99
top related