第十八章 生存分析和 cox 回归

43
第第第第 第第第第第 COX 第第 上上上上上上上上 上上 上上上上

Upload: tareq

Post on 17-Jan-2016

259 views

Category:

Documents


0 download

DESCRIPTION

第十八章 生存分析和 COX 回归. 上海第二医科大学 生物统计教研室. 第一节 基本概念. 在医学,生物学研究中,常用到生存分析 ( Survival Analysis) 方法 。 例如对于肿瘤等疾病的疗效及预后的考核,通常不用治愈率,有效率等表示,而用将来复发或死亡的时间长短表示,也即生存期来表示。 所谓生存期( survival time) 是指从某个标准时刻(如发病,确诊,开始治疗或进行手术的时间)算起至死亡或复发为止的时间。. 生存期不同于一般指标的二个特点: 1.有截尾数据( censored data) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第十八章 生存分析和 COX 回归

第十八章生存分析和 COX 回归

上海第二医科大学

生物统计教研室

Page 2: 第十八章 生存分析和 COX 回归

第一节 基本概念• 在医学 , 生物学研究中 , 常用到生存分

析 (Survival Analysis) 方法。例如对于肿瘤等疾病的疗效及预后的考核 , 通常不用治愈率,有效率等表示,而用将来复发或死亡的时间长短表示 , 也即生存期来表示。

• 所谓生存期( survival time )是指从某个标准时刻 ( 如发病 , 确诊 , 开始治疗或进行手术的时间 ) 算起至死亡或复发为止的时间。

Page 3: 第十八章 生存分析和 COX 回归

生存期不同于一般指标的二个特点:

1. 有截尾数据( censored data) 随访中未能知道病人的确切生存时间,只知道病人的生存时间大于某时间。( 1 )病人失访或因其他原因而死亡 --- 失访( 2 )到了研究的终止期病人尚未死亡 --- 终访

截尾数据可记为 t+, 如: 4+ = 生存时间大于 4 年。

虽然截尾数据提供的信息是不完全的,但不能删去,因为这不仅损失了资料,而且会造成偏性。

Page 4: 第十八章 生存分析和 COX 回归

2. 生存期的资料一般不服从正态分布。

由于上述原因,常用的统计方法不适用,而要用特殊的统计方法。

生存分析是指对于生存期这一指标进行分析的一系列特殊的统计方法。

Page 5: 第十八章 生存分析和 COX 回归

• 生存时间不一定专用于死与活的情况 , 生存时间( 存活时间 ) 可定义为从某种起始事件到达某终点事件所经历的时间跨度。例如急性白血病病人从治疗开始到复发为止之间的缓解期 ; 冠心病病人在两次发作之间的时间间隔 ; 已作输卵管结扎的妇女从施行输卵管吻合手术后至受孕的时间间隔 ; 在流行病学研究中 , 从开始接触危险因素到发病所经历的时间等都可作为生存时间用作生存分析。

• 有时还收集一些有关因素 ( 称为自变量或协变量 ), 以分析这些协变量是否对生存时间有影响 , 影响的大小,是缩短或延长生存时间。这可以通过Cox 回归进行分析 , 因此 ,Cox 回归可看成带有协变量的生存分析。

Page 6: 第十八章 生存分析和 COX 回归

• 包括:• (1) 开始观察日期,终止观察日期 --- 生存时间• (2) 结局(最终的观察到的是死亡还是存活)• 死于该病 --- 完全数据• 存活或死于其他原因 --- 截尾数据• 每个生存期数据要用 2 个变量表示:观察到

的生存时间和是否截尾(如:用 1 表示截尾,用 0 表示死亡; 4+ 用 4 , 1 表示; 4 用 4 ,0 表示)。

• (3) 协变量 --- 各种影响生存期长短的因素。

随访资料的记录:

Page 7: 第十八章 生存分析和 COX 回归

第二节 描述生存时间分布规律的函数

• 一 . 生存率 (Survival Rate)• 又称为生存概率或生存函数 ,它表示一个病

人的生存时间长于时间 t的概率 ,用 S(t) 表示: s(t)=P( Tt)

• 如 5年生存率: s(5)=P( T5)• 以时间 t为横坐标 ,S(t) 为纵坐标所作的曲线称为生存率曲线 , 它是一条下降的曲线 ,下降的坡度越陡 , 表示生存率越低或生存时间越短 , 其斜率表示死亡速率。

Page 8: 第十八章 生存分析和 COX 回归
Page 9: 第十八章 生存分析和 COX 回归

• §1.2 概率密度函数• (Probability Density Function)• 简称为密度函数 , 记为 f(t), 其定义为 :• f(t)=lim ( 一个病人在区间 (t,t+△t)内死亡概率/△t)

• 它表示死亡速率的大小。如以 t为横坐 ,f(t) 为纵坐标作出的曲线称为密度曲线 , 由曲线上可看出不同时间的死亡速率及死亡高峰时间。纵坐标越大 , 其死亡速率越高 , 如曲线呈现单调下降 ,则死亡速率越来越小 , 如呈现峰值 ,则为死亡高峰。

Page 10: 第十八章 生存分析和 COX 回归

• §1.3 风险函数 (Hazard Function)• 用 h(t) 表示 , 其定义为 :• h(t)=lim( 在时间 t生存的病人死于区间 (t,△t) 的概率 /△t)

• 由于计算 h(t) 时 , 用到了生存到时间 t, 这一条件 ,故上式极限式中分子部分是一个条件概率。可将h(t) 称为生存到时间 t的病人在时间 t的瞬时死亡率或条件死亡速率或年龄别死亡速率。当用 t作横坐标 ,h(t) 为纵坐标所绘的曲线 , 如递增 ,则表示条件死亡速率随时间而增加 , 如平行于横轴 ,则表示没有随时间而加速 ( 或减少 ) 死亡的情况。

Page 11: 第十八章 生存分析和 COX 回归

风险函数的不同情况:

常数, 如:死于飞机失事。

下降, 如:急性损伤。

上升, 如:持续接触危险因素。澡盆样,如:人的一生。

Page 12: 第十八章 生存分析和 COX 回归

生存分析目的:

( 1 )估计生存函数。

( 2 )比较各组的生存函数。

( 3 )研究影响生存期长短的因素。

Page 13: 第十八章 生存分析和 COX 回归

第三节 生存率的估计方法• 生存率 S(t) 的估计方法有参数法和非参数

法。常用非参数法,非参数法主要有二个 , 即 ,乘积极限法与寿命表法 ,前者主要用于观察例数较少而未分组的生存资料 , 后者适用于观察例数较多而分组的资料 , 不同的分组寿命表法的计算结果亦会不同 ,当分组资料中每一个分组区间中最多只有 1 个观察值时 ,寿命表法的计算结果与乘积极限法完全相同。

Page 14: 第十八章 生存分析和 COX 回归

t(年) s(t)

0 11 0. 672 0. 453 0. 34 0. 25 0. 146 0. 097 0. 06

参数法可求出一个方程表示生存函数 S(t) 和时间 t的关系,画出的生存曲线是光滑的下降曲线。

非参数法只能得到某几个时间点上的生存函数,再用直线联起来,画出的生存曲线是呈梯型的。

Page 15: 第十八章 生存分析和 COX 回归

一 . 乘积极限法 (Product-Limit Method)

• 简称为积限法或 PL 法 ,它是由统计学家 Kaplan和Meier 于 1958年首先提出的 , 因此又称为 Kaplan-Meier 法 , 是利用条件概率及概率的乘法原理计算生存率及其标准误的。

• 设 S(t) 表示 t年的生存率 ,s(ti/ti-1) 表示活过 ti-1年又活过 ti 年的条件概率 , 例如 s(1),s(2) 分别表示一年 , 二年的生存率 ,而 s(2/1) 表示活过一年者 ,再活一年的条件概率 , 据概率的乘法定律有 :

• S(2)=S(1)S(2/1), 一般地有• S(ti)=S(ti-1)S(ti/ti-1)

Page 16: 第十八章 生存分析和 COX 回归

• 例 22.1 用某中药加化疗 ( 中药组 ) 和化疗 ( 对照组 ) 两种疗法治疗白血病后 , 随访记录各患者的生存时间 , 不带 "+" 号者表示已死亡 , 即完全数据 , 带 "+" 号者表示尚存活 , 即截尾数据 ,试作生存分析。时间单位为月。

• 中药组 10,2+,12+,13,18,6+,19+,26,9+,8+,6+,43+,9,4,31,24

• 对照组 2+,13,7+,11+,6,1,11,3,17,7

Page 17: 第十八章 生存分析和 COX 回归

资料中药组积限法计算生存率─────────────────────────────────────时间 状态 期初人数 死亡人数 条件生存率 累积生 di ∑di/ni(ni-di)累积生存 ti si ni di (ni-di)/ni 存率 S(ti)ni(ni-di) 率标准误 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨=⑥√⑧───────────────────────────────────── 2 活 4 死 15 1 0.9333 0.9333 0.004762 0.004762 0.0644 6 活 6 活 8 活 9 死 11 1 0.9090 0.8485 0.009091 0.013853 0.0999 9 活 10 死 9 1 0.8889 0.7542 0.013889 0.027742 0.1256 12 活 13 死 7 1 0.8571 0.6465 0.023810 0.051551 0.1468 18 死 6 1 0.8333 0.5387 0.033333 0.084885 0.1570 19 活 24 死 4 1 0.7500 0.4040 0.083333 0.168218 0.1657 26 死 3 1 0.6667 0.2694 0.166667 0.334885 0.1559 31 死 2 1 0.5000 0.1347 0.500000 0.834885 0.1231 43 活─────────────────────────────────────

Page 18: 第十八章 生存分析和 COX 回归

积限法的计算步骤为: 1.将n个生存数据t i ,按小到大排列,当截尾数据与完全数据(非截尾值)相同时,截尾数据排列在后,并写出每个生存数据的状态Si (即死或活) ,见表22. 1的1, 2列 2.写出各个完全数据(即死亡状态)的期初人数ni和死亡人数di ,见表22. 1的3, 4列。 3.计算条件生存率的估计值,见表中第5列, S(t i / t i -1)=(ni -di ) / ni 4.计算累积生存率,即时间t i的生存率估计值(见表中第6列) S(t i )= S(t i -1) S(t i / t i -1) 5.计算S(ti )的标准误(见表中第9列) i SE( St i )= S(t i )√ {∑ dj / [nj (nj -dj )]} j =1 表中已列出了积限法的全部结果,各个时间点的生存率和标准误分别在6, 9两列,例如二年生存率(即24个月)为0. 4040±0. 1657

Page 19: 第十八章 生存分析和 COX 回归

二 . 寿命表法 (Life Table Method)

• 适用于随访的病例数较多 , 将资料按生存期进行分组 , 在分组的基础上计算生存率 ,本法也能用于不分组的资料 , 此时计算结果与积限法相同。

Page 20: 第十八章 生存分析和 COX 回归

某医院 1946年 1月 1 日到 1951 年 12月 31 日收治的 126例胃癌病例 , 生存情况如表 22.2,试用寿命表法估计生存率。 表 22.2 126例胃癌患者寿命表法估计生存率 ─────────────────────────────────────────────────────时间 ( 年 ) 期初例数 死亡例数 失访例数 截尾例数 有效例数 条件生存率 累积生存率 di ∑di/ni(ni-di)累积生存 ti n'i di ui wi ni ^S(ti/ti-1) ^S(ti) ni(ni-di) 率标准误 ⑴ ⑵ ⑶ ⑷ ⑸ ⑹ ⑺ ⑻ ⑼ ⑽ ⑾=⑻√⑽───────────────────────────────────────────────────── 0- 126 47 4 15 116.5 0.5966 0.5966 5.805×10-3 5.805×10-3 0.0455 1- 60 5 6 11 51.5 0.9029 0.5386 2.088×10-3 7.893×10-3 0.0479 2- 38 2 0 15 30.5 0.9344 0.5033 2.301×10-3 0.0102 0.0508 3- 21 2 2 7 16.5 0.8788 0.4423 8.359×10-3 0.0186 0.0602 4- 10 0 0 6 7.0 1.0000 0.4423 0 0.0186 0.0602 5- 4 0 0 4 2.0 1.0000 0.4423 0 0.0186 0.0602─────────────────────────────────────────────────────

Page 21: 第十八章 生存分析和 COX 回归

寿命表法估计生存率步骤如下 : 1. 将观察例数按时间段 ( 年 )0-,1-,2-,划分 , 分别计数期初例数 , 死亡 , 失访 , 截尾例数列入表 22.2 的 1-5列。事实上 , 从第二个时间段开始 , 期初人数 ni 系由下式算得 : n'i=n'i-1-di-ui-wi 例如第二行 , 即时间段 1-, 有 n'2=126-47-4-15=60 2. 计算各时间段期初实际观察例数 ,(亦称有效例数 )ni ni=n'i-ui/2-wi/2 上式表明该时间段期初例数中的失访 , 及截尾例数只计其半时 , 即得有效例数。 如第一行 ,n1=126-4/2-15/2=116.5 3. 分别用 (22.5)(22.6)(22.7)式计算条件生存率 S(ti/ti-1),累积生存率 s(ti) 及其标准误。 计算结果已列于表 22.2 中 , 第 7,8,11 列 , 表中 9,10 二列系用于第 11 列的计算。 例如时间段 0-- 中 S(ti/ti-1)=(116.5-47)/116.5=0.5966 ^S(ti)=1×0.5966=0.5966 SE(S(ti))=0.5966×√5.805×10-3=0.0455 故一年生存率的估计为 0.5966±0.0455 同样二年生存率的估计为 0.5386±0.0479 由于寿命表法与积限法的累积生存率及其标准误的计算公式完全相同 , 所以 ,当分组资料中每一个分组区间中最多只有 1 个观察值时 ,寿命表法就是积限法。

Page 22: 第十八章 生存分析和 COX 回归

第四节 生存率的比较• 当有两个或两个以上的生存分布时 ,我们常需比较它们是否来自同一生存分布 , 此时的假设检验为 :

• H0:样本所来自的总体生存分布相同。• H1:样本所来自的总体生存分布不相同。• 可选用的检验方法有 :Logrank 法 ,• 广义 Wilcoxon 法 ,和 Cox-Mantel 法等。当拒绝 H0 时 ,认为几个生存分布不相同。

Page 23: 第十八章 生存分析和 COX 回归

当不需要整体比较,而只要比较个别时间点上几组生存率时可用下面方法:

( 1 )两个生存率比较

生存率 S1和 S2 ,其方差为 V1和V2

用卡方检验:

2 =( S1-S2) 2 / ( V1+V2)

df=1

Page 24: 第十八章 生存分析和 COX 回归

( 2 )两个以上两个生存率比较 生存率 S1, S2和 S3 ,方差为 V1, V2和 V3

用卡方检验:

权重W1=1/V1, W2=1/V2,W3=1/V3

加权平均生存率:

S=(W1*S1+W2*S2+W3*S3 )/(W1+W2+W3 )

2 =W1*(S1-S)2 ++W2*(S2-S)2 +W3*(S3-S)2

df=3-1

Page 25: 第十八章 生存分析和 COX 回归

表22. 3 例22. 1资料两疗法生存比较的Logrank检验─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─时间 秩次 中药组序号 死亡例序号 处于危险 Logrank (非截尾数据) 状态例数 变换值Wti (年) i 1 i 2 i 3 r ① ② ③ ④ ⑤ ⑥─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ 1 1 1 26 -0. 96 2+ 2 1 0. 04 2+ 3 0. 04 3 4 2 23 -0. 92 4 5 2 3 22 -0. 87 6 6 4 21 -0. 82 6+ 7 3 0. 18 6+ 8 4 0. 18 7 9 5 18 -0. 77 7+ 10 0. 23 8+ 11 5 0. 23 9 12 6 6 15 -0. 70 9+ 13 7 0. 30 10 14 8 7 13 -0. 63 11 15 8 12 -0. 54 11+ 16 0. 46 12+ 17 9 0. 46 13 18 10 9 9 -0. 37 13 19 10 8 -0. 37 17 20 11 7 -0. 16 18 21 11 12 6 0 19+ 22 12 1. 00 24 23 13 13 4 0. 25 26 24 14 14 3 0. 59 31 25 15 15 2 1. 09 43+ 26 16 2. 09─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─

Page 26: 第十八章 生存分析和 COX 回归

§3.1 Logrank检验 (Log Rank Test) 当比较的几个样本生存分布 , 全部为完全数据时 ,本检验又称为Savage检验。 Logrank检验的计算步骤如下 :1. 将两样本的生存数据混合 , 由小到大排列 ,并给以秩次 i1, 当截尾数据与完全数据数值相同时 , 截尾数据排列在后。并设两样本含量分别为 m1,m2,总例数 n=m1+m2。 例 22.1 中药组与对照组生存数据排列结果见表 22.3中第 1,2 列。2. 列出所比较的两组中任一个组的序号 i2(本处选用中药组 ), 记入表 22.3中第 3 列。3. 列出死亡例的序号 i3(见表 22.3中第 4 列 ) 。4. 计算非截尾数据 ( 完全数据 ) 各时间点处于危险状态的例数 r,它表示该时刻时还剩下多少例数。 r系由与 i3相应的 i1值计算而得。 r=n-i1+1 (22.10)例如与生存期 7(月 )相应的 r 值系由 r=26-9+1=18 算得 ,见表中第 5列。

Page 27: 第十八章 生存分析和 COX 回归

5. 对秩次 i1作 logrank 变换 , 即计算 logrank 变换值W, 其算法为秩次为 i1 的序号为 i3非截尾数据的W 值为 i3 W=∑ 1/rj-1 (22.11) j=1 秩次为 i1 的截尾数据 ,首先判断它在那二个非截尾数据之间 , 如果它在序号 i3与 i3+1 之间则W 为 i3 W=∑ 1/rj (22.12) j=1特别地 ,当截尾数据在第一个非截尾数据之前时 ,取W=0,几个截尾数据落在同样序号的非截尾数据之间时 ,它们具有相同的W 值。例如表 22.3 中第 1 个数据为非截尾 ( 已死亡 )则由 (22.11)式得 W=1/26-1=-0.96第 2,3 数据都是截尾数据 ( 存活 ),它处于序号 i3=1 与 2 之间据 (22.12)式 , 有 W=1/26=0.04第 4 个数据为非截尾 ,则由 (22.11)式 W=1/26+1/23-1=-0.92余类推 (见表22.3第6列)

Page 28: 第十八章 生存分析和 COX 回归

6. 计算所指定的组别 (本例为中药组 ,序号为 i2)的logrank 变换值之和 T T=∑W i2上式的连加系在指定的 i2范围内相加。其均数与方差分别为 E(T)=m1/n ∑W V(T)=m1m2/[n(n-1)]∑(W-E(T)/m1)2(22.14)式中连加系在全部观察值上完成 ,m1 系指所指定的组别的例数 ,(本例为中药组m1=16),n 为总例数。 Z=[T-E(T)]/√V(T) Z 服从标准正态分布 ,故可由 Z0.05=1.96,Z0.01=2.58作出统计推断。 本例资料有 T=3.822,E(T)=0.4402×10-6,V(T)=3.1755,Z=2.145,故 P<0.05, 拒绝 H0,认为两种疗法生存分布不相同。

Page 29: 第十八章 生存分析和 COX 回归

§3.2 Cox-Mantel检验 (Cox-Mantel Test)

• 又称广义 Savage检验 (Generalized Savage Test), 可用于两个或多个生存分布的比较。仍用例 22.1 的资料说明本检验的计算过程 , 为叙述方便现将中药组称为 A 组 , 对照组称为 B 组。本检验的H0,H1 同前。

Page 30: 第十八章 生存分析和 COX 回归

表22. 4 例22. 1资料两疗法生存分布比较的Cox-Mantel检验─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─时间 状态 组别 A组 B组 ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ 合并死亡率 期望死亡数 ti si 期初人数 死亡数 期初人数 死亡数 (B组) n1i d1i n2i d2i pi ① ② ③ ④ ⑤ ⑥ ⑦ ⑧=(⑤+⑦)/ (④+⑥) ⑨=⑥× ⑧─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ 1 死 B 16 10 1 0. 038462 0. 38462 2 活 B 16 9 2 活 A 16 9 3 死 B 15 8 1 0. 043478 0. 347826 4 死 A 15 1 7 0. 045455 0. 318181 6 死 B 14 7 1 0. 047619 0. 333333 6 活 A 14 6 6 活 A 14 6 7 死 B 12 6 1 0. 055556 0. 333333 7 活 B 12 6 8 活 A 12 4 9 死 A 11 1 4 0. 066667 0. 266667 9 活 A 11 410 死 A 9 1 4 0. 076923 0. 30769211 死 B 8 4 1 0. 083333 0. 33333311 活 B 8 412 活 A 8 213 死 A, B 7 1 2 1 0. 222222 0. 44444417 死 B 6 1 1 0. 142857 0. 14285718 死 A 6 1 0 0. 166667 019 活 A 5 024 死 A 4 1 0 0. 250000 026 死 A 3 1 0 0. 333333 031 死 A 2 1 0 0. 500000 043 活 A 1 0─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ 小计 3. 212284

Page 31: 第十八章 生存分析和 COX 回归

计算步骤为1. 将两组生存数据混合由小到大排列 ,当截尾数据与非截尾数据数值相同时 , 截尾数据排列在后。并指明各生存数据的状态 ( 死或活 ) 及所属组别 (见表22.4中 1-3列 )2. 列出 A,B 两组各生存时间上的期初人数及死亡人数分别以 n1i,d1i,n2i,d 2i 表示 (见表22.4中第 4-7列 ) 。3. 在完全数据的相应行中计算合并死亡率 Pi Pi=(d1i+d2i)/(n1i+n2i) (22.16)4. 在两组中任选一组 (本处用 B 组 ) 计算 各生存时间点上的期望死亡人数 ,它由该组期初人数乘以合并死亡率而得 E(d2i)=n2iPi (22.17)参见表 22.4 中 8.9两列。5. 所指定的组别 (本处可 B 组 ) 死亡人数的期望值与方差为 E(∑d2i)=∑n2iPi (22.18) V(∑d2i)=∑[n1in2i/(n1i+n2i-1)]Pi(1-Pi) (22.19)计算服从标准正态分布的统计量 Z Z=[∑d2i-E(∑d2i)]/√V(∑d2i) (22.20)可据 Z0.05=1.96,Z0.01=2.58, 作出统计推断。代入本例资料有∑ d2i=7, E(∑d2i)=3.212284,V(∑d2i)=1.916190, Z=2.7363 故P<0.01,拒绝 H0,认为两种疗法的生存期不相同。

Page 32: 第十八章 生存分析和 COX 回归

§3.3 广义 Wilcoxon检验 (Generalized Wilcoxon Test)

• 又称为 Breslow检验法 (Breslow Test), 可用于两个或两个以上生存分布的比较 ,其 H0,H1 同前。本处仍用例 22.1 资料说明其计算过程。

Page 33: 第十八章 生存分析和 COX 回归

表22. 5 例22. 1资料两疗法生存分布比较的广义Wi l coxon检验─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─时间 状态 组别 累积生存率 计分值 A组计分值 t i si S(t i ) Ui Ui (A) ① ② ③ ④ ⑤ ⑥─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ 1 死 B 0. 9615 0. 9615 2 活 B -0. 0385 2 活 A -0. 0385 -0. 0385 3 死 B 0. 9197 0. 8812 4 死 A 0. 8779 0. 7976 0. 7976 6 死 B 0. 8361 0. 714 6 活 A -0. 1639 -0. 1639 6 活 A -0. 1639 -0. 1639 7 死 B 0. 7897 0. 6258 7 活 B -0. 2103 8 活 A -0. 2103 -0. 2103 9 死 A 0. 7370 0. 5267 0. 5267 9 活 A -0. 2630 -0. 263010 死 A 0. 6803 0. 4173 0. 417311 死 B 0. 6236 0. 303911 活 B -0. 376412 活 A -0. 3764 -0. 376413 死 A 0. 4851 0. 1087 0. 108713 死 B 0. 4851 0. 108717 死 B 0. 4158 -0. 099118 死 A 0. 3465 -0. 2377 -0. 237719 活 A -0. 6535 -0. 653524 死 A 0. 2598 -0. 3937 -0. 393726 死 A 0. 1732 -0. 567 -0. 567031 死 A 0. 0866 -0. 7402 -0. 740243 活 A -0. 9134 -0. 9134─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─

Page 34: 第十八章 生存分析和 COX 回归

1. 将两组生存数据混合由小到大排列 ,当截尾数据与完全数据数值相同时 , 截尾数据排列在后。并写出每个生存数据的状态 ( 死或活 ) 及所属组别 (见表22.5中第 1-3 列 )。2. 用积限估计法对两组合并资料估计生存率 ( 即累积生存率 )^S(ti), 列于表中第4列3. 计算各生存时间点的计分值 Ui。 Ui= ^S(ti-1)+^S(ti)-1 观察值为完全数据 S(ti)-1 观察值为截尾数据 (22.21)其中 S(0)=1例如第一个时间点 Ti=1 是完全数据 ( 死亡 ),故 U1=1+0.9615-1=0.9615,第 2,3 个时间点为截尾数据 U2=U3=0.9615-1=-0.0385第 4 个时间点为完全数据 U4=0.9615+0.9197-1=0.8812 余类推。4. 计算任一组的计分值之和的绝对值 ,本处选择A 组 , 其计分值已记 λ第 6列中 , T=│∑Ui(A)│ (22.22)T的期望值为 0, 方差为 V(T)=m1m2∑U2/[(m1+m2)(m1+m2-1)] (22.23)(22.23)式中∑ U2 系指全部生存时间点的 U值平方和 , Z=T/√V(T) (22.24)Z 服从标准正态分布 ,故可据 Z0.05=1.96,Z0.01=2.58 作出统计推断。本例资料有 T=2.8712,∑U2=6.6559,V(T)=1.6384,Z=2.243,P<0.05,拒绝 H0, 认为两种治疗方法的生存期不相同。

Page 35: 第十八章 生存分析和 COX 回归

第五节

估计和比较生存函数的 SAS程序

用 LIFETEST 过程

Page 36: 第十八章 生存分析和 COX 回归

第六节 COX 回归

COX 回归用于研究各种因素(称为协变量,或伴随变量等)对于生存期长短的关系,进行多因素分析。

h(t,x)=h0(t)exp(1x1 + 2x2 +••••••+ mxm )

X1, X2 ••••, , Xm 是协变量

1 , 2 ,••••••, m 是回归系数,由样本估计而得。

I >0 表示该协变量是危险因素,越大使生存时间越短

I <0 表示该协变量是保护因素,越大使生存时间越长

Page 37: 第十八章 生存分析和 COX 回归

h(t,x)=h0(t)exp(1x1 + 2x2 +••••••+ mxm )

h0(t) 为基础风险函数,它是全部协变量X1, X2 ••••, , Xm 都为 0 或标准状态下的风险函数,一般是未知的。

h(t,x) 表示当各协变量值 X固定时的风险函数,它和 h0(t) 成比例,所以该模型又称为比例风险模型( proportional hazard model)

COX 回归模型不用于估计生存率,主要用于因素分析。

Page 38: 第十八章 生存分析和 COX 回归

COX 回归的应用: 和 LOGISTIC 回归相似

( 1 )因素分析

分析哪些因素(协变量)对生存期的长短有显著作用。 对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与生存期的长短有显著关系。

Page 39: 第十八章 生存分析和 COX 回归

( 2 )求各因素在排除其它因素的影响后,对于死亡的相对危险度(或比数比)

如某因素 Xi 的偏回归系数为 bi ,

则该因素 Xi 对于死亡的比数比为exp(bi)

当 Xi 为二值变量时,如转移( 1=转移,0= 不转移)

exp(bi) 为转移相对于不转移对于死亡的

相对危险度(或比数比)

Page 40: 第十八章 生存分析和 COX 回归

当 Xi 为等级变量时,如淋巴结转移,分 0 ,1 , 2 , 3 , 4五个等级。

exp(bi) 为每增加一个等级,死亡的相对危险度,如等级 3相对于等级 0 其死亡的相对危险度为: exp(3bi)

当 Xi 为连续变量时,如年龄(岁)

exp(bi) 为每增加一岁时,死亡的相对危险度

如 60岁相对于 35岁其死亡的相对危险度为 exp(25bi)

Page 41: 第十八章 生存分析和 COX 回归

( 3 )比较各因素对于生存期长短的相对重要性

比较各标准化偏回归系数 bi’ 绝对值的大小,

绝对值大的对生存期长短的作用也大。

( 4 ) 考察因素之间的交互作用

如考察 XL和 XK 之间的交互作用是否显著,再增加一各指标: XLK= XL*XK ,如其偏回归系数 bLK显著,则 XL和 XK 之间的交互作用显著。

Page 42: 第十八章 生存分析和 COX 回归

例 18.4 结果--------------------------------------------------------------------------------

指标 回归系数 P值 相对危险度

--------------------------------------------------------------------------------

肿瘤部位中段 -0.7169 0.0469 0.488

肿瘤部位下段 -1.0077 0.0068 0.365

深度 0.3585 0.0007 1.431

TNM 分期 0.1603 0.0003 1.174

未分化癌 0.7019 0.0385 2.018

淋巴结转移数 0.2703 0.0001 1.310

--------------------------------------------------------------------------------

Page 43: 第十八章 生存分析和 COX 回归

侵及深度越深, TNM 分期越大,淋巴结转移数越多,则生存期越短;

细胞类型为未分化癌的生存期短

肿瘤部位中段或下段的比上段生存期长。

COX 回归方程为:

h(t,x)=h0(t)exp(-0.7169X3b - 1.0077X3c+

0.3585X4+0.1603X5+0.7019X8c

+0.2703X9)