第十二章 生存分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

个体水平变量:癌大小、有无淋巴结转移、性别、年龄等等 环境因素:辅助疗法、中心、气温、气压、花粉量

时间依存性协变量


纵向数据(longitudinal data) 心脏移植的例子

固定效果(fixed effect)还是随机效果(random effect)
例如:性别和中心
Cox回归介绍
第十二章 生存分析
Survival analysis
引例
对两组分别接受了A处理和B处理的小老鼠注射某种致癌物, 观察她们直至全部死亡。记录她们的存活天数并进行分 析,数据如下:
A: 143,164,188,188,190,192,206,209,213,216,220,227,230,234, 246,265,304,216+,244+


Cox回归又称比例风险模型(Proportional Hazard Model), 是在比例风险性(两个体之间的风险之比不随时间的改 变而改变)的前提下,在所关心的风险与可能的影响因 子之间所建立的一种关联的表达式。通过这一表达式, 我们可以考察影响因子对所关心的风险是否有作用以及 作用的大小。 基于模型进行统计分析的意义与不足
Days
0.000 143.000 164.000 188.000 188.000 190.000 192.000 206.000 209.000 213.000 216.000 216.000* 220.000 227.000 230.000 234.000 244.000* 246.000 265.000 304.000
0 时间 t
生存函数和风险函数

描述生存时间分布的两种数学工具。严格地说,生 存函数应被称为生存时间分布函数。
T : 表示生存时间 的非负随机变量 生存函数: S (t ) Prob(T t )
Probt T t t | T t h(t ) lim t 0 t S t S t t lim t 0 t S t dS t 1 dt S t 累积风险函数: t ht du log S t H

组间的生存时间分布的比较 考察可能与生存时间有关联的协变量

协变量调整(adjust for covariates):在协变量的 同一水平上进行比较。
生存分析的历史与应用


17、18世纪:寿命表的提出及其应用。 1926年:Greenwood提出评价生存函数的误差的方法— Greenwood公式。 1958年:生存函数的计算方法—Kaplan-Meier法(乘积极 限法product-limit)的提出。 1960年代中叶:生存时间的组间比较方法的开发—广义 Wilcoxon秩和检验(Gehan,1965年);对数秩检验(logrank test)又称时序检验(Mantel,1966年)。 1970年:将协变量的影响模型化—参数模型:假设生存 时间服从Weibull分布、对数正态分布等;半参数模型: 比例风险模型(Cox,1972年),又称Cox回归模型。

研究癌细胞是否有转移(x1:x1=0 无转移,x1=1 有转移)和是否手术 (x2:x2=0 无手术,x2=1 有手术)这两个协变量对癌症患者生存时间 的影响,建立了如下Cox回归模型: 现有甲、乙、丙、丁四个病人,他们的协变量的值列于下表,根据上 述模型求他们在时点t的突然死亡风险。 x1 x2 时点t的突然死亡风险 h0 t exp 1 2 甲 1 1 h0 t exp 1 乙 1 0 h0 t exp 2 丙 0 1 h0 t 丁 0 0 根据这四个风险模型,可以实现四个病人之间的任何比较。例如:乙 病人相对于丙病人的突然死亡风险为: 可以发现我们在做任何比较时,都 h0 t exp 1 不用关心 h0 t 的具体形式。 exp 1 2 h0 t exp 2
1
生 存 率 时间 0 时间
1
生 存 率 0
1
生 存 率 0 时间 C 两种检验方法都 不容易得到有意差
A Logrank检验 容易得到有意差
B Wilcoxon检验 容易得到有意差
协变量的效应与其模型化

协变量=回归分析中的解释变量
“解释” 的含义为反应结果的变化是由这些变量的变化 造成的。 分组变量:用药不同、处理不同 预后因子(危险因子、混杂因子)
右删失:期待结局发生的时间未知,只知道发生在某一时点之后。 左删失:期待结局发生的时间未知,只知道发生在某一时点之前。 期间删失:期待结局发生的时间未知,只知道发生在某两时点之间。 删失必须调整,否则导致偏倚。

生存时间的分布:右偏、非负。
关于删失
删失的模式图
随访开始 失访 失访 研究截止时仍存活

h X , t h0 t exp X h0 t exp 1 x1 p x p 比例风险性 h X , t exp 1 x1 p x p h0 t
当A病人的协变量值=XA,B病人的协变量值=XB时,两个病人在时 点t突然死亡的风险之比为:
生存分析的几个基本概念


生存时间:从某一基准时点开始到某种期待结局发生所持 续的时间。 期待结局—事件:死亡、疾病复发、故障、再就业、中奖, 等。 基准时点:保证可比性的时点。例如:随机化分组时点、 机器启用。 删失(censor):又称截尾。指期待结局发生的正确时间未 知。

6 11
>
具体计算方法
比较的两组之间生存函数是否不同的非参数 检验方法(续)

有删失的例子

1 4 2 5 3 6 7 4 9
组别j 1 2 时点i 实际时间
+

5 10
:删失
>

6 11
+
13
>
Logrank Test and Wilcoxon Test

由于权重不同,由两种方法得到差别有统 计学意义的难易度随生存函数的不同而不 同。
B: 142,156,163,198, 205,232,232,233,233,233,233,239,240, 261,280,280,296,296,353,204+,344+
The LIFETEST Procedure Stratum 1: Group = 0 Product-Limit Survival Estimates Survival Standard Number Number Survival Failure Error Failed Left
生存函数的乘积-极限估计法
:删失
0
t1
t2
t3
t4
t
死亡数
基数 1 S
d1
n1(7) (1-d1/n1) (6/7)
d2
nபைடு நூலகம்(6)
d3
n3(4)
d4
n4(1)
(1-d1/n1)(1-d2/n2)
(6/7)(5/6)
(1-d1/n1)(1-d2/n2)(1-d3/n3) (6/7)(5/6)(3/4)


模型是对实际数据的一种概括 这种概括有可能是错的,至少是不全面的

G.E.P.Box:所有的模型都是不正确的,但其中某些模型 可以为我们提供有用的信息。 要建立一个尽量接近正确的模型绝不是一件容易的事。 应避免不负责任的建模工作。
Cox回归模型(比例风险模型)

模型结构
当某个癌症病人其协变量的值=X时,其在时点t突然死亡的风险可以 用下式表示。
0 1 2 3 4 5 6 7 8 9 10 8 11 12 13 14 14 15 16 17
19 18 17 16 15 14 13 12 11 10 9 7 6 5 4 3 2 1 0
NOTE: The marked survival times are censored observations.
1.0000 0.9474 0.8947 . 0.7895 0.7368 0.6842 0.6316 0.5789 0.5263 0.4737 . 0.4145 0.3553 0.2961 0.2368 . 0.1579 0.0789 0
0 0 0.0526 0.0512 0.1053 0.0704 . . 0.2105 0.0935 0.2632 0.1010 0.3158 0.1066 0.3684 0.1107 0.4211 0.1133 0.4737 0.1145 0.5263 0.1145 . . 10 0.5855 0.1145 0.6447 0.1124 0.7039 0.1082 0.7632 0.1015 . . 0.8421 0.0934 0.9211 0.0728 1.0000 0
B: 142,156,163,198, 205,232,232,233,233,233,233,239,240, 261,280,280,296,296,353,204+,344+
何为生存分析

对生存时间进行分析的统计方法的总称。

描述生存时间分布


生存函数(survival function):到某时点为止事件 仍未发生的概率分布。 风险函数(hazard function):在某时点的瞬间死 亡率。
h X A , t h0 t exp X A exp X A h X B , t h0 t exp X B exp X B
参数 的含义

hx1 , x2 , t h0 t exp 1 x1 2 x2
事件
患者进入期间
研究截止时点
描述生存时间分布
对两组分别接受了A处理和B处理的小老鼠注射某种致癌物, 观察她们直至全部死亡。记录她们的存活天数并进行分 析,数据如下:
A: 143,164,188,188,190,192,206,209,213,216,220,227,230,234, 246,265,304,216+,244+
t
S t exp H t
0
生存函数、风险函数和累积风险函数
风险函数 非负 累积风险函数 单调增加 生存函数 1 0 单调递减


三种函数在数学上虽然等价,但在进行分析时却不 等价。由于风险函数的估计容易受随机误差的影响, 而生存函数的估计则相对稳定。 生存函数的估计可以用人年法和Kaplan-Meier法。
风险函数与生存函数的关系
风险函数 h h(t) 大 h(t) 小 h(t) 小 h(t) 大 0 t 0 t S 生存函数
风险越大、死亡越快。 ha t a ht S a t S t a
Gehan白血病数据

Gehan的白血病数据(缓解时间,单位:周)
对照组(n=21) 1 1 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23 6-MP组(n=21)(#: 删失) 6# 6 6 6 7 9# 10# 10 11# 13 16 17# 19# 20# 22 23 25# 32# 32# 34# 35#


分析内容

作生存时间分布图(全体、分组)。 检验6-MP组与对照组之间生存时间的分布是否一致。 检验不同处理对生存时间分布是否有影响。
比较的两组之间生存函数是否不同的非参数 检验方法

没有删失的例子

1 4 2 5 3 6 4 9
组别j 1 2 时点i 实际时间

5 10
>

相关文档
最新文档