14.医学统计学生存分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存分析(2)
• 由于生存曲线只是对样本生存过程的统计 描述
• 样本生存率或生存曲线不同也可能是抽样 误差所致, • 在生存分析中一个重要的问题是进一步对 总体的生存曲线进行假设检验
log-rank检验
• 属于非参数方法
• 该法并不指定生存时间服从某种特定的分 布
• 所比较的是整个生存时间的分布,而不是 仅仅比较某个特定时间点的生存率
• (2)对于大样本频数表形式的生存曲线比较, 基本方法与上述相同。 • 另外,该法很容易推广到多个组的比较,在此 不赘述。 • 需要强调的是,生存曲线的比较也和前面均数、 率的比较一样,要求组间具有可比性,最好是 按照比较因素进行随机化分配之后再比较。 • 如果是未经随机化分配的观察对比资料,要考 虑是否有混杂因素干扰,若存在混杂因素,可 进行分层分析或采用多因素分析方法(见本章 第四节)。
log-rank 检验
(79 122.06) 2 (81 74.60) 2 (53 16.34) 2 97.99 2 122.06 74.60 16.34
2
P 0.001,可认为三组间生存率差别有统计学意义,进一步进行趋势检验。
H 0 : S1 (t ) S 2 (t ) S 3 (t )
代入式(23-14) 79.72 2 73.96 567.52 [320.28 2 / 213.00]
2
2 ,查 2 界值表得, P 0.005 ,可认为血尿素氮越低,生存率越高,预后越
好。
Cox比例风险回归模型
• log-rank检验属于生存时间比较的单因素分析 方法,应该注意的是生存分析中的单因素比较 在实验设计方面和均数、率的比较一样,要求 对比组之间在非处理因素方面具有可比性。 • 一般而言,经过随机化分配处理的实验设计数 据在处理组之间可比性较好 • 在实际工作中多见的观察对比资料其可比性通 常不能满足 • 或者研究者关心的影响生存时间的因素不止一 个,此时应采用适当的多因素分析方法
• 例23-3 就例23-1数据,比较甲乙两疗法组 脑瘤患者的生存率有无差别? • 两种治疗方式的脑瘤患者生存曲线相同 • 两种治疗方式的脑瘤患者生存曲线不同
0.05
序 号
时间 (周)
ti
甲疗法组
乙疗法组
合计
i
(1) 1 2 3 4 5 6 7 8 9 10 11 合计
n1i
11 11 11 10 9 9 7 7 6 4 3 —
模型结构
h(t, X ) h0 (t )exp(1 X1 2 X 2 m X m )
P(t T t t | T t , X ) h(t , X ) lim t 0 t
• 式中x的 表示研究者认为可能影响生存的诸因素, 也称协变量(covariates),这些变量在随访期间的 取值不随时间变化而变化,例如根据研究目的可以 是随访对象的年龄、性别、接受的不同治疗方式等。 • t表示生存时间,好h(t,x) 称为具有协变量x 的个体在 t 时刻的风险函数(hazard function),表示生存时 间已达 的个体在 t时刻的瞬时风险率, • h0(t)称为基线风险函数(baseline hazard function), 表示所有 x都取值为0时的个体在t 时刻的瞬时风险 率或死亡率。 • 风险函数定义为具有协变量 x的个体在活过t 时刻以 后在 t到 t+△t这一段很短时间内死亡概率与 △t之 比的极限值
趋势检验
• 多组生存率比较时,若分组变量是等级变 量,如肿瘤分期为Ⅰ期、Ⅱ期、Ⅲ期,或 连续变量等级化分组,如年龄(岁)<30、 30~、40~、≥50,在log-rank检验组间生存 率差别有统计学意义后,还可作趋势检验 (trend test),分析危险率是否有随分组 等级变化而变化的趋势。即是否有肿瘤分 期越高,预后越差,或年龄越大(或越 小),预后越差的情况。

9 / 4.4499 RR 3.17 8 /12.5501

• (4)log-rank检验用于整条生存曲线的比较, 若比较两组某时间点处的生存率,则按下 式计算:
u S1 (t ) S2 (t ) SE 2 [ S1 (t )] SE 2 [ S2 (t )]
• 如比较多个时间点处生存率,检验水准可 取Bonferroni校正,以保证总的I型错误概率 不超过
• 由于假设成立时,两组的生存分布相同, 故可把两组的数据合并
• 计算合并的死亡概率,以此计算相应的期 望死亡人数,故将两组的完全生存时间混 合排序列在表23-5第2列 • 相同生存时间只列1次
Di Tki nki Ni • k=1,2
• 表示在每个时点,当两组的死亡率相等且 均为该时点的总死亡数除以该时点的总观 察数时,按照各组期初例数计算的期望死 亡人数
• (3)当假设检验发现组间生存曲线有差别 时,可通过中位生存期、相对危险度RR (relative risk)等指标评价其差别。 • 相对危险度是两个对比组相对死亡比的比 值,而相对死亡比是实际死亡数与期望死 亡数之比,于是,第i组相对于第j组的相对 危险度为:
Ai / Ti RR Aj / T j
n2i
9 8 6 6 5 4 4 2 1 0 0 —
d 2i
1 2 0 1 1 0 2 1 1 0 0 9
T2i
0.4500 0.8421 0.3529 0.3750 0.3571 0.6154 0.7273 0.4444 0.2857 0.0000 0.0000 4.4499
V2 i
(10) 0.2475 0.4604 0.2284 0.2344 0.2296 0.3905 0.4165 0.3025 0.2041 0.0000 0.0000 2.7139
• 由于生存分析问题中反应变量比较特殊,是事件结 局以及出现这一结局所经历的时间,普通的线性回 归和logistic回归通常并不适用。 • 如果仅考虑生存时间作为反应变量进行线性回归, 由于生存时间通常并不是正态分布,不满足线性回 归的模型要求; • 仅考虑某一时点事件结局作为反应变量进行logistic 回归,生存时间长短的信息又未能充分利用; • 生存时间资料中还有删失数据的问题,上述两种模 型都不能够利用这种不完全数据提供的信息
d1i
0 0 1 0 0 2 0 1 1 1 2 8
T1i
0.5500 1.1580 0.6471 0.6250 0.6429 1.3846 1.2727 1.5556 1.7143 1.0000 2.0000 12.5501
V1i
(6) 0.2475 0.4604 0.2284 0.2344 0.2296 0.3905 0.4165 0.3025 0.2041 0.0000 0.0000 2.7139
可以看出连续性协变量 X j 的回归系数表示 X j 每增加一个单位时其相对危险度的 自然对数改变量。 当回归系数大于 0 时,相应协变量值的增加将增大所研究事件发生的可能性;当 回归系数小于 0 时,相应协变量值的增加将减小所研究事件发生的可能性;当回归系 数等于 0 时,相应协变量与所研究事件的发生无关。
2 1 1
注意事项
• (1)以上介绍的是log-rank检验的近似法,计 算简便,但其结果较精确法(一般统计软件中 输出精确法计算结果)保守。log-rank检验精 确法 统计量计算公式为: w (d T )
2
χ2
i
kiቤተ መጻሕፍቲ ባይዱ
ki
Vk
• wi为权重,对log-rank检验,wi=1,即该检验 给任意时间点处两组间死亡的差别相同的权重。 当比较的两总体生存曲线呈比例时,检验效能 最大;wi=ni 则对应Gehan检验(1965)或 Wilcoxon检验,该检验给两组间死亡的早期差 别更大的权重
• 分别将两组各时点期望死亡人数相加列在 第5、第9列合计处,而两组实际总死亡数 为第4、第8列合计 • 如果两组各时点生存率都相等,那么两组 总的期望死亡数和总的实际死亡数相差不 大
( Ak Tk )2 Tk k 1
2 2
2
k 1
(8 12.5501 ) 2 (9 4.4499 )2 6.30 12.5501 4.4499
A
(3) 79 81 53 213
T
(4) 122.06 74.60 16.34 213.00
S(A T )
(5) -43.06 12.80 109.98 79.72
ST
(6) 122.06 149.20 49.02 320.28
S 2T
( 7) 122.06 298.40 147.06 567.52
三组总体生存率无随血尿素氮变化的趋势 即血尿素氮越低,生存率越高
H 1 : S1 (t ) S 2 (t ) S 3 (t )
0.05
表 23-7 血尿素氮 (mg/100ml) ( 1) 0~39 40~79 ≥80 合计 记分 S (2 ) 1 2 3 — 趋势检验 计算表
2
Ni
20 19 17 16 14 13 11 9 7 4 3 —
Di
1 2 1 1 1 2 2 2 2 1 2 17
(2) 1 3 5 7 10 13 15 23 30 38 42 —
(3) (4) (5)
(7)(8) (9)
(11) (12)
• 两组在不同时点的期初观察例数列于第3、 第7列,其合计列于第11列 • 不同时点两组的死亡人数,分列于第4、第 8列,其合计 列于第12列 • 注意到不同时点期初观察例数等于上一时 点期初观察例数减去上一时点的死亡数与 删失数 • 之后按下式计算各组期望死亡人数并分列 于表中第5、第9列
如果假设危险因素 X j 在非暴露组取值为 0,在暴露组取值为 1,不难看出:
h(t , X j 1) h(t , X j 0) h0 (t ) exp( j ) h0 (t ) exp( j ) RR
上式中得到的暴露组与非暴露组的风险率之比正是流行病学中的相对危险度 RR, 于是可以看出 Cox 模型中回归系数的流行病学含义是 0-1 协变量 X 的相对危险度的自 然对数。在生存分析中 RR 称风险比。 如果 X j 为连续性变量,假设其取值为 k 1 与 k 时的相对危险度为 RR RR h(t , X j k 1) h(t , X j k ) h0 (t ) exp[( k 1) j ] h0 (t ) exp( k j ) exp( j )
模型假定
(1)变量 X 的作用是使个体的风险函数由 h0 (t ) 增至 h0 (t ) exp( 1 ) ;m 个变量 X1 、
X2 、 …、X p 共同影响下的风险函数为 h(t , X ) h0 (t ) exp( 1 X 1 ) exp( 2 X 2 ) exp( m X m ) ,
• 参数 ( j 1, 2,, m) 为回归系数,其估计值 bj 可以从样本计算得出。
j
• 由于模型右侧的基线风险函数不要求服从 特定分布形式,具有非参数的特点,而指 数部分的协变量效应具有参数模型的形式, 故Cox回归属于半参数模型(semiparametric model)。
参数的统计学意义
例 23-4 试就表 23-6 资料,分析多发性骨髓瘤患者血尿素氮与预后的关系。
表 23-6 多发性骨髓瘤患者血尿素氮与预后的关系 血尿素氮 (mg/100ml) (1) 0~39 40~79 ≥80 病例数 (2) 113 92 53 实际死亡数 A (3) 79 81 53 期望死亡数 T (4) 122.06 74.60 16.34 相对死亡比 ( A/T ) (5) 0.65 1.09 3.24
• (1)按某种因素影响大小将病人分组 可 采用临床上该因素的自然分组,如疾病的 分期等,组数一般取奇数,如3组或5组。 • (2)计算每组的实际死亡数 与期望死亡 数。 • (3)进行趋势检验。
2 [ S ( A T )] χ2 2 2 S T [( ST ) /( T )]
相关文档
最新文档