生存分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
V1 0.2489 V2 0.2489
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14 14
14 15 28 29
ni Vi n
ni n d 1 d n n 1
1. 寿命表法
当样本量较大时,通常将资料先整理成频数表形式,用寿 命表法计算样本资料的生存率及生存率的标准误。寿命表 法(life table method)是采用编制定群寿命表的原理来计算 生存率,首先求出患者在治疗后或健康者在预防措施后各 时期的生存概率,然后根据概率的乘法法则,将各时期的 生存概率相乘,即可得到自观察开始到各时点的生存率。
某时段死亡人数 q 某时段初人口数
活过某时段的人数 p 某时段初人口数
q p1
(7) 生存率 生存率 (survival rate) ,又称累积生存概率 (cumulative probability of survival),指观察对象经历t个单位时段后 仍存活的可能性。累积生存概率随着时间t的变化而变化, 它是时间t的函数,称为生存函数(survival function)。 ① 如资料中无删失数据,则直接计算生存率。 ② 若含有删失数据,须分时段计算生存概率。
ˆ P (T t ) t k 时 刻 仍 存 活 的 例 数 S tk k 观察总例数
ˆ P (T t ) p p p S ˆ S t k 1 pk tk k 1 2 k
(8) 中位生存期 中位生存期 (median survival time)又称半数生存期,表 示恰有50%的个体尚存活的时间。中位生存期越长,表 示疾病的预后越好;反之,预后越差。估计中位生存期 常用图解法或线性内播法。 (9) 风险函数 风险函数(hazard function),表示t时刻存活的个体在t时 刻的瞬时死亡率。
1. 2. 3.
曲线折线形:因不知道时段内生存率的变化规律,故用 直线连接各端点,形成一条折线。 曲线连续:可估计任意时点的纵坐标值(生存率)。 曲线尾部稳定性好:寿命表法用于大样本,通常最后一 个时段仍有一定观察例数,故曲线尾部稳定性较好。
2. Kaplan-Meier法
寿命表法死亡概率 计算为当期死亡数 / 有效例数。 K-M 法 的 死 亡 概 率 为当期死亡数 / 期初 例数。
1. 时序(log-rank)检验
由Mantel等人于1966年提出。 基本思想:在无效假设成立的前提下,根据不同处理各 生存时期的期初观察人数和理论死亡概率计算出的理论 死亡数应该与实际死亡数相差不大;如果相差较大,则 可认为生存曲线间有统计学差异。检验统计量近似服从 自由度为(组数一1)的2分布,
3. 生存率的区间估计
ˆ ˆ SE S t i St i
t j ti
n n
j
dj
j
dj
避 免 生 存 率 接 近 0 或 100% 时,出现超过[0,1]的范围
ˆ ˆ S t i z 2 SE S t i
ˆ ˆ t i ln ln S v t i
P t T t △t | T t ht lim △t 0 △t
△t=1时,h(t)近似地等于t时刻存活的个体在此后一个单 位时段内的死亡概率。
二、 生存率估计
生存率估计主要有寿命表法和Kaplan-Meier法。
1. 寿命表法适用于大样本或粗略的生存时间资料; 2. Kaplan-Meier法适用于小样本或大样本且有精确 生存时间的资料。 两者均应用定群寿命表的基本原理,先求 出各个时段的生存概率,然后根据概率乘法定理 计算生存率。
生存分析 Survival Analysis
公共卫生学院卫生统计学教研室
一、概 述
1. 传统方法在分析随访资料时存在困难: (1) 时间和生存结局都成为了要关心的因素 如果将结局和时间均作为因变量拟和多元模型,由于时 间分布不明(一般不呈正态分布,在不同情况下的分布 规律也不同),拟和多元模型极为困难。
(4) 产生删失的原因 ①失访:生存但中途失访,如拒绝访问、失去联系等。 ②退出:中途退出试验或改变治疗方案或死于其它与研究无 关的原因。
③终止:指研究结束时终点事件尚未发生。
* 终点事件 + 截尾值
+
*
+
*
+
*
研究起始 研究终点
+
(5) 生存时间的特点: ①同时考虑生存结局和生存时间; ②生存时间可能含有删失数据; ③生存时间的分布和常见的统计分布有明显不同,如呈指数 分布 Weibu11 分布、对数正态分布、对数 logistic 分布、 gamma 分布或更为复杂的分布,因此需有能分析这类数 据的特殊的统计方法;
(2) 存在大量删失资料
将失访数据无论是算作死亡还是存活都不合理,时间判 定存在难度。①失去联系;②无法观察到结局(死于其 他原因);③研究截止。
2. 生存分析的应用 可用于现场追踪研究、临床疗效试验、疾病预后分析等 与时间相关的分析,生存时间的涵义也随之扩展到更广 义的范围,又称为时间 -效应分析(time-effect analysis)。 其研究内容主要包括3方面内容: (1) 对生存状况进行统计描述(生存概率、生存率、中位生 存期等); (2) 寻找影响生存时间的“危险因素”和“保护因素”; (3) 估计生存率和生存时间长短,进行预后评价。
0.7594 0.5562 0.4198 0.3503 0.2907 0.2682 0.2538 0.2499 0.2373 0.2281
生存率
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 时间/年
图1 某恶性肿瘤生存曲线(寿命表法)
2
d
gi
Tgi
2
Vg
ngi ngi Vg 1 ni ni
ni d i n 1 i
d i
表2 肿瘤患者生存曲钱比较的log-rank检验计算表
<3.0cm 时间 死亡 存活 合计 ≥3.0cm 死亡 存活 合计 死亡 合计 存活 合计 总计
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14 14
14 15 28 29
RC T N
1 14 T1 0.4827 29 1 14 T2 0.5172 30
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14Βιβλιοθήκη Baidu14
15 16 29 30
ni ni n d Vi 1 d n n n 1
组别 <3.0cm ≥3.0cm 合计
死亡 存活 合计 0 1 1 14 14 14 15 28 29
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14 14
15 16 29 30
RC T N
1 14 T1 0.4667 30 1 14 T2 0.5333 30
(3)根据是否观察到研究对象的结局,将生存时间数据的分为 两类: ①完全数据(complete data):观察对象在观察期内出现终点 事件,这时记录到的时间信息是完整的,这种生存时间数 据称为完全数据。 ②截尾数据 (censored data) :亦称截尾值、删失数据,指在 尚未观察到研究对象出现终点事件时,即由于某种原因停 止了随访,这时记录到的时间信息是不完整的,这种生存 时间数据称为不完全数据或截尾值。常用符号“+”表示。
se pi pi
7 6 8
j 1
i
表1 寿命表法估计生存率计算表
序号 i
(1) 1 2 3 4 5 6 7 8 9 10 确诊 后年 数 (2) 0 1 2 3 4 5 6 7 8 9~10 期内死 亡数 ti (3) 90 76 51 25 20 7 4 1 3 2 期内删 失数 ci (4) 0 0 0 12 5 9 9 3 5 5
图3 肿瘤<3.0cm组和肿瘤≥3cm组生存曲线(K-M法)
生存曲线特点
(1) 曲线左连续:每一级台阶的右端为断点,当前死亡时点 处的纵坐标值在下一个台阶。 (2) 曲线阶梯形:不能用直线或曲线连接相邻的两个生存率 散点。平缓的生存曲线表示高生存率或较长生存期,陡 峭的生存曲线表示低生存率或较短生存期。 (3) 曲线尾部不稳定:随着时间的增加,观察例数越来越少, 误差越来越大,尾部极不稳定。多组比较时,常发生曲 线尾部交叉现象。 (4) 计算中位生存期:找到与生存率50%相邻的上下两个生 存率及其生存时间,利用线性比例关系求解中位生存期。
6
7 9
0
0 0
14
14 14
14
14 14
1
1 1
15
14 13
16
15 14
1
1 1
29
28 27
30
29 28
10
11
0
0
14
14
14
14
1
1
12
11
13
12
1
1
26
25
27
26
„„„ „„ „„ „„ „„ „„ „„ „
组别 <3.0cm ≥3.0cm 合计
死亡 存活 合计 0 1 1 14 14 15 16 29 30
3. 基本概念
(1)生存分析(survival analysis): 是将终点事件 (terminal event)的出现与否及其出现所经历 的时间结合起来分析的统计方法。由于通常研究的终点事 件为死亡,故而得名生存分析,但生存分析更广泛地用于 各学科研究领域的事件分析,如设备的失效、疾病的发生 和预后等,因此也被称为可靠性分析(reliability analysis)、 失效时间分析(failure time analysis)等。 (2)生存时间(survival time): 指从某个起始事件开始到某个终点事件的发生 ( 出现反应 ) 所经历的时间,终点事件称为失效,则生存时间也称失效 时间(failure time)。
生存概率 pi
(8)=1-(7) 0.7594 0.7324 0.7548 0.8344 0.8298 0.9227 0.9463 0.9845 0.9496 0.9612
生存率 S(t)
(9)=pi×pi1
生存率标 准误SE
(10) 0.0221 0.0257 0.0255 0.0248 0.0239 0.0235 0.0233 0.0233 0.0232 0.0232
ˆ t i SE v
ˆ SE S t i ˆ ˆ ln S t i St i
ˆ S t i
ˆt exp z 2 SE v i
三、生存率的比较
生存率比较的假设检验方法有参数法、半参数法 和非参数法。因医学研究中的生存时间资料大多 为不规则分布或者分布未知,常采用非参数法进 行假设检验。非参数法是将生存率曲线作为整体 进行曲线与曲线之间的比较,其零假设为各总体 生存率曲线相同。 常用的非参数检验方法有 log-rank 检验(时序检 验)、 Breslow检验和Gehan比分检验等。
期初病 例数
(5) =ni1-ti-1 374 284 208 157 120 95 79 66 62 54
期初有 效例数 ni (6)=(5) -ci-1/2 374.0 284.0 208.0 151.0 117.5 90.5 74.5 64.5 59.5 51.5
死亡概率 qi
(7)=(3)/(6) 0.2406 0.2676 0.2452 0.1656 0.1702 0.0773 0.0537 0.0155 0.0504 0.0388
④ 生存时间的影响因素多而复杂且不易控制。
(6) 死亡概率和生存概率 ① 死亡概率(probability of death)表示某单位时段开始时存 活的个体在该时段内死亡的可能性,如年死亡概率表示 年初尚存人口在今后1年内死亡的可能性。 ② 生存概率(probability of survival)表示某单位时段开始时 存活的个体到该时段结束时仍存活的可能性,如年生存 概率表示年初尚存人口存活满一年的可能性。
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14 14
14 15 28 29
ni Vi n
ni n d 1 d n n 1
1. 寿命表法
当样本量较大时,通常将资料先整理成频数表形式,用寿 命表法计算样本资料的生存率及生存率的标准误。寿命表 法(life table method)是采用编制定群寿命表的原理来计算 生存率,首先求出患者在治疗后或健康者在预防措施后各 时期的生存概率,然后根据概率的乘法法则,将各时期的 生存概率相乘,即可得到自观察开始到各时点的生存率。
某时段死亡人数 q 某时段初人口数
活过某时段的人数 p 某时段初人口数
q p1
(7) 生存率 生存率 (survival rate) ,又称累积生存概率 (cumulative probability of survival),指观察对象经历t个单位时段后 仍存活的可能性。累积生存概率随着时间t的变化而变化, 它是时间t的函数,称为生存函数(survival function)。 ① 如资料中无删失数据,则直接计算生存率。 ② 若含有删失数据,须分时段计算生存概率。
ˆ P (T t ) t k 时 刻 仍 存 活 的 例 数 S tk k 观察总例数
ˆ P (T t ) p p p S ˆ S t k 1 pk tk k 1 2 k
(8) 中位生存期 中位生存期 (median survival time)又称半数生存期,表 示恰有50%的个体尚存活的时间。中位生存期越长,表 示疾病的预后越好;反之,预后越差。估计中位生存期 常用图解法或线性内播法。 (9) 风险函数 风险函数(hazard function),表示t时刻存活的个体在t时 刻的瞬时死亡率。
1. 2. 3.
曲线折线形:因不知道时段内生存率的变化规律,故用 直线连接各端点,形成一条折线。 曲线连续:可估计任意时点的纵坐标值(生存率)。 曲线尾部稳定性好:寿命表法用于大样本,通常最后一 个时段仍有一定观察例数,故曲线尾部稳定性较好。
2. Kaplan-Meier法
寿命表法死亡概率 计算为当期死亡数 / 有效例数。 K-M 法 的 死 亡 概 率 为当期死亡数 / 期初 例数。
1. 时序(log-rank)检验
由Mantel等人于1966年提出。 基本思想:在无效假设成立的前提下,根据不同处理各 生存时期的期初观察人数和理论死亡概率计算出的理论 死亡数应该与实际死亡数相差不大;如果相差较大,则 可认为生存曲线间有统计学差异。检验统计量近似服从 自由度为(组数一1)的2分布,
3. 生存率的区间估计
ˆ ˆ SE S t i St i
t j ti
n n
j
dj
j
dj
避 免 生 存 率 接 近 0 或 100% 时,出现超过[0,1]的范围
ˆ ˆ S t i z 2 SE S t i
ˆ ˆ t i ln ln S v t i
P t T t △t | T t ht lim △t 0 △t
△t=1时,h(t)近似地等于t时刻存活的个体在此后一个单 位时段内的死亡概率。
二、 生存率估计
生存率估计主要有寿命表法和Kaplan-Meier法。
1. 寿命表法适用于大样本或粗略的生存时间资料; 2. Kaplan-Meier法适用于小样本或大样本且有精确 生存时间的资料。 两者均应用定群寿命表的基本原理,先求 出各个时段的生存概率,然后根据概率乘法定理 计算生存率。
生存分析 Survival Analysis
公共卫生学院卫生统计学教研室
一、概 述
1. 传统方法在分析随访资料时存在困难: (1) 时间和生存结局都成为了要关心的因素 如果将结局和时间均作为因变量拟和多元模型,由于时 间分布不明(一般不呈正态分布,在不同情况下的分布 规律也不同),拟和多元模型极为困难。
(4) 产生删失的原因 ①失访:生存但中途失访,如拒绝访问、失去联系等。 ②退出:中途退出试验或改变治疗方案或死于其它与研究无 关的原因。
③终止:指研究结束时终点事件尚未发生。
* 终点事件 + 截尾值
+
*
+
*
+
*
研究起始 研究终点
+
(5) 生存时间的特点: ①同时考虑生存结局和生存时间; ②生存时间可能含有删失数据; ③生存时间的分布和常见的统计分布有明显不同,如呈指数 分布 Weibu11 分布、对数正态分布、对数 logistic 分布、 gamma 分布或更为复杂的分布,因此需有能分析这类数 据的特殊的统计方法;
(2) 存在大量删失资料
将失访数据无论是算作死亡还是存活都不合理,时间判 定存在难度。①失去联系;②无法观察到结局(死于其 他原因);③研究截止。
2. 生存分析的应用 可用于现场追踪研究、临床疗效试验、疾病预后分析等 与时间相关的分析,生存时间的涵义也随之扩展到更广 义的范围,又称为时间 -效应分析(time-effect analysis)。 其研究内容主要包括3方面内容: (1) 对生存状况进行统计描述(生存概率、生存率、中位生 存期等); (2) 寻找影响生存时间的“危险因素”和“保护因素”; (3) 估计生存率和生存时间长短,进行预后评价。
0.7594 0.5562 0.4198 0.3503 0.2907 0.2682 0.2538 0.2499 0.2373 0.2281
生存率
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 时间/年
图1 某恶性肿瘤生存曲线(寿命表法)
2
d
gi
Tgi
2
Vg
ngi ngi Vg 1 ni ni
ni d i n 1 i
d i
表2 肿瘤患者生存曲钱比较的log-rank检验计算表
<3.0cm 时间 死亡 存活 合计 ≥3.0cm 死亡 存活 合计 死亡 合计 存活 合计 总计
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14 14
14 15 28 29
RC T N
1 14 T1 0.4827 29 1 14 T2 0.5172 30
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14Βιβλιοθήκη Baidu14
15 16 29 30
ni ni n d Vi 1 d n n n 1
组别 <3.0cm ≥3.0cm 合计
死亡 存活 合计 0 1 1 14 14 14 15 28 29
组别
死亡 存活 合计
<3.0cm
≥3.0cm 合计
0
1 1
14 14
15 16 29 30
RC T N
1 14 T1 0.4667 30 1 14 T2 0.5333 30
(3)根据是否观察到研究对象的结局,将生存时间数据的分为 两类: ①完全数据(complete data):观察对象在观察期内出现终点 事件,这时记录到的时间信息是完整的,这种生存时间数 据称为完全数据。 ②截尾数据 (censored data) :亦称截尾值、删失数据,指在 尚未观察到研究对象出现终点事件时,即由于某种原因停 止了随访,这时记录到的时间信息是不完整的,这种生存 时间数据称为不完全数据或截尾值。常用符号“+”表示。
se pi pi
7 6 8
j 1
i
表1 寿命表法估计生存率计算表
序号 i
(1) 1 2 3 4 5 6 7 8 9 10 确诊 后年 数 (2) 0 1 2 3 4 5 6 7 8 9~10 期内死 亡数 ti (3) 90 76 51 25 20 7 4 1 3 2 期内删 失数 ci (4) 0 0 0 12 5 9 9 3 5 5
图3 肿瘤<3.0cm组和肿瘤≥3cm组生存曲线(K-M法)
生存曲线特点
(1) 曲线左连续:每一级台阶的右端为断点,当前死亡时点 处的纵坐标值在下一个台阶。 (2) 曲线阶梯形:不能用直线或曲线连接相邻的两个生存率 散点。平缓的生存曲线表示高生存率或较长生存期,陡 峭的生存曲线表示低生存率或较短生存期。 (3) 曲线尾部不稳定:随着时间的增加,观察例数越来越少, 误差越来越大,尾部极不稳定。多组比较时,常发生曲 线尾部交叉现象。 (4) 计算中位生存期:找到与生存率50%相邻的上下两个生 存率及其生存时间,利用线性比例关系求解中位生存期。
6
7 9
0
0 0
14
14 14
14
14 14
1
1 1
15
14 13
16
15 14
1
1 1
29
28 27
30
29 28
10
11
0
0
14
14
14
14
1
1
12
11
13
12
1
1
26
25
27
26
„„„ „„ „„ „„ „„ „„ „„ „
组别 <3.0cm ≥3.0cm 合计
死亡 存活 合计 0 1 1 14 14 15 16 29 30
3. 基本概念
(1)生存分析(survival analysis): 是将终点事件 (terminal event)的出现与否及其出现所经历 的时间结合起来分析的统计方法。由于通常研究的终点事 件为死亡,故而得名生存分析,但生存分析更广泛地用于 各学科研究领域的事件分析,如设备的失效、疾病的发生 和预后等,因此也被称为可靠性分析(reliability analysis)、 失效时间分析(failure time analysis)等。 (2)生存时间(survival time): 指从某个起始事件开始到某个终点事件的发生 ( 出现反应 ) 所经历的时间,终点事件称为失效,则生存时间也称失效 时间(failure time)。
生存概率 pi
(8)=1-(7) 0.7594 0.7324 0.7548 0.8344 0.8298 0.9227 0.9463 0.9845 0.9496 0.9612
生存率 S(t)
(9)=pi×pi1
生存率标 准误SE
(10) 0.0221 0.0257 0.0255 0.0248 0.0239 0.0235 0.0233 0.0233 0.0232 0.0232
ˆ t i SE v
ˆ SE S t i ˆ ˆ ln S t i St i
ˆ S t i
ˆt exp z 2 SE v i
三、生存率的比较
生存率比较的假设检验方法有参数法、半参数法 和非参数法。因医学研究中的生存时间资料大多 为不规则分布或者分布未知,常采用非参数法进 行假设检验。非参数法是将生存率曲线作为整体 进行曲线与曲线之间的比较,其零假设为各总体 生存率曲线相同。 常用的非参数检验方法有 log-rank 检验(时序检 验)、 Breslow检验和Gehan比分检验等。
期初病 例数
(5) =ni1-ti-1 374 284 208 157 120 95 79 66 62 54
期初有 效例数 ni (6)=(5) -ci-1/2 374.0 284.0 208.0 151.0 117.5 90.5 74.5 64.5 59.5 51.5
死亡概率 qi
(7)=(3)/(6) 0.2406 0.2676 0.2452 0.1656 0.1702 0.0773 0.0537 0.0155 0.0504 0.0388
④ 生存时间的影响因素多而复杂且不易控制。
(6) 死亡概率和生存概率 ① 死亡概率(probability of death)表示某单位时段开始时存 活的个体在该时段内死亡的可能性,如年死亡概率表示 年初尚存人口在今后1年内死亡的可能性。 ② 生存概率(probability of survival)表示某单位时段开始时 存活的个体到该时段结束时仍存活的可能性,如年生存 概率表示年初尚存人口存活满一年的可能性。