随访资料生存分析的统计学基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
由表3可见,中位生存时间估计在36月。 采用内插法计算:找到与生存率50%相邻的上下两个生存率及 其生 存时间利用线性比例关系求解中位生存时间。
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1 q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
120
150
180
图3 随访资料常见形式示意图
2.观察对象在不同时间接受处理措施,完成 一定数量随访病例或按事先规定的时间停止随访。
图4 随访资料常见形式示意图
生存率的估计与生存曲线:
一、乘积极限法
乘积极限法(product-limit estimate)又称KaplanMeier法,适用于未分组生存资料的分析。
2.随访的结局和终止随访的时间
随访的结局可能有以下几种:
(1) “死亡”:泛指处理措施失败的事件。如肿瘤化 疗后的复发、肾移植因肾衰或与之有关的原因而 死亡等。终止随访时间为“死亡”时间。 (2) 失访:拒绝随访、失去联系或中途退出等。终 止随访时间为最后一次访问时间。
(3) 死于与研究疾病无关的原因:终止随访时 间为死亡时间。 (4) 研究终止。研究终止时观察对象仍然存活。 终止随访时间为研究终止时间。
死于车祸 复发死亡
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到
发生“死亡”事件所经历的时间。提供了观察
对象确切的生存时间。 2.截尾数据(censored data):亦称截尾值 (censored value)或终检值。指从观察起点到发 生非“死亡”事件所经历的时间。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 一个。
时间不止
若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。 曲线 高度 &下 降坡 度
拐点的纵坐标值 在下一个台阶
图5 肿瘤<3.0cm组生存曲线
图6 肿瘤<3.0cm组和肿瘤≥3.0cm生存曲线
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) wk.baidu.com泛指标志某种措施
失败或失效的事件,反映治疗效果特征的事件,是
根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提
供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。
2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回归分析法。
生存分析的应用:
1.临床治疗方案或处理措施的效果评价。如恶 性肿瘤手术或化疗后(转移或死亡前)生存时间、 肾移植术后生存时间、心脏起搏器的保留时间、 种植牙的保留时间等。
2.疾病危险因素分析和疾病预后的影响因素分析。
如肺癌发病危险因素分析、肾移植手术效果的影 响因素分析等。
3.特殊人群卫生保健措施的效果评价。如中老 年糖尿病预防效果评价、青少年控制吸烟的健康 教育干预试验效果评价、食管癌高发区干预措施 的效果评价、不同种类宫内节育器的节育效果评 价(宫内保留时间或有效避孕时间)、某疫苗接种 效果评价(观察抗体滴度了解免疫力持续时间或 某病发病率)等。
例16-1 14例膀胱肿瘤<3.0cm患者和16例膀胱肿瘤≥3.0
患者的生存时间(月)如下,试估计两组各时点生存率 及其标准误、各时点总体生存率的95%可信区间、中位生 存时间,并绘制生存曲线。
肿瘤 <3.0cm 肿瘤 ≥3.0cm
14 19 6 7
26 9
28 10
29 11
32 12
36 13
存在的问题
• 1.n年生存率有时出现后一年大于前一年的 现象。 • 2.某时点生存率不能反映整个生存过程,比 较时可能出现不正确的结论。
生存分析的概念:
分析生存资料的统计方法称为生存分析,
(survival analysis),它是将事件的结局和发
生这种结局所经历的时间两个因素综合起 来分析的一种统计方法。它能够处理截尾 数据,并对整个生存过程进行分析或比较
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
生存概率 pt
0.9286 0.9231 0.9167 0.9091 0.9000 0.8889 0.8750 0.8571 0.8333 1.0000 0.7500 1.0000 0.5000 1.0000
生存率 S ( t)
0.9268 0.8572 0.7858 0.7144 0.6429 0.5715 0.5001 0.4286 0.3571 0.3571 0.2678 0.2678 0.1339 0.1339
14 13 12 11 10 9 8 7 6 5 4 3 2 1
截尾数 ct
0 0 0 0 0 0 0 0 0 1 0 1 0 1
死亡概率 qt
1/14=0.0714 1/13=0.0769 1/12=0.0833 1/11=0.0909 1/10=0.1000 1/9=0.1111 1/8=0.1250 1/7=0.1429 1/6=0.1667 0/5=0.0000 1/4=0.2500 0/3=0.0000 1/2=0.5000 0/1=0.0000
0 S (t ) 1 。若无截尾数据,则
tk时刻仍存活的例数 S (tk ) P(T tk ) 观察总例数
若有截尾数据,须分时段计算生存概率。假 定观察对象在各个时段的生存事件独立,应用概 率乘法定理:
S (tk ) P(T tk ) p1. p2 ... pk
pi某时段的生存概率,故生存率又称累积生存概率 (cumulative probabilityof survival)。
随访资料生存分析的统计学基础
丁香园循证版周支瑞整理
传统的生存率计算方法
表1 某地1974—1981年胃癌根治术后随访记录
年份 1974 1975 1976 1977 1978 1979 1980 1981 合计 例数 29 26 24 32 25 36 25 46 243 生存年数
1
28 24 21 27 23 31 23 36 213
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
观察记录 患者 编号 1 2 3 4 5 6 开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04 终止日期 02-12-29 02-12-08 02-12-31 02-11-29 02-11-28 02-12-28 结局 (死=1,生=0) 0 1 0 0 0 1 原因 死于肺癌 转移死亡 研究终止 失 访 生存天数 t 118+ 90 108+ 96+ 59+ 86
二、寿命表法
适用于分组的生存资料。
① 实际工作中,随访结果常常没有每个观
察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
第1年生存概率
0 1
第2年生存概率
2
第3年生存概率
3
1年生存率 2年生存率
3年生存率
图1 生存概率与生存率示意图
六、生存曲线
生存曲线(survival curve):生存时间为横轴, 将各时点所对应的生存率连接在一起的曲线图。
图2 生存曲线
生存分析主要内容:
统计描述:计算生存率、绘制生存率曲线、 计算中位生存时间等。 统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
截尾原因大致有三种情况:
1. 失访:未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病无关的原因:由于其他原因死亡。 3. 研究终止:研究结束时终点事件尚未发生。
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察
到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间
n29为10,表示恰好在29月时点前有10人存活。
4.死亡概率qt,表示t月前的观察对象恰好在t月时点 死亡的概率。
5.生存概率pt,表示t月前的观察对象恰好在t月时 点存活的概率。 6.生存率S(t)。表示该人群恰好活过t 时刻的概率。 它为小于和等于 t 时刻的各时点生存概率的乘积。 7.生存率的标准误SES(t) 。
生存率标准误 SE[S(t)]
0.0688 0.0935 0.1097 0.1207 0.1281 0.1323 0.1336 0.1323 0.1281 0.1281 0.1233 0.1233 0.1130 0.1130
生存率的计算
1.生存时间t:由小到大排列,遇非截尾和截尾值相 同,截尾值排后。 2.死亡数dt:与生存时间t对应。注意:截尾值对应的 个体未发生“死亡”事件,故死亡数为0。 3.期初病例数nt,表示恰好在该时刻以前的病例数。如
3.影响生存的有关因素:如患者年龄、病情、 病程、术前健康等情况,以便分析这些因素对 生存率的影响。
二、随访方式
1.全部观察对象同时接受处理措施,观察到最后 一例出现结果或事先规定的随访截止时间。
7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
+ + 36 99 160
0
30
60
90
观察满1年的243例,活满1年的213例:
213 100% 87.65% 1年生存率= 243
观察满2年的病例243 - 46 = 197例, 活满2年的共154例:
154 100% 78.17% 2年生存率= 197
6年生存率=58.23% 7年生存率=60.00%
8年生存率=58.62%
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正
态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
某年内死亡人数 q 某年年初人口数
四、生存概率