生存分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
5 6
02-08-25
02-10-01 02-10-04
02-11-29
02-11-28 02-12-28
0
0 1
失
访
96+
59+ 86
死于车祸 复发死亡
(三)死亡概率
死亡概率(mortality probability) 在单位时段开始时存活的个体在该时段 内死亡的可能性大小。
某年内死亡数 q 某年初观察例数
表14.1 6例乳腺癌患者手术后的随访记录
患者 编号 观察记录 开始日期 终止日期 结局 (死=1,生=0) 原因 生存天 数 t
1 2 3
02-09-03 02-09-10 02-09-14
02-12-29 02-12-08 02-12-31
0 1 0
死于“非典” 转移死亡 研究终止
118+ 90 108+
生存分布比较:似然比检验
Weibull分布
生存分布比较:极大似然估计
对数正态分布
生存分布比较:极大似然估计
非参数法
乘积极限法 寿命表法 对数秩检验 Gehan比分检验
Cox-Mantel检验 Cox的F检验 Mantel-Haenszel检验 Kruskal-Wallis检验
生存分析的主要内容
一、生存分析的主要内容 1、描述生存过程 估计生存率及其标准误、绘制生存曲线 2、比较生存过程 对数秩检验、Gehan比分检验
3、生存过程的影响因素分析 常用的多因素生存分析方法Cox比例风险回 归模型ห้องสมุดไป่ตู้
生存分析的基本方法
参数法:
生存时间服从一定的分布,如指数分布
生存资料的特点
随访 持续时间(生存时间) 结局(两对立事件)
生存资料的特点
开始 随访
持续时间
1 结 局 0
失访等
例:石棉粉尘与肺癌关系的研究
刚刚接触 石棉粉尘 的工人
持续时间
发生 肺癌 未发生 肺癌
1
0
开始 随访
失访等
例:某药物治疗糖尿病效果的研究
糖尿病 持续时间 患者缓 解出院 开始 随访
复发 未复发
1 0
失访等
死亡 事件 截尾 值
0 t 随访资料的收集方式示意(a, Ⅰ型删失)
死亡 事件 截尾 值
0
t 随访资料的收集方式示意(b, Ⅱ型删失)
死亡 事件 截尾 值
0 t 随访资料的收集方式示意(c, Ⅲ型删失)
表14.1.1 两组乳腺癌患者治疗效果的研究 A组(手术) B组(化疗) 结局 结局 生存时 生存时 间(月) 复发死亡=1 间(月) 复发死亡=1 11 1 18 + 0 61 1 16 + 0 35+ 0 44 + 0 31 1 15 1 49+ 0 41 1 12+ 0 25 + 0 61+ 0 59 1 42 1 10 1 72 1 8+ 0
1- 1/9
1- 1/8 1- 0/7 1- 1/6 1- 1/5 1- 1/4 1- 0/3 1- 1/2 1-0/1
0.6667
0.5833 0.5833 0.4861 0.3889 0.2917 0.2917 0.1458 0.1458
0.1361
0.1423 0.1423 0.1558 0.1520 0.1417 0.1417 0.1348 0.1348
……
半参数法
COX比例风险回归模型
生存资料的统计描述和 生存率的区间估计
乘积极限法
乘积极限法(product-limit estimate) Kaplan-Meier于1958年首先提出。 主要用于未分组生存资料。
例14.1 某医师采用手术疗法治疗12例宫颈癌 患者,随访时间(月)记录如下:1,2,4, 5,7,8+,11,15,18,33+,36,38+。试 估计各时点生存率及其标准误、各时点总体 生存率的95%可信区间、中位生存时间,并 绘制生存曲线。
(3) 中位生存时间的计算
(7-11):(7-t)=(0.5833-0.4861):(0.5833-0.5) t=10.4 (4) 生存曲线
Su rv ival F unctio n
1.2
Cum Survival
生 存 率
1.0
图 14.1 乘积极限法生存曲线(Kaplan-Meier曲线)
若无截尾数据则
tk时刻仍存活的例数 S (tk ) P(T tk ) 观察总例数
其中,T为观察对象的存活时间。
如果含有截尾数据,分母就必须分时段校正, 因此,改用概率乘法原理估计生存率。 概率乘法原理估计生存率 S(tk)=P(T≥tk)=p1 . p2 …pk 假定观察对象在各个时段的生存事件独立。 p1, p2, …, pk为各个时段的生存概率。 如:S(t3)=P(T≥t3)=p1 . p2 . p3
许多研究的随访结果只有某年或某月的 观察人数、发生死亡事件人数和截尾人 数,而没有每个观察对象确切的生存时 间(完全数据和截尾数据),即只能获 得按随访时间分组的资料。
当样本含量较大(如n50)时,采用乘积 极限法估计其生存率及标准误较为繁琐。
例14.2 某医师对110例原发性肺癌 患者 确诊后进行随访,得到资料见表14.3第2~ 第4栏,试估计各时点生存率及其标准误、 各时点总体生存率的95%可信区间、中 位生存时间、并绘制生存曲线。
q=25% 若有截尾数据,则分母用校正人数
1 校正人数 年初观察例数 截尾人数 2
(四)生存概率与生存率
1、生存概率(survival probability ) 在单位时段开始时存活的个体到该时段 结束时仍然存活的可能性大小。
某年活满一年人数 p 1 q 某年年初观察例数
生存时间
t1
生存分析中的几个基本概念
(一)死亡事件(death event) 又称失效事件(failure event) 死亡事件是一个广义的概念,不单是 指通常意义下的生物体死亡,而是泛指标 志某种处理措施反应、失败或失效的特征 事件。
死亡事件可以是 某疾病的发生 吸烟引起肺癌;吸入游离二氧化硅粉 尘引起矽肺;等等。 某种治疗的反应 如某种药物治疗引起体内某应答细胞增 加;等等。
某疾病的复发 如白血病放疗(化疗)后的复发;接 受健康教育戒烟后的青少年复吸烟;接受 某种健康保险方式后的中途退保;等等。 医学上的死亡 如手术治疗乳腺癌(肺癌、肝癌、白 血病等)后的死亡;等等。
犯罪学上研究释放人员重新犯罪(劳教失败) 社会学上研究首次离婚(首次婚姻失败) 工业上研究某种设备的寿命 (某技术措施实效) 市场学上研究报纸或杂志的篇幅和订费 保险业上研究被保险人的补偿索赔和各种影响 风险或预后因素。
生存率 90/100 80/100 75/100 70/100
(五)生存曲线(survival curve) 将各个时点的生存率在坐标轴上连接在 一起的曲线图,描述生存过程。
(六)中位生存时间(median survival time)
又称半数生存期,是指生存率(累计生存 率)为0.5时对应的生存时间,表示有50% 的观察对象可活这么长时间。 采用内插法估计。
生 存 率
生存时间
Survival Functions
1.0
g1 1.00 2.00
0.8
1.00-censored 2.00-censored
生 la i 0.6 存v v r 率u S
m 0.4 u C
0.2
0.0 0.00 10.00 20.00 30.00 40.00 50.00 60.00
表14.3 寿命表法估计生存率及其标准误计算表
序 号
确诊后 月数
期内 截尾 人数
期内 死亡 人数
期初 观察 人数
校正人 数
死亡概 率
生存概 率
生存率
标准误
k
tk
Ck
Dk
Lk
Nk
qk
pk
S(tk)
SE[S(tk)]
(1)
1
(2)
0~
(3)
1
(4)
25
(5)
110
(6)
109.5
(7)
0.2283
(8)
(1) 生存率及其标准误的计算
序 号 k
生存 时间 tk
死亡 数 dk
期初病 例数 nk
死亡 概率 qk
生存概率 生存率 pk S(tk)
标准误
SE[S(tk )] (8)
0.0798 0.1076 0.1250
(1)
1 2 3
(2)
1 2 4
(3)
1 1 1
(4)
12 11 10
(5)
1/12 1/11 1/10
第7栏为各时点生存率S(tk)
1 1 1 S (t3 ) p1 p2 p3 (1 )(1 )(1 ) 12 11 10
第8栏为各时点生存率的标准误SE[S(tk)] :
1 S (tk ) SE[ S (tk )] S (tk ) nk d k
S(t3)的标准误为:
1 S (t3 ) 1 0.7500 SE[ S (t3 )] S (t3 ) 0.7500 0.1250 n3 d3 10 1
估计各时点总体生存率的95%可信区间:
S (tk ) u SE[S (tk )]
4月总体生存率的95%可信区间为: 下限: S(t3)-1.96SE[S (t3)] =0.7500-1.96×0.1250=0.5050 上限: S(t3)+1.96SE[S (t3)] =0.7500+1.96×0.1250=0.9950
p=1-q=75% 若有截尾数据,则分母用校正人数
2、生存率(survival rate) 实质上是累计生存率(cumulative probability of survival) 记为S(tk),是指观察对象活过tk时刻的 概率。生存率也是广义概念,根据死亡事 件的不同,有其相对应的含义。如缓解率、 有效率、保护率、未发生率等。
(6)
1- 1/12 1- 1/11 1- 1/10
(7)
0.9167 0.8333 0.7500
4
5 6 7 8 9 10 11 12
5
7 8+ 11 15 18 33+ 36 38+
1
1 0 1 1 1 0 1 0
9
8 7 6 5 4 3 2 1
1/9
1/8 0/7 1/6 1/5 1/4 0/3 1/2 0/1
生存分析 survival analysis
生存资料的特点
1、蕴涵有结局和时间两个方面的信息; 2、结局为两分类互斥事件; 3、一般是通过随访收集得到,随访观察 往往是从某统一时间点(如发病、确诊、 入院或实施手术等某种处理措施后)开始, 观察到某规定时间点截止; 4、常因失访等原因造成某些研究对象的生 存时间数据不完整,分布类型复杂。
0.7717
(9)
0.7717
(10)
0.0401
2
3 4 5 6 7 8 9
1~
2~ 3~ 4~ 5~ 6~ 7~ 8~
2
1 2 0 1 0 2 0
21
30 18 2 1 2 0 1
84
61 30 10 8 6 4 2
83.0
60.5 29.0 10.0 7.5 6.0 3.0 2.0
(二)生存时间(survival time)
不仅仅指通常意义下的生物体存活时间, 而是泛指研究者所关心的某现象的持续时 间。 完全数据(complete data) 截尾数据(censored data) 简称截尾值,又称删失值或终检值。 原因:失访(withdrawal); 退出;终止;
抛硬币事件 生存率 多次同时出现 正面的概率 1次 2次同时 1/2 1/2*1/2
生存概率 单次出现正 面的概率 第1次 第2次 1/2 1/2
第3次
第4次
1/2
1/2
3次同时
4次同时
1/2*1/2*1/2
1/2*1/2*1/2*1/2
假如观察总例数为100
生存 时段 期初 死亡 时间 死亡 存活 概率 (月) 例数 例数 1 2 3 4 10 10 5 5 100 90 80 75 10/100 10/90 5/80 5/75 期间 存活 生存概率 例数 90 80 75 70 90/100 80/90 75/80 70/75
%
.8
.6
.4
.2 Survival Func tion 0.0 0 10 20 30 40 C ens ored
ti me
生存时间/个月
寿命表法(life-table method)
寿命表是根据特定人群的年龄组死亡率 编制出来的一种统计表。原是保险精算学的 产物,主要用于人寿保险的保费测算。 已经成为医学统计、流行病学、社会医 学及其他生命科学领域的重要分析工具。