cox_regression_kaplan-meier分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生存曲线(survival curve) 以观察(随访)时间为横轴,以生存率 为纵轴,将各个时间点所对应的生存率 连接在一起的曲线图。 生存曲线是一条下降的曲线,分析时 应注意曲线的高度和下降的坡度。平缓 的生存曲线表示高生存率或较长生存 期,陡峭的生存曲线表示低生存率或较 短生存期。
某医师收集20例脑瘤患者甲、乙两疗法 治疗的生存时间(周)如下: 甲疗法组 1 3 3 7 10 15 15 23 30 乙疗法组 5 7+ 13 13 23 30 30+ 38 42 42 45+
大肠癌生存资料
序号 1 2 3 4 5 6 … 65 X1 X2 X3 X4 X5 X6 X7 0 2 1 0 0 1 0 0 2 1 0 0 1 0 1 2 1 1 0 0 0 0 3 1 1 0 1 0 1 2 0 1 0 0 0 1 2 1 1 1 1 1 0 1 1 1 1 0 0 Time 2896 992 2811 2052 2975 856 584 Event 0 1 0 1 0 1 1
生存分析
Survival Analysis
To be or not to be is only a part of the question. The question also includes how long to be.
余红梅
Department of Health Statistics School of Public Health, Shanxi Medical University
前
言
生存分析(survival analysis)是将事件 的结果(终点事件)和出现这一结果所 经历的时间结合起来分析的一种统计分 析方法。 生存分析不同于其它多因素分析的主要 区别点就是生存分析考虑了每个观测出 现某一结局的时间长短。
第一节 生存分析基本概念
一、生存时间
( survival time,failure time ) 终点事件与起始事件之间的时间间隔。 终点事件指研究者所关心的特定结局。 起始事件是反映研究对象生存过程的起 始特征的事件。
例如,某肿瘤医院调查了1991-1995年间经手 术治疗的大肠癌患者150例,对可能影响大肠 癌术后生存时间的因素进行了调查,如性 别、年龄、组织学分类、肿瘤大小、Dure’S 分期等。随访截止日期为2000年12月30日, 随访记录见下表。
大肠癌患者的随访记录
编号 性别 年龄 … 手术日期 随访终止日期 随访结局 生存时间(天)
X3
X4
组织学分类 乳头状腺癌=0 管状腺癌=1 肿瘤大小(cm)≤6=0 >6=1
细胞增殖抗原(PCNA) <55%=0 ≥55%=1 X6 淋巴管浸润 无=0 有=1 X7 血管浸润 无=0 有=1 Time 手术到观察结束 实际天数 Event 结束时是否死亡 未死=0 死亡=1 X5
27 39 44 22 58 8 22 44
(二)搜集资料 可能的影响因素: 从病历获得。 生存时间及结局: 短期可观察到的结局可从病历获得; 长期结局一般不能从病历直接获得,通过 信访、电话等得到。
(三)整理资料 认真检查、核对原始数据,包括影响因素、 生存时间和生存结局。 尽量避免缺失值。 建立数据库 FoxBase、Foxpro、Virual Foxpro等专业 数据库 统计软件数据库(SAS、SPSS等) Office办公软件中的Excel、Access
Survival Functions
1.0
.8
.6
.4
组别
乙疗法组
.2
乙疗法组-censored 甲疗法组
0.0 0 10 20 30 40 50
甲疗法组-censored
生存时间
三、中位生存期
中位生存期(median survival time) 又称半数生存期,表示恰好有50%的 个体尚存活的时间。 中位生存期越长,表示疾病的预后越 好;中位生存期越短,预后越差。 估计中位生存期常用图解法或线性内 插法。
第二节 生存率的估计与生存曲线
一、小样本资料生存率及其标准误的计算 生存率的计算:Kaplan-Meier法(K-M法、 乘积极限法) Kaplan-Meier法由Kaplan和Meier于1958年提 出,直接用概率乘法定理估计生存率,故称乘 积极限法(product-limit method),是一种非 参数法,适用于小样本和大样本。 生存率的标准误的计算 生存曲线
二、大样本资料的生存分析 生存率的计算 寿命表法 生存曲线
第三节 生存曲线的log-rank检验
log-rank检验(对数秩检验、时序检验) 该检验属非参数检验,用于比较两组或多组 生存曲线或生存时间是否相同。 检验统计量为卡方。 自由度=组数-1。 P≤0.05,两组或多组生存曲线不同。 P>0.05,两组或多组生存曲线差别无统计学 意义。
活满5年例数 5年生存率= 期初观察例数
条件生存概率和生存率的计算
例:手术治疗100例食管癌患者,术后1、 2、3年的死亡数分别为10、20、30,若无 截尾数据,试求各年条件生存概率及逐年 生存率。 生存率计算方法:
直接法 概率乘法定理
由例子可看出,生存率与条件生存概 率不同。条件生存概率是单个时段的 结果,而生存率实质上是累积条件生 存概率(cumulative probability of survival),是多个时段的累积结果。 例如,3年生存率是第1年存活,第2年 也存活,第3年还存活的可能性。
40.9 59.1 66.7 33.3 87.9 12.1 33.3 66.7
设计调查表:一览表:因素较少时。 单一表:因素较多时。 调查表中应包括 三联体 可能的影响因素 数据 观察起点和终点(年、月、日) 生存时间 生存结局 样本含量:非截尾例数至少是可能影响因 素的10倍。
注意
以上介绍的是log-rank检验的近似法,计算 简便,但其结果较精确法(一般统计软件中 输出精确法计算结果)保守。 近似法: (手工) 精确法: (软件)
7.56
2
0.005 P 0.01
8.75
2
P 0.0031
此检验比较两组或多组生存曲线,实为一 单因素分析。 要求各组生存曲线不能交叉,如交叉提示 存在混杂因素,应采用分层分析方法或多 因素方法来校正混杂因素。 当假设检验有统计意义时,可从以下几方 面来评价各组效应大小:生存曲线图目测 判断、中位生存期比较等。
log-rank检验用于整条生存曲线的比较, 若比较两组某时间点处的生存率,则按下 式计算:
u S1 (t ) S 2 (t ) SE 2 [ S1 (t )] SE 2 [ S 2 (t )]
如比较多个时间点处生存率,检验水准应 取Bonferroni校正,即 α α / k,其中k为 比较的次数,以保证总的I型错误概率不超 过 。
生存资料基本要求
样本由随机抽样方法获得,要有一定的数量。 死亡例数不能太少。 截尾比例不能太大。 生存时间尽可能准确。因为常用的生存分析 方法都在生存时间排序的基础上作统计处理, 即使是小小的舍入误差,也可能改变生存时 间顺序而影响结果。 缺项应尽量补齐。
(四)分析资料 估计: Kaplan- Meier法,寿命表法 比较: log-rank检验 影 响 因 素 分 析 : Cox 比 例 风 险 回 归 模 型 (Cox回归模型),是生存分析中最重要 的模型之一。 预测: Cox回归模型预测生存率。
第四节 Cwk.baidu.comx比例风险回归模型
Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归 模型。 该模型由英国统计学家D.R.Cox于1972年提 出,主要用于肿瘤和其它慢性病的预后分析, 也可用于队列研究的病因探索。其优点: 多因素分析方法 不考虑生存时间分布 利用截尾数据
影响因素分析:目的是为了探索和了解影 响生存时间长短的因素,或平衡某些因素 影响后,研究某个或某些因素对生存率的 影响。如为改善脑瘤病人的预后,应了解 影响病人预后的主要因素,包括病人的年 龄、性别、病程、肿瘤分期、治疗方案等。 预测:具有不同因素水平的个体生存预测, 如根据脑瘤病人的年龄、性别、病程、肿 瘤分期、治疗方案等预测该病人t年(月) 生存率。
生存时间举例
起始事件 服药 手术切除 染毒 化疗 缓解 终点事件 痊愈 死亡 死亡 缓解 复发
终点事件和起始事件是相对而言的, 它们都由研究目的决定,须在设计时 明确规定,并在研究期间严格遵守, 不能随意改变。
生存时间的类型
1. 完全数据(complete data) 从起点至死亡(死于所研究疾病)所经历 的时间。 2. 截尾数据(删失数据,censored data) 从起点至截尾点所经历的时间。 截尾原因:失访、死于其它疾病、观察结 束时病人尚存活等。
二、条件生存概率、生存率、生存曲线
条件生存概率: (conditional probability of survival) 表示某单位时段开始时存活的个体,到该 时段结束时仍存活的可能性。 年条件生存概率表示年初尚存人口存 活满1年的可能性。
活满一年例数 p 年初观察例数
生存率: (survival rate, survival function ) 指观察对象经历t个单位时段后仍存活的 可能性。 活满3年例数 3年生存率= 期初观察例数
方法:前瞻性队列研究 回顾性队列研究 确定起始事件、终点事件、随访终止日 期、生存时间、截尾。 确定可能的影响因素、水平以及量化方 法。
大肠癌影响因素量化表
变量名 X1 X2 因素 性别 年龄(岁) 量化值 女=0 男=1 <40=1 40-60=2 ≥60=3 病例数 构成比(%) 32 48.5 34 51.5 10 15.1 37 56.1 19 28.8 20 46 29 37 30.3 69.7 43.9 56.1
生存资料统计学处理方法
(一)设计 目的:专业目的:据专业知识确定。
统计学目的: 估计:根据样本生存资料估计总体生 存率及其它有关指标(如中位生存期 等),如根据脑瘤患者治疗后的生存 时间资料,估计不同时间的生存率、 生存曲线以及中位生存期等。
比较:对不同处理组生存率进行比较,如 比较不同疗法治疗脑瘤的生存率,以了解 哪种治疗方案较优。
1 2 3 4 5 6 …
男 男 女 男 女 女
45 50 36 52 56 60
…1991.05.20 …1992.01.12 …1991.10.24 …1994.11.02 …1994.06.25 …1993.12.05
1995.06.04 死亡 1998.08.25 死亡 1994.03.18 失访 2000.12.30 存活 1995.03.17 死亡 1996.08.16 死于其它
1476 2417 876+ 2250+ 265 985+
生存时间
生存时间的度量单位可以是年、月、 日、小时等。常用符号t表示,截尾数据在 其右上角标记“+”。 生存资料的主要特点:
含有截尾数据。 截尾数据的特点:真实的生存时间未知, 只知道比观察到的截尾生存时间要长。 生存时间的分布一般不呈正态分布。
一、Cox模型的基本形式
h(t , X ) h0 (t ) exp( 1 X 1 2 X 2 p X p )
h(t,X)—t 时 刻 风 险 函 数 、 风 险 率 或 瞬 时 死 亡 率(hazard function)。 h0(t)— 基 准 风 险 函 数 , 即 所 有 变 量 都 取 0 时 t 时刻风险函数。 X1 、 X2 、 … 、 Xp— 协 变 量 、 影 响 因 素 、 预 后 因素。 β1、 β2、…、 βp—回归系数。