cox_regression_kaplan-meier分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生存曲线(survival curve) 以观察(随访)时间为横轴,以生存率 为纵轴,将各个时间点所对应的生存率 连接在一起的曲线图。 生存曲线是一条下降的曲线,分析时 应注意曲线的高度和下降的坡度。平缓 的生存曲线表示高生存率或较长生存 期,陡峭的生存曲线表示低生存率或较 短生存期。
某医师收集20例脑瘤患者甲、乙两疗法 治疗的生存时间(周)如下: 甲疗法组 1 3 3 7 10 15 15 23 30 乙疗法组 5 7+ 13 13 23 30 30+ 38 42 42 45+
大肠癌生存资料
序号 1 2 3 4 5 6 … 65 X1 X2 X3 X4 X5 X6 X7 0 2 1 0 0 1 0 0 2 1 0 0 1 0 1 2 1 1 0 0 0 0 3 1 1 0 1 0 1 2 0 1 0 0 0 1 2 1 1 1 1 1 0 1 1 1 1 0 0 Time 2896 992 2811 2052 2975 856 584 Event 0 1 0 1 0 1 1
生存分析
Survival Analysis
To be or not to be is only a part of the question. The question also includes how long to be.
余红梅
Department of Health Statistics School of Public Health, Shanxi Medical University


生存分析(survival analysis)是将事件 的结果(终点事件)和出现这一结果所 经历的时间结合起来分析的一种统计分 析方法。 生存分析不同于其它多因素分析的主要 区别点就是生存分析考虑了每个观测出 现某一结局的时间长短。
第一节 生存分析基本概念
一、生存时间
( survival time,failure time ) 终点事件与起始事件之间的时间间隔。 终点事件指研究者所关心的特定结局。 起始事件是反映研究对象生存过程的起 始特征的事件。
例如,某肿瘤医院调查了1991-1995年间经手 术治疗的大肠癌患者150例,对可能影响大肠 癌术后生存时间的因素进行了调查,如性 别、年龄、组织学分类、肿瘤大小、Dure’S 分期等。随访截止日期为2000年12月30日, 随访记录见下表。
大肠癌患者的随访记录
编号 性别 年龄 … 手术日期 随访终止日期 随访结局 生存时间(天)
X3
X4
组织学分类 乳头状腺癌=0 管状腺癌=1 肿瘤大小(cm)≤6=0 >6=1
细胞增殖抗原(PCNA) <55%=0 ≥55%=1 X6 淋巴管浸润 无=0 有=1 X7 血管浸润 无=0 有=1 Time 手术到观察结束 实际天数 Event 结束时是否死亡 未死=0 死亡=1 X5
27 39 44 22 58 8 22 44
(二)搜集资料 可能的影响因素: 从病历获得。 生存时间及结局: 短期可观察到的结局可从病历获得; 长期结局一般不能从病历直接获得,通过 信访、电话等得到。
(三)整理资料 认真检查、核对原始数据,包括影响因素、 生存时间和生存结局。 尽量避免缺失值。 建立数据库 FoxBase、Foxpro、Virual Foxpro等专业 数据库 统计软件数据库(SAS、SPSS等) Office办公软件中的Excel、Access
Survival Functions
1.0
.8
.6
.4
组别
乙疗法组
.2
乙疗法组-censored 甲疗法组
0.0 0 10 20 30 40 50
甲疗法组-censored
生存时间
三、中位生存期
中位生存期(median survival time) 又称半数生存期,表示恰好有50%的 个体尚存活的时间。 中位生存期越长,表示疾病的预后越 好;中位生存期越短,预后越差。 估计中位生存期常用图解法或线性内 插法。
第二节 生存率的估计与生存曲线
一、小样本资料生存率及其标准误的计算 生存率的计算:Kaplan-Meier法(K-M法、 乘积极限法) Kaplan-Meier法由Kaplan和Meier于1958年提 出,直接用概率乘法定理估计生存率,故称乘 积极限法(product-limit method),是一种非 参数法,适用于小样本和大样本。 生存率的标准误的计算 生存曲线
二、大样本资料的生存分析 生存率的计算 寿命表法 生存曲线
第三节 生存曲线的log-rank检验
log-rank检验(对数秩检验、时序检验) 该检验属非参数检验,用于比较两组或多组 生存曲线或生存时间是否相同。 检验统计量为卡方。 自由度=组数-1。 P≤0.05,两组或多组生存曲线不同。 P>0.05,两组或多组生存曲线差别无统计学 意义。
活满5年例数 5年生存率= 期初观察例数
条件生存概率和生存率的计算
例:手术治疗100例食管癌患者,术后1、 2、3年的死亡数分别为10、20、30,若无 截尾数据,试求各年条件生存概率及逐年 生存率。 生存率计算方法:
直接法 概率乘法定理
由例子可看出,生存率与条件生存概 率不同。条件生存概率是单个时段的 结果,而生存率实质上是累积条件生 存概率(cumulative probability of survival),是多个时段的累积结果。 例如,3年生存率是第1年存活,第2年 也存活,第3年还存活的可能性。
40.9 59.1 66.7 33.3 87.9 12.1 33.3 66.7
设计调查表:一览表:因素较少时。 单一表:因素较多时。 调查表中应包括 三联体 可能的影响因素 数据 观察起点和终点(年、月、日) 生存时间 生存结局 样本含量:非截尾例数至少是可能影响因 素的10倍。
注意
以上介绍的是log-rank检验的近似法,计算 简便,但其结果较精确法(一般统计软件中 输出精确法计算结果)保守。 近似法: (手工) 精确法: (软件)
7.56
2
0.005 P 0.01
8.75
2
P 0.0031
此检验比较两组或多组生存曲线,实为一 单因素分析。 要求各组生存曲线不能交叉,如交叉提示 存在混杂因素,应采用分层分析方法或多 因素方法来校正混杂因素。 当假设检验有统计意义时,可从以下几方 面来评价各组效应大小:生存曲线图目测 判断、中位生存期比较等。
log-rank检验用于整条生存曲线的比较, 若比较两组某时间点处的生存率,则按下 式计算:
u S1 (t ) S 2 (t ) SE 2 [ S1 (t )] SE 2 [ S 2 (t )]
如比较多个时间点处生存率,检验水准应 取Bonferroni校正,即 α α / k,其中k为 比较的次数,以保证总的I型错误概率不超 过 。
生存资料基本要求
样本由随机抽样方法获得,要有一定的数量。 死亡例数不能太少。 截尾比例不能太大。 生存时间尽可能准确。因为常用的生存分析 方法都在生存时间排序的基础上作统计处理, 即使是小小的舍入误差,也可能改变生存时 间顺序而影响结果。 缺项应尽量补齐。
(四)分析资料 估计: Kaplan- Meier法,寿命表法 比较: log-rank检验 影 响 因 素 分 析 : Cox 比 例 风 险 回 归 模 型 (Cox回归模型),是生存分析中最重要 的模型之一。 预测: Cox回归模型预测生存率。
第四节 Cwk.baidu.comx比例风险回归模型
Cox比例风险回归模型(Cox’s proportional hazards regression model),简称Cox回归 模型。 该模型由英国统计学家D.R.Cox于1972年提 出,主要用于肿瘤和其它慢性病的预后分析, 也可用于队列研究的病因探索。其优点: 多因素分析方法 不考虑生存时间分布 利用截尾数据
影响因素分析:目的是为了探索和了解影 响生存时间长短的因素,或平衡某些因素 影响后,研究某个或某些因素对生存率的 影响。如为改善脑瘤病人的预后,应了解 影响病人预后的主要因素,包括病人的年 龄、性别、病程、肿瘤分期、治疗方案等。 预测:具有不同因素水平的个体生存预测, 如根据脑瘤病人的年龄、性别、病程、肿 瘤分期、治疗方案等预测该病人t年(月) 生存率。
生存时间举例
起始事件 服药 手术切除 染毒 化疗 缓解 终点事件 痊愈 死亡 死亡 缓解 复发
终点事件和起始事件是相对而言的, 它们都由研究目的决定,须在设计时 明确规定,并在研究期间严格遵守, 不能随意改变。
生存时间的类型
1. 完全数据(complete data) 从起点至死亡(死于所研究疾病)所经历 的时间。 2. 截尾数据(删失数据,censored data) 从起点至截尾点所经历的时间。 截尾原因:失访、死于其它疾病、观察结 束时病人尚存活等。
二、条件生存概率、生存率、生存曲线
条件生存概率: (conditional probability of survival) 表示某单位时段开始时存活的个体,到该 时段结束时仍存活的可能性。 年条件生存概率表示年初尚存人口存 活满1年的可能性。
活满一年例数 p 年初观察例数
生存率: (survival rate, survival function ) 指观察对象经历t个单位时段后仍存活的 可能性。 活满3年例数 3年生存率= 期初观察例数
方法:前瞻性队列研究 回顾性队列研究 确定起始事件、终点事件、随访终止日 期、生存时间、截尾。 确定可能的影响因素、水平以及量化方 法。
大肠癌影响因素量化表
变量名 X1 X2 因素 性别 年龄(岁) 量化值 女=0 男=1 <40=1 40-60=2 ≥60=3 病例数 构成比(%) 32 48.5 34 51.5 10 15.1 37 56.1 19 28.8 20 46 29 37 30.3 69.7 43.9 56.1
生存资料统计学处理方法
(一)设计 目的:专业目的:据专业知识确定。
统计学目的: 估计:根据样本生存资料估计总体生 存率及其它有关指标(如中位生存期 等),如根据脑瘤患者治疗后的生存 时间资料,估计不同时间的生存率、 生存曲线以及中位生存期等。
比较:对不同处理组生存率进行比较,如 比较不同疗法治疗脑瘤的生存率,以了解 哪种治疗方案较优。
1 2 3 4 5 6 …
男 男 女 男 女 女
45 50 36 52 56 60
…1991.05.20 …1992.01.12 …1991.10.24 …1994.11.02 …1994.06.25 …1993.12.05
1995.06.04 死亡 1998.08.25 死亡 1994.03.18 失访 2000.12.30 存活 1995.03.17 死亡 1996.08.16 死于其它
1476 2417 876+ 2250+ 265 985+
生存时间
生存时间的度量单位可以是年、月、 日、小时等。常用符号t表示,截尾数据在 其右上角标记“+”。 生存资料的主要特点:
含有截尾数据。 截尾数据的特点:真实的生存时间未知, 只知道比观察到的截尾生存时间要长。 生存时间的分布一般不呈正态分布。
一、Cox模型的基本形式
h(t , X ) h0 (t ) exp( 1 X 1 2 X 2 p X p )
h(t,X)—t 时 刻 风 险 函 数 、 风 险 率 或 瞬 时 死 亡 率(hazard function)。 h0(t)— 基 准 风 险 函 数 , 即 所 有 变 量 都 取 0 时 t 时刻风险函数。 X1 、 X2 、 … 、 Xp— 协 变 量 、 影 响 因 素 、 预 后 因素。 β1、 β2、…、 βp—回归系数。
相关文档
最新文档