生存分析Cox回归

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

FinalDate 2001-1-8 2002-10-25 2002-12-31 2001-8-22 2001-11-22 … …
Outcome 0 1 0 0 1 … …
Day 366 968 938 398 438 … …
Month censor 12.2 1 32.3 0 31.3 1 13.3 1 14.6 0 … … … …
Hamlet: “To be or not to be, That is the question”
To be or not to be, is only a part of the question. The question also includes how long to be.
What does “survival data” mean? How do we describe survival data? How do we compare survival for two groups? How can we do a regression model for survival data?
wangbingshun@sohu.com
--生存时间--
特点3 非正态数据
错误的做法: 错误1(统计描述):采用平均生存时间来 表示生存时间的平均水平。(应采用中位生存
时间表示生存时间的平均水平)
Kaplan-Meier survival estimate
40
1.00
30
20 10 0 0 5 10 15 20 25 30 35 40 45 time (Month)
较几组生存时间 )
1.00 生 存 0.75 率 0.50 0.25 0.00 0 200 400
随访时间
group 2
group 1
600
800
1000
wangbingshun@sohu.com
随访资料的记录——生存时间
(1)开始观察日期,终止观察日期---生存时间 对于完全数据:从起点事件至终点事件间的时间。 对于截尾数据:从起点事件至最后一次随访间的时间。 生存时间的度量单位可以是年、月、日、小时等。常 用符号t表示,截尾数据在其右上角标记“+”。尽量 以个体为单位,并采用较细的时间来记录。 但许多大型的随访中,不可能做到按个体记录,常见 的是按固定的时间段记录有多少人失访、多少人发生 失效事件,此时收集到的资料被称为分组生存资料。
生存分析和COX回归
上海交通大学基础医学院 生物统计学教研室
wangbshun@126.com
本讲义参考宇传华、何清波教授…
生存分析……
对于某一特定个体“能够活多久”这一类的问题,
任何负责任的医生都不会作出确定的回答。
但是对于具有某些性质的一类人群,则可以通过对
研究数据的分析来得到这类人活过一定时间的概率。 “相比传统疗法,这个新疗法能否延长这类癌症患 者存活时间?” “还有什么别的因素和存活长短有关?”
wangbingshun@sohu.com
1 2 3 4
完全数据 1,2,3,4 治疗后随访开始 事件
5 6
7 D0天 患者进入并随访
截 5.失访 尾 6. 其他终点(如死于车祸) 数 据 7.研究截止时仍存活
研究截止时点
wangbingshun@sohu.com
--生存时间--
1 2 3 4 5 6 7
group 2
group 1
估计生存率(生存函数)0.00 0
(中位生存时间及四分位数间距) (2)统计推断:
wangbingshun@sohu.com
生存分析
由于上述特点,常用的统计方法不适用,而 要用特殊的统计方法。 生存分析是指对于生存期资料进行分析的一 系列特殊的统计方法。
wangbingshun@sohu.com
1.00
生存分析目的
(1)统计描述:
生 存 0.75 率 0.50 0.25
wangbingshun@sohu.com
生存时间的非正态分布
40 30
20
10
0 0 5 10 15 20 25 time (Month) 30 35 40 45
102名黑色素瘤患者的生存时间分布示意图(右偏、非负)
wangbingshun@sohu.com
方案
生存分析是一种既考虑事件结局,又考虑出 现结局时间(即生存时间)的统计分析方法 充分利用研究中所得到的信息,能够更加准 确地评价及比较随访资料
wangbingshun@sohu.com
特点1 两个效应变量 结局有 无 时间长 短 2种错误: 组间比较时常见
1.忽略时间长短,只比较 结局如死亡率:Logistic 回归 2.忽略结局,只比较生存 时间:t检验,线性回归
期待结局 患者死亡 存活时间 出现中毒 缓解时间 复发时间
--生存时间-- 基准时点 癌症确诊 期待结局
wangbingshun@sohu.com
论文示例 1-A (国内文章)
899例非小细胞肺癌完全切除术后的多因素 生存分析
wangbingshun@sohu.com
论文示例 1-B (国内文章)
wangbingshun@sohu.com
论文示例 2-A (国外文章)
wangbingshun@sohu.com
wangbingshun@sohu.com
Cohort study (prospective/retrospective)
Disease Exposed
Target population
Disease-free cohort
ห้องสมุดไป่ตู้
Disease-free Disease
Unexposed Disease-free TIME
wangbingshun@sohu.com
某类型癌症患者术后随访记录表
序号 001 002 003 004 005 … … 组别 性别 开始日期 手术 男 2000-1-8 非手术 女 2000-3-1 手术 女 2000-6-6 非手术 男 2000-7-20 手术 男 2000-9-10 … … … … … … 终止日期 2001-1-8 2002-10-25 2002-12-31 2001-8-22 2001-11-22 … … 其他... 如: 结局 失访 ... 年龄; 癌症死亡 ... 分期… 研究终止 ... 车祸死亡 ... 癌症死亡 ... … … … …
wangbingshun@sohu.com
Randomized Clinical Trial (RCT)
Cured Treatment
Target population
Random assignment
Patient population
Not cured Cured
Control Not cured TIME
特点2 截尾数据
未到观察到终点
患者死亡
时间长短不确切
截尾数据(censored data) 随访中未能知道病人的确切生存时间:只知道患者的 生存时间大于某时间,即至少活过了这个最后记录的时间, 但最终活了多久就不得而知了 (1)患者失访或因其他原因而死亡---失访 (2)到了研究的终止期患者尚未死亡---终访
统计分析: 数据处理时变量代码及量化
No Group Sex StartDate 001 1 1 2000-1-8 002 2 2 2000-3-1 003 1 2 2000-6-6 004 2 1 2000-7-20 005 1 1 2000-9-10 … … … … … … … …
wangbingshun@sohu.com
… … … … … … … …
数 据 : 最终效应包括研究终点和删失
编号 分组 结局 时间 time 1 1 1 10 10 2 3 4 5 6
wangbingshun@sohu.com
censor
0 1 1 1 0 1
1 1 2 2 2
0 0 0 1 1
2+ 12+ 2+ 11 7+
2 12 2 11 7
论文示例 2-B (国外文章)
statistical analysis
wangbingshun@sohu.com
理解与应用
如何理解:生存分析中所用统计方法 如何应用:资料收集、数据编码、统计软件实现
wangbingshun@sohu.com
Survival Analysis
Medical understanding:
wangbingshun@sohu.com
问题
评价某治疗措施对于肿瘤等疾病的疗效、疾病预 后分析时, 采用何种统计指标,何种统计分析方法?
治愈率,有效率 复发或存活时间
非正态分布
Logistic回归 t检验/方差分析 /线性回归
•失去联系(病人搬走,电话号码改变) •无法观察到结局(死于其他原因) •研究截止
wangbingshun@sohu.com
随访资料的记录
(2)结局(最终的观察到的是死亡还是存活) 死于该病---完全数据 存活或死于其他原因---截尾数据 每个生存期数据要用2个变量表示: 观察到的生存时间 结局观察是否截尾(如:用1表示截尾,用0表示死亡) 4+ 用time=4,censor=1表示;——截尾值 4 用time= 4,censor=0表示 (3)协变量---各种影响生存期长短的因素。
wangbingshun@sohu.com
截尾数据
示例:患者预后截尾示意图
1 2 3 4
完全数据 1,2,3,4
治疗后随访开始 事件
5 6
7
D0天
5.失访 6.发生其他终点, 如:死于车祸 7.研究截止时仍存活
患者进入并随访 研究截止时点
5,6,7患者的生存时间计为基准时点到最后一次随访的时间
间隔,并在其右上角标记“+”:P335例12.1
生存时间:
基准时点→期待结局
之间所持续的时间。
试验组
合格的 研究对象 对照组 伴随因素 混杂因素 出现结果 尚未出现结果 失访、脱落
随访研究(follow-up study)示意图
wangbingshun@sohu.com
--生存时间-- 基准时点 癌症确诊 治疗开始 接触铅尘 治疗开始 缓解开始
wangbingshun@sohu.com
--生存时间--
如何评价 两组间的比较: A: 3 6 8 10 22 26 30+30+ B: 6 7 11 20 30+30+30+30+ •以30天为界 的分类结果: 死亡 生存 A 6 2 B 4 4
wangbingshun@sohu.com
特点2 截尾数据
wangbingshun@sohu.com
0.75
0.50
0.25
0.00 0 5 10 15 20 25 30 analysis time 35 40 45
--生存时间--
特点3 非正态数据
错误的做法: 错误2(统计推断):采用常规 t 检验或方 差分析进行组间比较。(应采用log-rank检验比
wangbingshun@sohu.com
Randomized Clinical Trial (RCT)
Dead Treatment
Target population
Random assignment
Patient population
Alive Dead
Control Alive TIME
wangbingshun@sohu.com
•仅仅考虑完全数据时 生存时间均数:
A:Mean=12.5; Median=9 B:Mean=11.0; Median=9
?
--生存时间--
40
特点3 非正态数据
30
20
10
0 0 5 10 15 20 25 time (Month) 30 35 40 45
102名黑色素瘤患者的生存时间分布示意图(右偏、非负)
分析时所需变量
Summary:Features of survival data
1 有两个效应变量:结局有无、时间长短 2 含有截尾数据(censored data) 截尾数据提供的信息是不完全的 (uncompleted data) 3 生存时间的分布为非正态分布 对数正态分布 指数分布, Weibull分布 Gamma分布,logistic分布,……
特点2 截尾数据
完全数据 1,2,3,4
治疗后随访开始 事件
5.失访 6.发生其他终点, 如:死于车祸 7.研究截止时仍存活
处理截尾数据时的2种错误:
1.丢弃截尾数据5,6,7…,只分析完全数据1,2,3,4… (不仅损失了资料信息,而且会造成偏性) 2.将截尾数据间当作完全数据:(将低估生存时间的平均水平)
相关文档
最新文档