生存分析(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
. 800
. 750 . 667 . 500
. 667
. 500 . 333 . 167
;
1 . 死亡率、死亡概率、生存概率 (1) 死亡率 (mortality rate,death rate)
表示某单位时间内的死亡强度。
年内死亡人数 年死亡率m 1000 0 00 年平均人口数
年平均人口数=(年初人口数+年末人 口数)/2
间的平均水平)。
正偏态(positive skewness)数据 两种错误的做法:
错误1:采用平均生存时间而不是采用中 位生存时间来表示生存时间的平均水平。 错误2:采用常规t检验或方差分析进行 组间比较。(应采用log-rank检验比较 几组生存时间 )
二、生存分析的统计描述指标
1.死亡概率、生存概率 2. 生存率及其标准误 3. 半数生存期(中位数) 及四分位数间距
01 00-07-1 0 00-12-15
00-07-16 00-12-31 00-08-18 00-11-22 00-10-10 00-11-12
7.0 No. 56.0 45.0 14.0 23.0 32.0 1.0 0.0
168+ 96 33
+ +
+ + 33 96 60 90 120 150 158 180
第一节
生存时间资料的特点
一、数据结构 二、统计描述指标
三、资料要求
一、数据结构
在临床医学中, 对病人疗效考查: 1. 治疗结局? 2. 生存时间?
“ 生存时间”的概念
开始事件
生物生存
生存时间
终点事件
死亡
电脑开始使用正常 疾病产生 疾病治愈
出现故障 治愈 复发
阴性
阳性
生存时间的三个要点
一、起始事件
(3) 生存概率 ( survival probability ) 指某单位时段开始时存活的个体到 该时段结束时仍存活的可能性的大小。
7
8
9
10
11
12
13
0
30
月 份(2000年) 图12-1 生存时间原始记录示意 ("+"截尾)
天 数 图12-2 生存时间排序整理数据示意
生存时间资料的特点
2个效应变量(1)生存时间(天数),(2)结局(死亡与否、
是否阳性等)
删失(截尾)数据:在规定的观察期内,对某些观察对象
由于某种原因未能观察到死亡结局,并不知道确切的生存时间,称 为生存时间的删失数据(censored data)。如表12-1中的1号和 3号病人未观察到底,不知他们究竟能活多长时间。 产生结尾原因:(1)迁移 (2)死于其他原因 (3)因其他客观原因中途退出 (4)研究结束时终点事件尚未发生
[例1] 手术治疗60例肺癌病人,术后每年死亡10
例,无删失。试求基本生存分析指标。N=60
术后 年内 年内 年初 年 数 死亡 截尾 观察 例数 例数 例数 年 平均 例数
死亡 率
死亡 概率
生存 概率 p=1-q
(t+1)年 生存率
t
(1) 0~
d
(2) 10
c
(3) 0
n0 n=no-d/2
(4) 60 (5) 55
截尾(删失)数据或终检值(censored data)
得不到确切的生存时间,但它们提供的生存时间长于 观察期的时间,这种数据为不完全数据。或截尾数据、删 失数据或终检值。 (如有确切的生存时间,则这种数据称为完全数据。) 两种错误的做法:
错误1:丢弃截尾数据,只考虑确切数据。(损失了信息)
错误2:将截尾数据当作确切数据处理。(低估了生存时
生存分析的目的
1. 估计:根据样本生存资料估计总体生存率及其他有关指标 (如中位生存期)等。 2. 比较:对不同组生存率进行比较。
3. 影响因素分析:为探索和了解影响生存时间长短的因素,或平衡
某些因素后,研究某个或某些因素对生存的影响。 4. 预测:对具有不同因素、不同水平的个体进行生存预测。
第一节 生存时间资料的特点 第二节 小样本生存率的kaplan-Meier估计 第三节 大样本生存率的寿命表法估计 第四节 生存曲线比较的假设检验
m=d/n q=d/n0 (n0-d)/n0 (n0-d)/N
(6) . 181 (7) . 167 (8) . 833 (9) . 833
1~
2~ 3~ 4~
10
10 10 10
0
0 0 0
50
40 30 20
45
35 25 15
. 222
. 286 . 400 . 667
. 200
. 250 . 333 . 500
二、 终点事件
三、生存时间
பைடு நூலகம்
医学例子:起始事件
随访时间
终点事件
疾病确诊 治疗开始 治疗开始 接触危险物 治愈出院
死亡 死亡 痊愈 出现反应 复发
广义的“生存时间”也可为医疗费用(元)、 医疗设备使用次数、车辆行驶总里程(公里)等
随访(follow-up)资料的记录
生存资料一般通过随访收集, 记录的项目: (起始与终止)随访事件 生存时间(开始观察日期与终止观察日期)(年、月、 天、小时、分、秒等) 分组变量(处理方法) 和其它协变量(性别、年龄、职业、文化程度等)
(2) 死亡概率 ( mortality probability )
是指单位时段开始时存活的个体到该时段结束 时死亡的可能性,即死于某时段t~t+n内的概率。
年内死亡人数 年死亡概率q 年初观察例数 年内有删失,分母用校正人口数:
校正人口数= 年初人口数—删失例数 / 2 =n0-c/2
= d/n0
表 12-1
协变量登记 序号 1 2 3 4 5
7.0 No. 16.0 25.0 34.0 43.0 52.0 1.0 0.0
5 例胰腺癌随访记录
观 开始日期 察 记 录 原因 失访 复发死亡 研究终止 复发死亡 转移死亡 整理 生存天数(t) 142+
167 158
姓名 性别(男=1) 手术 冯 ×× 李 ×× 黄 ×× 吴 ×× 马 ×× 1 0 1 0 1 0 1 1 0 1 终止日期 结局(死=1) 0 1 0 1 1 00-07-08 00-11-27
分布类型复杂:生存时间分布不服从正态分布,常常呈正偏态
分布、Weibull分布、Gamma分布或更为复杂的分布,因此要用 特殊的统计方法。
2个效应变量(1)生存时间(天数),(2)
结局(死亡与否、是否阳性等)
错误1:忽略生存时间,采用Logistic回归分析死亡率 错误2:忽略结局,采用t检验、线性回归分析生存时间