第十七章 生存分析(Survival Analysis)
生存分析
例14.1 某医师采用手术疗法治疗12例
宫颈癌患者,随访时间(月)记录如下:1,
2,4,5,7,8+,11,15,18,33+,36, 38+。试估计各时点生存率及其标准误、 各时点总体生存率的95%可信区间、中
位生存时间,并绘制生存曲线。
(1)生存率及其标准误的计算
如生存时间t为4月的生存率为
1 1 1 s(t 3) p1 p 2 p3 (1 )(1 )(1 ) 0.7500 12 12 10
各时生存率的标准误,其计算公式为
1 S (tk ) SE[ S (tk )] S ( sk ) nk dk
(14.6)
如S(t3)的标准误SE[S(t3)]为
分组资料两个样本生存曲线的比较;对
数秩检验可用于两个或多个样本生存曲
线的比较,又可用于未分组和分组资料
生存曲线的比较。
2.应用条件 交叉。
要求各样本生存曲线不能
3.处理措施优劣的判断 均可根据各组生
存曲线位置的高低直观判断 ,但Gehan 比分检验还可根据V值的正负来判断,V
值为正的一组处理措施的效果较优。
分别为5.1282,11.8718 。
3.求出p值,作出推断结论 查附表5,
X2界值表,得p<0.05,拒绝H0,接受 Hl,又因从图14.3可直观地看出放化 疗联合组的生存曲线位置较高,故可认 为放化疗联合治疗肺癌的效果较好。
二、Gehall比分检验
Gehan比分检验(Gehan score test)仅用于 两样本生存曲线的比较。仍以例14.3说
布、Weibull分布、对数正态分布等 ;
2.非参数法
例如乘积极限法、寿命表
第十七章生存分析SurvivalAnalysis
12
动物实验随访数据(图17-1,a)
×为死亡
×
O 为截尾
O O
× ×
0
起始事件时间
如给药
t
研究结
束时间
13
一批病人不同时间进入研究的随访资料
起点
起点
起点
死亡
死亡
失访
起点
90年
91年
起点 92年
存活 存活
93年(研究结
0 2 4 6 8 10 12 14 16 18 20 年
t
“t”表示从研究起点到结局出现时间 22
生存率S(t)的概率乘法估计
S(t)也称累计生存概率,t 时刻存活是t 时刻之前一直生存的累积。
概率乘法原理计算(359页)
s(ti ) pi p1 p2...pi (公式17-2)
Pi 为某时间区间(ti)的生存概率。假定 个体在各时段生存是独立。
该类数据通过随访得到,称为随访资料。
5
随访研究资料
• 当研究事件(y)的结局是两分类数据(发
生,不发生),并且结局与时间(t)有关, 如同时收集事件发生的时间(t),该类数据 称为随访资料,分析该数据的统计方法用生 存分析。
• 生存分析是将“结局”与“时间”两个因素 结合一起研究的统计分析方法。
6
第一节 生存分析的基本概念
一、随访数据概念
1.分析的变量(y) 1) 结局事件:指结局出现的特征,如疾病的死 亡、复发、发生( y=1或0) 。
2)时间间隔变量 记为(t)
t=结局事件出现日期 - 事件的起始日期
(起始日期可规定:如诊断、用药、手术日期
生存分析(2012年)
1
6.做出统计结论 P 0.05,肿瘤 3.0cm患者的生存曲线高于 3.0cm患者。
【小结】
Log-rank检验属于非参数检验的方法; Log-rank检验可用于两组或多组生存曲线的比较;
Log-rank检验属于单因素分析方法,其应用条件是
除比较因素外,影响生存率的各混杂因素在不同的 组间均衡。否则,可采用cox回归。
(1)按照有无不良染色体分组比较缓解率,考虑 到例数较小,采用Fisher精确概率法,得到P值为
0.667,此时的结论如何?
(2)考虑到有无不良染色体并非研究人员可以随机化分 配的处理,所以比较组之间其它影响患者缓解的因素不一 定均衡,因而需要考虑平衡其他可能的影响因素的作用。 于是该研究者进一步查阅了相关文献,追加记录了患者的 年龄age(岁)、骨髓原幼细胞数分组bl(大于等于50% =1,小于 50% =0)、CD34表达 cd(阳性=1,阴性 =0)、性别 sex(男= l,女=0)这几个变量,采用多因素 logistic模型来分析,经逐步法按 a=0.10准得到表 20-10 中的结果。此时的结论又如何?
Cox回归模型的模型假定:任两个个体风险之比不 随时间的变化而变化。
Assumption of proportional hazard( PH假定)
h0 t exp1 X i1 2 X i 2 ...... RR h0 t exp1 X j1 2 X j 2 ......
2.分别计算两组在时间i上的期初例数 gi 和死亡例数d gi ,以及 t n 两组合计的期初例数 i 和死亡例数d i。 n 3.计算各组在时间 i上的理论死亡数 gi t T Tgi ngi d i ni
生存分析
1 1 3 3 1 1 2 0 1 0 0 0 0 0 1 0 1 1
23 22 21 18 15 14 13 11 10 9 8 7 6 5 4 3 2 1
0.043 0.045 0.143 0.167 0.067 0.071 0.154 0.000 0.100 0.000 0.000 0.000 0.000 0.000 0.250 0.000 0.500 1.000
0.0425 0.0588 0.0860 0.0993 0.1018 0.1034 0.1042 0.1041 0.1041 0.1041 0.1041 0.1041 0.1041 0.1041 0.1216 0.1216 0.1293 -
15
表17-3
2418例男性心绞痛病人生存率寿命表法估计结果
u= S1 (t ) − S 2 (t ) SE 2 [ S1 (t )] + SE 2 [ S 2 (t )]
如比较多个时间点处的生存率,检验水准 应取Bonferroni校正,即 α′ = α / k ,其中k 为比较的次数,以保证总的I型错误概率不 超过α。
24
实例1:对表17-4资料作log-rank检验
Means and Medians for Survival Time Mean 95% Confidence Interval Lower Bound Upper Bound Estimate 14.444 34.011 10.000 5.496 10.104 6.000 10.671 22.209 9.000
22
分析多条生存曲线有无差别时需先对所有 曲线作整体比较(类似方差分析),当 P<0.05时才进一步作两两比较 若(P<0.05),则生存时间有统计学意义的 差别。可从以下几方面来评价各组差别的 大小:生存曲线图目测判断、中位生存期 比较等
生存分析
生存率实质上是累积生存概率(cumulative probability of survival),是多个时段的累 积结果。 如: 3年生存率是第1年存活,第2年也存活,
第3年还存活的可能性。
生存率的区间估计
标准误
ˆ (t ) SSˆ (t ) S i
i
t j ti
n (n
j
dj
活满5年例数 5年生存率= 期初观察例数
生存率实质上是累积生存概率(cumulative probability of survival),是多个时段的累 积结果。 删失数据
分段计算生存概率。假定观察对象在各个时段的生 存事件独立,应用概率乘法定理将分时段的生存概 率相乘得到生存率。
ˆ (t ) P(T t ) p p p S ˆ (t ) p S k k 1 2 k k 1 k
基本概念
失效事件( failure event ) “死亡”事件或失败事件,表示观察到随 访对象出现了我们所规定的结局。如乳 腺癌病人手术后复发、白血病患者化疗 后的复发等。
基本概念
截尾值( censored value) 有的观察对象终止随访不是由于失效事件 发生,而是无法具体随访下去。原因包括:
生存分析的历史
17、18世纪:寿命表 1926年:Greenwood公式 1958年:Kaplan-Meier法 1960年代中叶: 广义Wilcoxon检验(Gehan, 1965年) log-rank test(Mantel, 1966年) 1970年:参数模型 1972年: 半参数模型( Cox比例风险模型)
生存分析(survivalanalysis)
⽣存分析(survivalanalysis)⼀、⽣存分析(survival analysis)的定义 ⽣存分析:对⼀个或多个⾮负随机变量进⾏统计推断,研究⽣存现象和响应时间数据及其统计规律的⼀门学科。
⽣存分析:既考虑结果⼜考虑⽣存时间的⼀种统计⽅法,并可充分利⽤截尾数据所提供的不完全信息,对⽣存时间的分布特征进⾏描述,对影响⽣存时间的主要因素进⾏分析。
⽣存分析不同于其它多因素分析的主要区别点:⽣存分析考虑了每个观测出现某⼀结局的时间长短。
应⽤场景 什么是⽣存?⽣存的意义很⼴泛,它可以指⼈或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常⼯作(相对于失效或故障),甚⾄可是是客户的流失与否等。
在⽣存分析中,研究的主要对象是寿命超过某⼀时间的概率。
还可以描述其他⼀些事情发⽣的概率,例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。
在某些领域的分析中,常常⽤追踪的⽅式来研究事物的发展规律,⽐如研究某种药物的疗效,⼿术后的存活时间,某件机器的使⽤寿命等。
在医学研究中,常常⽤追踪的⽅式来研究事物发展的规律。
如,了解某药物的疗效,了解⼿术的存活时间,了解某医疗仪器设备使⽤寿命等等。
对⽣存资料的分析称为⽣存分析。
所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。
更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的,研究因素与⽣存时间的联系有⽆及程度⼤⼩,称为⽣存分析。
例如研究病⼈感染了病毒后,多长时间会死亡;⼯作的机器多长时间会发⽣崩溃等。
这⾥“个体的存活”可以推⼴抽象成某些关注的事件。
所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。
这个⽅法⼴泛的⽤在医学、⽣物学等学科上,近年来也越来越多⼈⽤在互联⽹数据挖掘中,例如⽤survival analysis去预测信息在社交⽹络的传播程度,或者去预测⽤户流失的概率。
⽣存分析研究的内容 1.描述⽣存过程 研究⽣存时间的分布特点,估计⽣存率及平均存活时间,绘制⽣存曲线等,根据⽣存时间的长短,可以估算出各个时点的⽣存率,并根据⽣存率来估计中位⽣存时间,也可以根据⽣存曲线分析其⽣存特点,⼀般使⽤Kaplan-Meier法和寿命表法。
生存分析
关于截尾或删失
9
删失的模式图
患者进入期间
a
随访开始
失访 失访 研究截止时仍存活
事件
研究截止时点
3.生存时间资料的整理: 10
对于随访资料,需记录的原始数据包括开始观 察的时点(起始事件发生的时间)、终止观察的 时点、研究对象的结局、考虑的影响因素。生 存时间为反映时间长短的指标,属数值变量:
生存时间( t )= 终止观察的时点–开始观察的
生存分析survival学研究中,为了了解某种疾病的预后、评价治疗 方法的优劣或观察预防保健措施的效果等,常需对 研究对象进行追踪观察,以获得必要的数据,这类 资料都属于随访资料。随访资料是指对一批研究对 象进行追踪观察所获得的有关其结局以及出现这种 结局所经历的时间等方面的资料。由于随访资料的 分析最初起源于对寿命资料的统计分析,故称为生 存分析,或称为生存时间分析。
表示。
生存率随时间 t 变化而变化,即生存率是相对于时间 t 的
函数,称为生存函数(survival function),记为 S t 。
生存函数在某时点的函数值就是生存率。
a
生存函数或生存率计算如下:
①若前 t 个时段没有删失: 14
S (t )
P(T
t)
t时段结束时仍存活的人 研究期初观察总人数
③ 估计生存率和生存时间长短,进行预后评价。
a
5
一、基本概念
(一)生存时间(survival time): 1.定义:广义的生存时间是指从某个起始事件开
始到某个终点事件的发生(出现反应)所经历的时 间。也称失效时间(failure time)。 2.特点: (1)分布类型不易确定。一般不服从正态分布,
1
第十七章:生存分析
五、生存概率与死亡概率
活过该年人数 P 某年年初人口数
该年内死亡人数 q 某年年初人口数
该年内死亡人数 m 某年平均人口数
六、风险函数(Hazard Function)
• 用h(t)表示,其定义为: • h(t)=lim(在时间t生存的病人死于区间(t,△t) 的概率/△t) • 由于计算h(t)时,用到了生存到时间t,这一条 件,故上式极限式中分子部分是一个条件概率。可 将h(t)称为生存到时间t的病人在时间t的瞬时死亡 率或条件死亡速率或年龄别死亡速率。当用t作横 坐标,h(t)为纵坐标所绘的曲线,如递增,则表示条 件死亡速率随时间而增加,如平行于横轴,则表示没 有随时间而加速(spss演示)
• 这些都可作为生存时间用作生存分析。
随访资料的记录--截尾的概念
包括: (1)开始观察日期,终止观察日期---生存时间 (2)结局(最终观察到的是死亡还是存活) 死于该病---完全数据 存活或死于其他原因---截尾数据 每个生存期数据要用2个变量表示:观察到的生 存时间和是否截尾(如:用0表示截尾,用0表 示死亡;4+ 用4,0表示;4用4,1表示)。 (3)协变量---各种影响生存期长短的因素。
风险函数的不同情况:
常数,
下降,
如:死于飞机失事。
如:急性损伤。
上升,
如:持续接触危险因素。
澡盆样,如:人的一生。
生存分析目的: (1)估计生存函数。 (2)比较各组的生存函数。
(3)研究影响生存期长短的因素。
第பைடு நூலகம்节
•
生存分析的统计方法
生存率S(t)的估计方法有参数法和非参数 法。常用非参数法,非参数法主要有二个,即, 乘积极限法与寿命表法,前者主要用于观察例 数较少而未分组的生存资料,后者适用于观察 例数较多而分组的资料,不同的分组寿命表法 的计算结果亦会不同,当分组资料中每一个分 组区间中最多只有 1个观察值时,寿命表法的 计算结果与乘积极限法完全相同。
医学统计―生存分析课件
t
关系可表示为: S(t) exp h(t)dt (16.9)
0
风险函数与生存函数的关系
17
h1 t 是一种上升的曲线,危险率随时间变化而增加,如
急性白血病患者治疗无效时其危险率随时间呈增加趋势;
h2 t 的曲线为下降趋势,表示危险率逐渐减小,如意
外事故造成的外伤经有效治疗后死亡的危险性逐渐减小;
of survival),即将时刻 t 尚存活看成是前 t 个时段一直
存活的累计结果。如: n年生存率 1p0 1 p11 p2 ......1 pn1 。 14
(四)生存率曲线(survival curve): 是指以时间为横轴、生存率为纵轴,将各个时点的生 存率连接在一起的曲线图。曲线形状分为两种: 1、阶梯形:小样本资料用直接法估计的生存曲线; 2、折线形:大样本资料用频数表法估计的生存曲线。 (五)中位生存期(median survival time): 也称半数生存期,即生存时间的中位数,表示生存率 等于 50%时的时间。反映生存时间的平均水平。
1
0.5000 0.5000
1
1.0000 0.0000
活过该月 的生存率
p(x>t) (7) 0.9000 0.9000 0.7875 0.6750 0.5625 0.5625 0.4219 0.4219 0.2109 0.0000
生存率 标准误
s
(8) 0.0949 . 0.1340 0.1551 0.1651 . 0.1737 . 0.1726 0
2
传统方法在分析随访资料时的困难
时间和生存结局都成为了要关心的因素
•除了生存结局作为判定标准以外,只要能让病人存活 时间延长,这种药物也应当是被认为有效的。即时间 延长也认为有效 •如果将两者均作为应变量拟和多元模型,因为时间分 布不明(一般不呈正态分布,在不同情况下的分布规 律也不同),拟和多元模型极为困难
生存分析
0 indicates loss to follow-up
X
o
O
X X X
1994
1995
1996 年份
1997
1998
1999
生存时间图示
X
X indicates event
0 indicates loss to follow-up
X X o X X 0 12 24 36 48 生存时间(月) 60 72
生存分析
Survival Analysis
吴静 公共卫生学院流行病与卫生统计学系
前
言
生存分析(survival analysis)是将事件的 结果和出现这一结果所经历的时间结合起来 分析的一类统计分析方法 生存分析是队列研究和临床试验的重要分析 方法之一 生存分析不同于其它多因素分析的主要区别 点就是生存分析考虑了每个观测出现某一结 局的时间长短
1995.06.04 死亡 1998.08.25 死亡 1994.03.18 失访 2000.12.30 存活 1995.03.17 死亡 1996.08.16 死于其它
1476 2417 876+ 2250+ 265 985+
生存时间的类型
完全数据(complete data) 是指从观察的起 始事件一直达到观察的终点事件,即观察对象 完整的生存时间,是生存分析最重要的资料。 不完全数据(incomplete data)在随访研究中, 由于某种原因未能观察到随访对象发生事先定 义的终点事件(为其他终点事件或生存结局), 无法得知随访对象的确切生存时间,这种现象 称为删失(censoring),也称截尾或终检。包 含删失的数据即为不完全数据,它所提供关于 生存时间的信息是不完全的。
生存分析(第17章)
生存时间 t时 刻 的 观 察 单 位 数 S(t,X) 总观察例数
生存概率针对单位时间;生存率针对某个 较长时间段,它是生存概率的累积结果。 如5年生存率是每一年不同生存概率乘积。
S(5, X) p1 p2 p5
7.风险函数 (hazard function,h(t,X)) 生存时间已达到 t 的一群观测对象在 t 时 刻的瞬时死亡率。
j i
(9)生存率的标准误:
S E S ( t i,X )
p N
j i j
qj
j
2.生存率曲线
1 0.8
© ¨%£ Ê £ æ Â ú ´ É
0.6 0.4 0.2 0 0 5 ú ´ É æ Ê ±¼ ä £ ¨Ä ê £ © 10 15
Ð Ð Ä Ô Ð Ä ½ Ê Í ´ ² ¡ È Ë µ Ä É ú ´ æ Ç ú Ï ß
生存过程 的比较
生存过程 Cox 比例风险模型 的影响因素分析 非比例风险模型 logistic 回归模型
指数回归模型 Weibull 回归模型
第二节 生存率的估计与生存曲线
(生存过程的描述)
一、小样本资料
1.生存率的计算
2.生存率标准误的计算
3.生存曲线
4.中位生存时间
1.生存率的计算 乘积极限法 (product-limited method) 由Kaplan-Meier于1958年提出,又称为 Kaplan-Meier法 利用概率乘法原理计算生存率
例 有人研究了甲种手术方法治疗肾上腺肿瘤 病人23例的生存情况,定义从手术后到病人 死亡的时间为生存时间,得到生存时间(月) 如下(+为截尾数据),试计算其生存率与 标准误。 1,3,5,5,5,6,6,6,7,8,10,10, 14+,17,19 + ,20 + ,22 + ,26 + ,31 + , 34,34 + ,44,59。
生存分析.ppt
即:生存函数图象下的面积是平均寿命.
2020/2/5
18
§(7)中位生存时间m
半数生存期,表示恰好有50%的个体 尚存活的时间
即,生存分布的50%分位点
P(T m) 50%
注意:中位生存时间与平均生存时间(期 望)的区别;
估计出阶梯型的生存函数后,可通过线性
插值法估计中位生存时间;
2020/2/5
生存分析(Survival Analysis) 主讲人: 赵 永 红
2020/2/5
1
§前言
(1)生存分析是将事件的结果(终点事件) 和出现这一结果所经历的时间结合起来 分析的一种统计分析方法。
(2)生存分析不同于其它多因素分析的 主要区别点就是生存分析考虑了每个观 测出现某一结局的时间长短。
生存分析是对非负随机变量进行统计分析
2020/2/5
4
右删失(截尾)数据(right censoring)
(1)定时截尾试验----Type I Censoring. 每个个体有自己潜在的删失时间Ci,此时 我们观察到的是:
ti min(Ti , Ci ), i I (Ti Ci )
ti , i 都是随机变量,joint p.d.f is f (ti )i P(Ti Ci )1i
2020/2/5
5
右删失(截尾)数据(right censoring)
(2)定数截尾试验----Type Ⅱ Censoring.
n 个个体进入研究,直到有r 个个体发生失 败事件时候终止试验.
我们观察到的是:
t(1) ... t(r )
joint p.d.f is
r
Cnr { f (t(i) )}{P(Tj t(r ) )}nr
17 第17章(全C)生存分析20110910
G ( X t )的95 %可信区间为 G ( X t ) 1.96 S G ( X t ) exp exp[ G ( X t ) 1 96 S G ( X t ) ] 。 (17 8) (17 9) 对公式(17 8)取反对数, 得到总体生存率可信区间
第17章 生存分析 第20页
第17章 生存分析 第2页
章目录
END
研究生用《医学统计学》
孙振球 主编 人民卫生出版社 2005年8月第2版
第17章 生存分析 第3页
章目录
END
第十七章 生存分析
目录
第一节 生存分析中的基本概念 第二节 生存率的估计与生存曲线
第三节 生存分析的log-rank检验
第四节 Cox 比例风险回归模型概念
第17章 生存分析 第17页
章目录
END
2.生存率标准误计算
有两个公式 S P ( X t ) d P( X t ) n( n d ) 1 P( X t ) nd (17 3) (17 4)
S P ( X t ) P ( X t ) 例: S P ( X t )
1 1 1 0.430 0.1041 23 22 22 21 10 9
第17章 生存分析 第18页
章目录ቤተ መጻሕፍቲ ባይዱ
END
计算总体率可信区间:公式及例题
计算总体率1 可信区间 P(X t) u /2 S P ( X t ) (17 5) 生存率为P( X 17 ) 0.430, 可信区间为 0.430 1.96 0.1041 (0.226 , 0.634 )
第五节 寿命表
作业及思考题
第17章 生存分析 第4页
生存分析(第17章)
17
6.风险函数 (hazard function,h(t, X )) 生存时间已达到 t 的一群具有协变量X的 观测对象在 t 时刻的瞬时死亡率。
死亡
死亡时间
生存但中途失访 最后一次访问时间
死于其他疾病 死于该病时间
生存但随访结束 研究结束时间
3.记录影响生存时间的有关因素
19
(二)随访方式
×
○
×
○
0 始点
○ ○
× ×
×
死亡
○
失访 治疗措施改变 死于其他疾病
○
t 时间 终点
20
×
○
×
○
0 始点
○ ○
× ×
○
×
死亡
○
失访 治疗措施改变 死于其他疾病
患者 性 年 确诊到 手术开 终止随
生存
编号 别 龄 手术时 … 始时间 访时间 结局
时间
(岁) 间(月)
(月)
1 男 32 10 … 94.01.23 94.12.24 死亡
11
2 女 48 12 … 98.02.14 99.01.01 失访
10+
3 女 26 6 … 92.03.04 95.04.12 死亡
天数不同。 甲、乙两药物治疗某病治愈率均为90%, 甲药治疗的患者平均12天出院, 乙药治疗的患者平均7天出院。
4
随访观测评价临床疗效存在三个问题 2.一部分研究对象可观测到死亡,得到准确生
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ti时刻存活的人数 n年生存率 s(ti ) 观察的总人数 90 80 s(1) 0.9 s(2) 0.80 100 100
22
生存时间数据分析时整理示意图
•
• •
失访
死亡 失访 死亡
死亡 死亡 0 2 4 6 8 10 12 14 16 18 20 年
t
23
“t”表示从研究起点到结局出现时间
时间(月) 死亡 ti 人数 期初 人数 死亡 概率 生存 概率 生存率
p( x t )
0.957 0.914 0.783 0.652 0. 609 0.565 0.478 0.478 29
1 3 5 6 7 8 10 14+
1 1 3 3 1 1 2 0
23 22 21 18 15 14 13 11
32
第三节 生存曲线的统计检验
比较不同方法的生存率,常进行生存率曲 线间的比较。 方法:时序检验(Log-Rank test),可对两组 或多组生存率曲线做比较. 检验假设:H0:两总体的生存率曲线相同 H1:两总体的生存率曲线不同 α=0.05,如P≤α,拒绝H0
33
Log-rank检验
检验统计量:
注:生存时间(t)是正偏态分布。
25
Survival Functions
1.2
1.0
甲手术
.8
.6
乙手术
.4
.2
0.0
-.2 0 10 20 30 40 50 60
月
图17-2 两种手术治疗方式术后病人生存曲线的比较 26
(二)生存率估计的统计方法 (非参数方法)
1.小样本数据生存率计算*。 用 kaplan-Meier的乘积极限法(productlimit method,PL法) 方法: 1)将生存时间t由小到大排列。截尾值排在完 全数据后,例:20,20+ 2)列出t时刻死亡数(d) 3)生存率估计用概率乘法原理 例:17-1和表17-1
35
两组生存率曲线的检验 H0:s(t1)= s(t2) 2 2 ( A甲 T甲) (A乙 T乙) 2 T甲 T乙
(16 23.809) (20 12.191) 7.56 23.809 12.191
2 2 2
6.63 p<0.01 ν=组数-1=2-1, 7.56 结论:两生存率曲线有统计差别, 甲手术方法后生存 率高于乙法.
第十七章 生存分析 (Survival Analysis)
随访研究及统计分析
第二军医大学卫生统计学教研室 孟 虹
1
本章内容
第一节 第二节 第三节 生存分析的基本概念 生存率的估计与生存曲线* 生存曲线的Log-rank检验
第四节
第五节
COX比例风险回归模型*
寿命表(不讲)
2
*要求掌握概念、方法、用途。
(一)随访研究设计 1.明确研究对象的起始事件时间,如手术日期等。 2.明确结局事件:如死亡或复发。 3.明确研究跨度时间:如2000年至2005年结束。 4.记录个体影响结果(y)的其他自变量。
11
例:收集生存数据和影响预后的因素 。
某病不同药后随访记录(天)
预后因素
病例 号 1 2 3 4
随访记录
27
例17-1:某手术方法(甲法)治疗23例肾 上腺肿瘤病人后生存情况(讲义358页)
生存时间(t,月),其中“+”者为截尾数据 1,3,5(3),6(3),7,8,10 (2) ,14+,17,19+,20+,22+,26+, 31+,34,34+,44,59 计算生存率s(t)和生存曲线
28
表17-1 甲种手术后病人生存率的计算方法
(17-1)
生存概率(pi=1-F):
指某时间段开始存活的个体到该时间段结束 时仍存活的概率。
某时间段存活人数 p 某时间段初的观察数
20
生存率(survival rate)
称为生存函数 记为S(t) S(t) :指观察对象从起始事件(如手术时间
为0点)开始,到t时刻仍存活的概率。常用n年 生存率表示。
是否 死亡 1 1 0 生存 时间 140 160 99 36
12
性别 处理 开始 终止 组 日期 日期 1 A药 98/07/12 98/11/29 2 B药 98/07/01 98/12/29 1 A药 98/08/22 98/11/29 2 B药
98/10/20 98/11/25 车祸死亡 0
31
寿命表法与PL的区别
1.计算在 (ti 1,ti ) 时间段的生存率。 如0-1年、1-2年,时间段组距相等。 2.寿命表方法计算死亡概率,用校正观察人数计 算。假定有截尾事件的人在各时间组内平均生 存为1/2时间。 (校正观察人数=期初观察人数-截尾人数/2) 死亡概率=某时间组内死亡人数/校正观察人数
(二)随访的方式
1.全部观察对象同时接受不同处理(起点相同) 随访方式:多见于动物实验(见图17-1,a)
2.观察对象在不同时间接受处理因素(起点不同) 随访方式:临床试验研究(见图17-1,b)
13
动物实验随访数据(图17-1,a)
×为死亡
× O O × × 0
O 为截尾
起始事件时间
如给药
t 研究结 束时间
概 述
• 临床上疗效、预后的评价常用疾病 的结局指标:如有效率、治愈率、 死亡率比较。对于短期内能明确治 疗效果的疾病是适用的。但对于远 期疗效,上述指标的评价不全面。
3
例
某病的疗效比较
甲药 乙药 治愈率(%) 80 81 平均治愈时间(月) 20 12
疗效除了应评价“结局”的好坏,结局所 经历时间长短也是评价疗效重要的指标。
16
(三)生存分析主要研究的内容
1.统计描述:计算不同时间点(t)的生存率, 描述生存过程。 2.统计推断:检验不同处理方式的生存过程 有无统计差别. 3.自变量(x)对生存时间(t)的关系:影 响生存时间的危险因素分析.
17
第二节 生存率的估计与生存曲线
(一)描述生存资料的几个指标
1.不同时间点生存率 2.生存曲线
( Ai Ti ) Ti
2
2
该χ2服从自由度=比较组数-1 Ai 为某组各时点实际死亡频数合计. Ti 为某组各时点期望死亡频数合计 i 表示比较组,i=1,2,…k组
34
Log-rank检验的基本思想
表17-4部分数据,365页 时间 甲法手术组 乙法手术组
t 1 2
n1i
d1i
1 0
3.中位生存时间
18
几个率概念
死亡率、死亡概率、生存概率、生存率
死亡率:表示在单位时间(年)内死亡发生 的频率(年平均死亡水平)。
某年内死亡数 某年死亡率 1000% 某年的平均人数
19
死亡概率、生存概率
死亡概率(F):在某时间段(t)开始存活的个体, 死于(t+△t)该时段内的可能性。
某时间段内的死亡数 d F 某时间段初的观察数 n
2.大样本资料的生存分析方法—寿命表法 (Life-table method)
例17-3 表17-3 2418例男性心绞痛病人生存率情况 术后 死亡 截尾 期初 校正 生存 生存率 年数 人数 人数 人数 人数 概率 (t+1) 0456 0 2418 2418 0.8114 0.8114 1226 39 1962 1942.5 0.8837 0.717 2- 152 22 1697 1686 0.9098 0.6524 校正人数=1962-39/2=1942.5
ti时刻存活的人数( X ) n年生存率 s(t ) 观察的总人数
时间ti ,i=1,2,3…n
假设数据是完全数据,计算见例
21
例:某病病人术后生存率
期初 (ti 1,ti ) 人数 [0,1] 100 [1,2] 90 [2,3] 80 生存 死亡 生存 死亡 生存 生存率 s(ti ) 人数 人数 概率 概率 10 90 0.1 0.9 0.90 10 80 0.11 0.89 0.80 20 60 0.25 0.75 0.60
4
例 2:
两种方法对疾病的疗效 方法 治疗人数 生存人数 生存率% 甲方法 100 20 20 乙方法 100 50 50 经χ2检验 p<0.05,乙法预后优于甲法。 假定: 1.观察期间疾病的死亡率不随时间变化。 2.研究对象观察时间长度相等。
5
随访研究
随访研究(follow-up study)是医学中常用前 瞻性研究. 例:两种方法肾移植病人术后肾的生存时间 和结局(生存率)比较. 例:不同方法对某病人(癌症、反复发作疾病) 生存时间(缓解时间)与结局(生存率)比较. 该类数据通过随访得到,称为随访资料。
9
3.生存数据的特点
1)完全数据:研究对象在规定研究期间提供确 切的“时间和结局”。
2)截尾数据(t+) :截尾数据虽然提供的信息不 完全,但提供了部分信息,如 t=10+年>9年。 3)生存数据的结果变量(Y )有两个: 时间(t)值 ,t>0 结局状态(y )=“ 如死亡或截尾值”
10
二 资料的收集
1.分析的变量(y) 1) 结局事件:指结局出现的特征,如疾病的死 亡、复发、发生( y=1或0) 。 2)时间间隔变量 记为(t)
t=结局事件出现日期 - 事件的起始日期
(起始日期可规定:如诊断、用药、手术日期 8 等), t的单位:可用年、月、周表示
2.截尾数据
观察过程中个体因其他原因未观察到明确的 结局, 称为截尾或删失数据( censored data)。 截尾原因有: ①失访,②退出研究,如其他原因死亡。③研究 时间结束,未出现结局事件。 截尾值(censored value): 时间(t)=截尾事件日期 -起始事件日期 记为t+。(例:10+月)