第17章--生存分析
生存分析
例14.1 某医师采用手术疗法治疗12例
宫颈癌患者,随访时间(月)记录如下:1,
2,4,5,7,8+,11,15,18,33+,36, 38+。试估计各时点生存率及其标准误、 各时点总体生存率的95%可信区间、中
位生存时间,并绘制生存曲线。
(1)生存率及其标准误的计算
如生存时间t为4月的生存率为
1 1 1 s(t 3) p1 p 2 p3 (1 )(1 )(1 ) 0.7500 12 12 10
各时生存率的标准误,其计算公式为
1 S (tk ) SE[ S (tk )] S ( sk ) nk dk
(14.6)
如S(t3)的标准误SE[S(t3)]为
分组资料两个样本生存曲线的比较;对
数秩检验可用于两个或多个样本生存曲
线的比较,又可用于未分组和分组资料
生存曲线的比较。
2.应用条件 交叉。
要求各样本生存曲线不能
3.处理措施优劣的判断 均可根据各组生
存曲线位置的高低直观判断 ,但Gehan 比分检验还可根据V值的正负来判断,V
值为正的一组处理措施的效果较优。
分别为5.1282,11.8718 。
3.求出p值,作出推断结论 查附表5,
X2界值表,得p<0.05,拒绝H0,接受 Hl,又因从图14.3可直观地看出放化 疗联合组的生存曲线位置较高,故可认 为放化疗联合治疗肺癌的效果较好。
二、Gehall比分检验
Gehan比分检验(Gehan score test)仅用于 两样本生存曲线的比较。仍以例14.3说
布、Weibull分布、对数正态分布等 ;
2.非参数法
例如乘积极限法、寿命表
生存分析
浙江大学医学院流行病与卫生统计学教研室 沈毅
所以不知道该观察对象的确切的生存时间,就象该观察对象的 生存时间在未到达规定的终点之前就被截尾了,因此称之为截 尾数据(Censored Data)。
截尾数据提供了部分关于生存时间的信息,使研究者知道 该观察对象至少在已经经历的这个时间长度内没有发生终点事 件,其真实的生存时间只能长于我们现在观察到的时间而不会 短于这个时间。(符号t+)
浙江大学医学院流行病与卫生统计学教研室 沈毅
(3)生存概率(survival probability);记为p,是死亡概 率的对立面,指往后活满一个时段的可能性大小。年生存概 率表示往后再活一年的机会大小,其计算公式为
p=1-q=该年活满一年人数/年初观察例数 (12-3) 分子部分即年底尚存人数,若年内有截尾,则分母用校正人 口数。
q=年内死亡数/年初观察例数 (12-2) 若年内有截尾,则分母用校正人口数,例如,
校正人口数=年初人口数一(截尾例数/2) 由式(12-2)求得例12-1各年死亡概率如表12-2第7列所示。 死亡率与死亡概率两者的计算和意义都有区别,即①计算: 公式中分母不同;②意义:死亡率反映年平均死亡强度,而死 亡概率表示往后一年死亡的机会大小。
浙江大学医学院流行病与卫生统计学教研室 沈毅
例12-1 手术治疗40例肝癌病人,术后3年中每年死亡数 10例,无截尾。试描述其分布的基本特征。
生存函数
例子
• 例 18.1(数据 surv.txt)为了研究对农 药中毒的治疗,需要进行动物试验。研 究人员利用40只老鼠进行某种农药中毒 后的某种治疗方法试验。 • 其中有20只鼠接受治疗处理;而作为对 照的另外20只鼠没有接受治疗。 • 在此之后观察这些老鼠的生存时间(天 数)。对每一个鼠都记录了其存活时间(t)、 是否属于治疗组以及是否在某观测时间 段数据出现删失。
一些概念
• 在生存分析中,人们往往希望知道 存活过时间t的概率,这就是所谓的 生存函数(survival function)S(t)。 • 显然它等于1减去生存时间少于t的 概率,即S(t)=1-F(t)。 • 还有一个在t时刻处(附近),对死亡 发生的可能性进行度量的函数,称 为危险函数(hazard function),用h(t) 表示,它实际上是-lnS(t)的关于t的 导数(见后面公式)。
例子
• 这里的所谓删失(censored)是由于某 种原因,无法继续观测;这意味着老 鼠至少活过了这个最后记录的时间, 但最终活了多久就不得而知了。 • 这种删失在对于人类疾病的跟踪研究 中经常出现;虽然不如未删失 (uncensored)的数据完整,但也包含 了其至少活了多久这样的信息。 • 这里数据中的删失称为右删失。
SPSS软件使用说明(Kaplan-Meier方法 )
• 选择Analyze-Survival-Kaplan-Meier; • 然后把变量time选入Time;把变量censored选入 Status,再点击Define Event来定义未删失值为1; 再把变量treat选入Factor; • 之后点击Options,在其中点击Survival Table(s) (默认值)和其他需要的表格;在Plot选择需要 的图,比如Survival; • 回到主对话框后,点击Compare Factor Levels来 选择需要的检验;也可点击Save来存储一些输出。 然后在点击Continue之后,最后点击OK来运行。
生存分析(survivalanalysis)
⽣存分析(survivalanalysis)⼀、⽣存分析(survival analysis)的定义 ⽣存分析:对⼀个或多个⾮负随机变量进⾏统计推断,研究⽣存现象和响应时间数据及其统计规律的⼀门学科。
⽣存分析:既考虑结果⼜考虑⽣存时间的⼀种统计⽅法,并可充分利⽤截尾数据所提供的不完全信息,对⽣存时间的分布特征进⾏描述,对影响⽣存时间的主要因素进⾏分析。
⽣存分析不同于其它多因素分析的主要区别点:⽣存分析考虑了每个观测出现某⼀结局的时间长短。
应⽤场景 什么是⽣存?⽣存的意义很⼴泛,它可以指⼈或动物的存活(相对于死亡),可以是患者的病情正处于缓解状态(相对于再次复发或恶化),还可以是某个系统或产品正常⼯作(相对于失效或故障),甚⾄可是是客户的流失与否等。
在⽣存分析中,研究的主要对象是寿命超过某⼀时间的概率。
还可以描述其他⼀些事情发⽣的概率,例如产品的失效、出狱犯⼈第⼀次犯罪、失业⼈员第⼀次找到⼯作等等。
在某些领域的分析中,常常⽤追踪的⽅式来研究事物的发展规律,⽐如研究某种药物的疗效,⼿术后的存活时间,某件机器的使⽤寿命等。
在医学研究中,常常⽤追踪的⽅式来研究事物发展的规律。
如,了解某药物的疗效,了解⼿术的存活时间,了解某医疗仪器设备使⽤寿命等等。
对⽣存资料的分析称为⽣存分析。
所谓⽣存资料就是描述寿命或者⼀个发⽣时间的数据。
更详细的说⼀个⼈的⽣存时间的长短与许多因素有联系的,研究因素与⽣存时间的联系有⽆及程度⼤⼩,称为⽣存分析。
例如研究病⼈感染了病毒后,多长时间会死亡;⼯作的机器多长时间会发⽣崩溃等。
这⾥“个体的存活”可以推⼴抽象成某些关注的事件。
所以SA就成了研究某⼀事件与它的发⽣时间的联系的⽅法。
这个⽅法⼴泛的⽤在医学、⽣物学等学科上,近年来也越来越多⼈⽤在互联⽹数据挖掘中,例如⽤survival analysis去预测信息在社交⽹络的传播程度,或者去预测⽤户流失的概率。
⽣存分析研究的内容 1.描述⽣存过程 研究⽣存时间的分布特点,估计⽣存率及平均存活时间,绘制⽣存曲线等,根据⽣存时间的长短,可以估算出各个时点的⽣存率,并根据⽣存率来估计中位⽣存时间,也可以根据⽣存曲线分析其⽣存特点,⼀般使⽤Kaplan-Meier法和寿命表法。
生存分析
生存率计算
0.72=0.8*0.9,0.51=0.70833*0.72………
生存率计算
注意出现截尾数据后,下个区间的生存概率情况,截尾数据属于丢失了,可以有失访但最好是随机的,而不是有方向性的。
生存率的标准误(Greenwood估计)
SE S ( t i ) S ( t i )
n (n
研究指标
4 风险比(hazard ratio)
=相对危险度(RR)
第一组的h1 (t ) 风险比= 第二组的h2 (t )
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 A1 A2 B1 + B2 B1
B2 A1 B1
比例风险图示(1)注:比值不随时间变化而变化
A1≠ B1 A1+ A2 ≠ B1 + B2 A1+ A2 B1 + B2
(n s
j 1 j
i
dj
j
)
SAS 数据格式
编号 分组变量
观察时间
事件是否 发生
SAS
Kaplan-Meier法
PROC LIFETEST data = a.km METHOD=PL PLOTS=(s); TIME time*p(1); strata group; RUN;
数据汇总
生存时间的比较
a. Dependent Variabl e: ti me
score检验
变量筛选
后退法
前进法
一般选择
逐步法
事件发生时间相同时
RR CI
• RISKLIMITS -RL
比例风险假设的检验
• log{-log[S(t)]}=log{-log[S0(t)]}+bx • 以时间t为横坐标,LML为纵坐标 两条线基本平行说
生存分析(2012年)推荐课件
合格的 研究对象
试验组 对照组
出现结果 尚未出现结果 失访、脱落
伴随因素 干扰因素
随访研究(follow-up study)示意图
【例题】
某医院泌尿外科医师选择1996-2000年间经手术 治疗的膀胱肿瘤患者,对可能影响膀胱肿瘤术后 生存的因素进行了调查,随访截止日期为2000年 12月30日。
➢ 1 有2个效应变量:(1)生存时间(天数),(2) 结局(死亡与否、是否阳性等)
➢ 2 截尾数据:如表21-1中的1号、 3号和4号病人 未观察到底,不知他们究竟能活多长时间。 处理截尾数据时两种错误的做法:
✓ 错误1:丢弃截尾数据,只考虑确切数据。(损失 了信息)
✓ 错误2:将截尾数据当作确切数据处理。(低估了 生存时间的平均水平)。
生存时间资料的特点
➢ 3. 分布类型复杂:生存时间常呈正偏态分布。 在处理正偏态分布数据时两种错误的做法: 错误1:采用平均生存时间而不是采用中位生存时
间来表示生存时间的平均水平。
错误2:采用常规t检验或方差分析进行组间比较。
(应采用log-rank检验比较几组生存时间 )
二、生存分析的统计描述指标
h(t)h0(t)exp(1x1 ...pxp)
h0(t)为t时刻的风险函数。
Cox回归模型的模型假定:任两个个体风险之比不 随时间的变化而变化。
Assumption of proportional hazard( PH假定)
R Rh h0 0tte ex x 1 p 1 p X Xji1 1 2 2X Xij2 2 ............
生存分析 Survival Analysis
生存分析概述及实例分析高教书苑
可以看出,大约在200天时两种治疗方法的生存
传统治疗方法。可以判断试验方法
函数相交,在200天以前传统治疗方法的存活率较高, 而在200天以后试验方法的治疗效果明显优于传统治
的疗效相比传统治疗方法有所提高。
疗方法。
高级教育
29
用K-M方法对数据进行处理,结果如下:
生存函数分布和生命表分析的结果相似。 K-M方法可以记录删失数据,且由于分段较多 整体呈现密集的锯齿,而生命表分析的分布则 较为平缓。
高级教育
25
原始数据如下:
高级教育
26
首先用生命表分析方法对数据进行处理:
1.输入数据
2.选择生命表分析
高级教育
27
3.设置参数
高级教育
28
4.输出结果
中位数生存时间是生存率为
50%时,生存时间的平均水平。
从中位数生存时间来看,传统
治疗方法的中位数为241天,试验
方法的中位数为266天,明显高于
[31,65) :个体1在31小时死亡,故本区 间 S(t)=1×4/5=0.8
[65,150) :个体2在65小时退出实验, 本区间无个体死亡, S(t)=0.8×4/4=0.8.
[150,220) :个体3在150小时死亡,S (t)=0.8×2/3=0.53.
[220,300) :个体4在220小时退出实验, 本区间无个体死亡, S(t)=0.53×2/2=0.53.
病发等等。例如病人的死亡,产品的失效,疾病的发生,职
员被解雇。
寿命:从记录开始到事件发生的时间。
高级教育
3
特点
生存分析的优点在于其能够处理删失数据。 生存分析的统计资料以生存时间为反应变量,此类资料的 生存时间变量大多不服从正态分布,且由于删失值的存在, 不适合用传统的分析方法处理。此时就应选用生存分析的方 法。
生存分析知识总结
生存分析知识总结一、生存分析的基本概念生存分析是将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。
研究生存现象和响应时间数据及其统计规律的一门学科。
对一个或多个非负随机变量(生存时间)进行统计分析研究。
对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。
在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。
生存时间也叫寿命、存活时间、失效时间等等。
比如:医学上包括疾病发生时间、治疗后疾病复发时间;可靠性工程系为元件或系统失效时间;犯罪学方面是重罪犯人的假释时间;社会学上指首次婚姻持续时间;人口学上包括母乳喂养新生儿断奶时间;经济学包括经济危机爆发时间、发行债券的违约时间;保险精算学包括保险人的索赔时间、保险公司某一索赔中所付保费;汽车工业包括汽车车轮转数;市场学中有报纸和杂志的篇幅和订阅费。
这些也可以说明,生存时间可以不是具体的时间。
二、生存分析的历史生存分析方法最早可上溯至十九世纪的死亡寿命表。
现代的生存分析则开始于二十世纪三十年代工业科学中的相关应用。
二次世界大战时期,武器装备的可靠性研究,这一研究兴趣延续到战后。
此时生存分析都集中在参数模型。
二十世纪六七十年代,医学研究中大量临床试验的出现,要求方法学有新的突破,导致了生存分析的研究开始转向非参数方法。
D.R. Cox在72年提出的比例风险模型为此做出了划时代的贡献。
现在,生存分析方法的在医学领域得到了广泛的应用,而通过医学研究要求的不断提高,这一方法也得到了飞速的发展。
三、生存分析的研究目的,内容和具体方法(一)研究目的主要由以下五个方面1.描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。
统计学教案习题17随访资料的生存分析
第十七章 随访资料的生存分析一、教学大纲要求(一)掌握内容 1.生存分析基本概念生存时间、完全数据、截尾数据、死亡率、死亡概率、生存概率、生存率。
2.估计生存率的方法:Kaplan-Meier 法、寿命表法。
(二)熟悉内容1.生存曲线、半数生存期。
2.生存资料的基本要求。
3.两生存曲线的比较的对数秩检验。
(三)了解内容 Cox 回归模型。
二、教学内容精要(一)生存分析中的基本概念1.生存时间(survial time )指观察到的存活时间,如表11-1中t 分别为360,990,1400,1800天。
生存时间有两种类型:(1)完全数据(complete data )指从起点至死亡所经历的时间,即死者的存活时间,如表11-1中360,990,1800天。
(2)截尾数据(censored data )由于失访、改变防治方案、研究时间结束时事件尚未发生等情况,使得部分病人不能随访到底,称之为截尾。
从起点至截尾所经历的时间,称为截尾数据,如表11-1中1400天,习惯上记为1400+天。
表11-1 4例鼻咽癌随访记录患者序号性别 (男=1)处理组号开始日期 终止日期 结局 (死=1)存活天数 10 1 11/29/80 11/04/85 1 360 2 1 1 06/13/82 06/08/83 1 990 3 1 0 03/02/83 12/31/86 0 1400+ 4 008/04/8304/10/86118002.死亡概率与生存概率(1)死亡概率(mortality probability )指死于某时段内的可能性大小,记为q 。
年死亡概率的计算公式为q =某年年初观察例数某年内死亡数,若年内有截尾,则分母用校正人口数(校正人口数=年初人口数-21截尾例数)。
这里的死亡概率与通常所说的死亡率是有区别的,死亡率的分母常用年平均人口,反映过去一年的死亡频率(年平均水平),而死亡概率则用年初人口,表示往后的一年中死亡机会大小。
第十七章:生存分析
五、生存概率与死亡概率
活过该年人数 P 某年年初人口数
该年内死亡人数 q 某年年初人口数
该年内死亡人数 m 某年平均人口数
六、风险函数(Hazard Function)
• 用h(t)表示,其定义为: • h(t)=lim(在时间t生存的病人死于区间(t,△t) 的概率/△t) • 由于计算h(t)时,用到了生存到时间t,这一条 件,故上式极限式中分子部分是一个条件概率。可 将h(t)称为生存到时间t的病人在时间t的瞬时死亡 率或条件死亡速率或年龄别死亡速率。当用t作横 坐标,h(t)为纵坐标所绘的曲线,如递增,则表示条 件死亡速率随时间而增加,如平行于横轴,则表示没 有随时间而加速(spss演示)
• 这些都可作为生存时间用作生存分析。
随访资料的记录--截尾的概念
包括: (1)开始观察日期,终止观察日期---生存时间 (2)结局(最终观察到的是死亡还是存活) 死于该病---完全数据 存活或死于其他原因---截尾数据 每个生存期数据要用2个变量表示:观察到的生 存时间和是否截尾(如:用0表示截尾,用0表 示死亡;4+ 用4,0表示;4用4,1表示)。 (3)协变量---各种影响生存期长短的因素。
风险函数的不同情况:
常数,
下降,
如:死于飞机失事。
如:急性损伤。
上升,
如:持续接触危险因素。
澡盆样,如:人的一生。
生存分析目的: (1)估计生存函数。 (2)比较各组的生存函数。
(3)研究影响生存期长短的因素。
第பைடு நூலகம்节
•
生存分析的统计方法
生存率S(t)的估计方法有参数法和非参数 法。常用非参数法,非参数法主要有二个,即, 乘积极限法与寿命表法,前者主要用于观察例 数较少而未分组的生存资料,后者适用于观察 例数较多而分组的资料,不同的分组寿命表法 的计算结果亦会不同,当分组资料中每一个分 组区间中最多只有 1个观察值时,寿命表法的 计算结果与乘积极限法完全相同。
生存分析
0 indicates loss to follow-up
X
o
O
X X X
1994
1995
1996 年份
1997
1998
1999
生存时间图示
X
X indicates event
0 indicates loss to follow-up
X X o X X 0 12 24 36 48 生存时间(月) 60 72
生存分析
Survival Analysis
吴静 公共卫生学院流行病与卫生统计学系
前
言
生存分析(survival analysis)是将事件的 结果和出现这一结果所经历的时间结合起来 分析的一类统计分析方法 生存分析是队列研究和临床试验的重要分析 方法之一 生存分析不同于其它多因素分析的主要区别 点就是生存分析考虑了每个观测出现某一结 局的时间长短
1995.06.04 死亡 1998.08.25 死亡 1994.03.18 失访 2000.12.30 存活 1995.03.17 死亡 1996.08.16 死于其它
1476 2417 876+ 2250+ 265 985+
生存时间的类型
完全数据(complete data) 是指从观察的起 始事件一直达到观察的终点事件,即观察对象 完整的生存时间,是生存分析最重要的资料。 不完全数据(incomplete data)在随访研究中, 由于某种原因未能观察到随访对象发生事先定 义的终点事件(为其他终点事件或生存结局), 无法得知随访对象的确切生存时间,这种现象 称为删失(censoring),也称截尾或终检。包 含删失的数据即为不完全数据,它所提供关于 生存时间的信息是不完全的。
医学统计学第16-章生存分析-PPT幻灯片
0.0199
20 25 0.0787 10.0000 2.6517 0.0250 0.0105 0.064516 0.028475
25 30 0.0741 8.1250 2.2535 0.0200 0.00949 0.072727 0.035758
30 35 0.0660 11.2500 3.7500 0.0200 0.00949 0.114286 0.054761
n data li16_1; n input count c time; n cards; n 510 n 715 n 6 1 10 n 4 1 15 n 5 1 20 n 4 1 25 n 4 1 30 n 0 1 35 n 2 1 40 n 1 1 45 n 2 1 50 n; n proc lifetest plots=(s) method=life n width=5; time time*c(0); n freq count; n run;
生存时间资料常通过随访获得,因观 察时间长且难以控制混杂因素,再加上存 在截尾数据,规律难以估计,一般为正偏 态分布。
6、生存率(survival rate)与 死亡概率
①生存率:又叫累积生存率或生存函数。
表示观察对象其生存时间T大于t时刻的概 率,常用S(t,X)=P(T>t,X)表示。在实际工
data ex16_2; input month censor@@; cards; 1 0 3 0 4 0 5 0 6 0 8 0 10 0 11 0 12 0 14 0 17 0 18 0 24 0 30 0 31 0 51 0 62 1 78 1 88 1 115 1 124 1 ; proc lifetest plots=(s); time month*censor(1); run;
生存分析(第17章)
生存时间 t时 刻 的 观 察 单 位 数 S(t,X) 总观察例数
生存概率针对单位时间;生存率针对某个 较长时间段,它是生存概率的累积结果。 如5年生存率是每一年不同生存概率乘积。
S(5, X) p1 p2 p5
7.风险函数 (hazard function,h(t,X)) 生存时间已达到 t 的一群观测对象在 t 时 刻的瞬时死亡率。
j i
(9)生存率的标准误:
S E S ( t i,X )
p N
j i j
qj
j
2.生存率曲线
1 0.8
© ¨%£ Ê £ æ Â ú ´ É
0.6 0.4 0.2 0 0 5 ú ´ É æ Ê ±¼ ä £ ¨Ä ê £ © 10 15
Ð Ð Ä Ô Ð Ä ½ Ê Í ´ ² ¡ È Ë µ Ä É ú ´ æ Ç ú Ï ß
生存过程 的比较
生存过程 Cox 比例风险模型 的影响因素分析 非比例风险模型 logistic 回归模型
指数回归模型 Weibull 回归模型
第二节 生存率的估计与生存曲线
(生存过程的描述)
一、小样本资料
1.生存率的计算
2.生存率标准误的计算
3.生存曲线
4.中位生存时间
1.生存率的计算 乘积极限法 (product-limited method) 由Kaplan-Meier于1958年提出,又称为 Kaplan-Meier法 利用概率乘法原理计算生存率
例 有人研究了甲种手术方法治疗肾上腺肿瘤 病人23例的生存情况,定义从手术后到病人 死亡的时间为生存时间,得到生存时间(月) 如下(+为截尾数据),试计算其生存率与 标准误。 1,3,5,5,5,6,6,6,7,8,10,10, 14+,17,19 + ,20 + ,22 + ,26 + ,31 + , 34,34 + ,44,59。
生存分析
生存分析的历史与应用
17、18世纪:寿命表的提出及其应用。
1926年:Greenwood提出评价生存函数的误差的方法— Greenwood公式。
1958年:生存函数的计算方法—Kaplan-Meier法(乘积极限 法product-limit)的提出。 1960年代中叶:生存时间的组间比较方法的开发—广义 Wilcoxon秩和检验(Gehan,1965年);对数秩检验(log-rank test, 又称时序检验) [Mantel,1966年]。 1970年:将协变量的影响模型化—参数模型(假设生存时间 服从Weibull分布、对数正态分布等);半参数模型(比例风险 5 模型,又称Cox回归模型) [Cox,1972年]。
除了关注是否出现某种结局(如有效、治愈、死亡等),还
要考虑出现这些结局所经历的时间长短。
如:除了随访结局作为判定标准以外,只要能让病人存活时间
延长,这种药物也应当被认为有效。即时间延长也认为有效。
将两者均作为因变量拟合多元模型极为困难(“时间”分 布不明,一般不呈正态分布,在不同情况下的分布规律也 不同)。
基本概念
(二)生存时间
特点: 3. 根据研究对象的结局,生存时间数据可分两种类型: (1) 完全数据 (2) 截尾数据 截尾的原因
①失访:生存但中途失访,包括拒绝访问、失去联系等。 ②退出:中途退出试验、改变治疗方案、死于其它与研究无 关的原因:如肺癌患者死于心机梗塞、自杀或因车祸死亡, 终止随访时间为死亡时间。 ③终止:指观察期结束时仍未出现结局。
轴,将各个时点的生存率连接在一起的曲线图。
阶梯形:小样本资料用直接法估计的生存曲线;
折线形:大样本资料用频数表法估计的生存曲线。
17 第17章(全C)生存分析20110910
G ( X t )的95 %可信区间为 G ( X t ) 1.96 S G ( X t ) exp exp[ G ( X t ) 1 96 S G ( X t ) ] 。 (17 8) (17 9) 对公式(17 8)取反对数, 得到总体生存率可信区间
第17章 生存分析 第20页
第17章 生存分析 第2页
章目录
END
研究生用《医学统计学》
孙振球 主编 人民卫生出版社 2005年8月第2版
第17章 生存分析 第3页
章目录
END
第十七章 生存分析
目录
第一节 生存分析中的基本概念 第二节 生存率的估计与生存曲线
第三节 生存分析的log-rank检验
第四节 Cox 比例风险回归模型概念
第17章 生存分析 第17页
章目录
END
2.生存率标准误计算
有两个公式 S P ( X t ) d P( X t ) n( n d ) 1 P( X t ) nd (17 3) (17 4)
S P ( X t ) P ( X t ) 例: S P ( X t )
1 1 1 0.430 0.1041 23 22 22 21 10 9
第17章 生存分析 第18页
章目录ቤተ መጻሕፍቲ ባይዱ
END
计算总体率可信区间:公式及例题
计算总体率1 可信区间 P(X t) u /2 S P ( X t ) (17 5) 生存率为P( X 17 ) 0.430, 可信区间为 0.430 1.96 0.1041 (0.226 , 0.634 )
第五节 寿命表
作业及思考题
第17章 生存分析 第4页
生存分析(第17章)
17
6.风险函数 (hazard function,h(t, X )) 生存时间已达到 t 的一群具有协变量X的 观测对象在 t 时刻的瞬时死亡率。
死亡
死亡时间
生存但中途失访 最后一次访问时间
死于其他疾病 死于该病时间
生存但随访结束 研究结束时间
3.记录影响生存时间的有关因素
19
(二)随访方式
×
○
×
○
0 始点
○ ○
× ×
×
死亡
○
失访 治疗措施改变 死于其他疾病
○
t 时间 终点
20
×
○
×
○
0 始点
○ ○
× ×
○
×
死亡
○
失访 治疗措施改变 死于其他疾病
患者 性 年 确诊到 手术开 终止随
生存
编号 别 龄 手术时 … 始时间 访时间 结局
时间
(岁) 间(月)
(月)
1 男 32 10 … 94.01.23 94.12.24 死亡
11
2 女 48 12 … 98.02.14 99.01.01 失访
10+
3 女 26 6 … 92.03.04 95.04.12 死亡
天数不同。 甲、乙两药物治疗某病治愈率均为90%, 甲药治疗的患者平均12天出院, 乙药治疗的患者平均7天出院。
4
随访观测评价临床疗效存在三个问题 2.一部分研究对象可观测到死亡,得到准确生
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Kaplan-meier过程 (4)生存曲线
分析结果
Life-Tables过程
Life Tables过程用于: 制作寿命表 绘制各做曲线如生存函数、风险函数曲线等。
对某一研究因素的不同水平的生存时间分布进行比较,控
制另一个因素后对研究因素不同水平的生存时间分布进行 比较,包括从总体上比较和不同水平间进行两两比较。
124,143,12+,159+,190+,196+,197+,205+,219+
Kaplan-meier过程
Kaplan-meier过程
时间变量 结局变量
分组变量
Kaplan-meier过程
当变量为二分类变量时,一般以死亡、复发、恶化等为 终结事件,如本例就是以恶化为终结事件,标记值为1,所 以在Single value框中输入1;如果生存状态变量取值为连续 变量时,则在Range of values 框分别输入下限值和上限值。
Cox回归模型 上面介绍的两种生存分析方法只能研究一至两 个因素对生存时间的影响,当生存时间的影响因 素有多个时,它们就无能为力了,下面介绍Cox Regression过程,这是一种专门用于生存时间多 变量分析的统计方法。
Cox回归模型
模型结构:设有n名病人,第i名病人的生存时间为ti,同时该 病人具有一组伴随变量xi1,xi2…xip。该病人生存到时间ti的 风险函数hi(t)是其基础风险函数ho(t)与相应伴随变量的函数 的乘积,其数学表达式为: hi(t)= h0(t)f(β1xi1+….+βpxip) Cox建议伴随变量的函数为指数形式,故Cox比例风险回 归可写为: hi(t)= h0(t)exp(β1xi1+….+βpxip) 式中的h0(t)是当所有伴随变量xi1,xi2,…xip都处于0或标 准状态下的风险函数,是一个不确定的值,β1,β2…,βp为回 归系数,须用实际资料来估计。
2.截尾数据 (Censored Data):由于某种原因未能观察到观察 对象的明确的结局,所以不知道该观察对象的确切的生存时间, 就象该观察对象的生存时间在未到达规定的终点之前就被截尾 了。 截尾数据提供了部分关于生存时间的信息,使研究者知道 该观察对象至少在已经经历的这个时间长度内没有发生终点事 件,其真实的生存时间只能长于我们现在观察到的时间而不会 短于这个时间。(符号t+)
分析结果
对回归方程各参数进行估计,trt(有无术中放疗)的回归 系数B=-0.818,p=0.012,按0.05的标准认为术中接受放疗可
以降低胰脏癌患者死亡的风险,平均来说,在一个时间点上,
接受放疗的患者死亡风险都是未接受患者的e-0.818=0.441倍。
Cox回归模型 (4)相关矩阵
分析结果
生存时间资料的特点
有2个效应变量:一是生存时间(天数),二是结局
(死亡与否、是否阳性等)。
存在截尾数据 :由于某种原因未能明确观察到随访 对象发生事先定义的终终事件。 分布类型复杂 :生存时间资料常通过随访获得,因 观察时间长且难以控制混杂因素,故其分布常呈偏态,
影响因素较多,规律难以估测。
寿命表 生存曲线 风险函数曲线
Life-Tables过程
分析结果
1.生存时间的组段下限 2.进入该组段的观察例数 3.该组段的删失例数 4.暴露于危险因素的例数 5.所关心的事件的例数,即死亡例数 6. 所关心事件的观察单位数的比,即各组的死亡概率 7.各组的生存概率 8. 至本组段上限的生存函数估计值,由各组的生存概率累积相乘所得。 9. 概率密度,所有个体在时点t后单位时间内死亡概率估计值。 10. 风险率。活过时点t个体在时点t后单位时间内死亡概率的估计值 11. 生存函数估计的标准误。 12. 概率密度的标准误 13. 风险率的标准误。
Cox回归模型
例3 数据pancer.sav是关于胰脏癌术中接受放疗会否延长病人生存时间
的研究。该研究的终点为死亡,接受手术被定义为计算生存时间的起点。 由于该研究是一项未经随机化的观察研究,要正确估计术中接受放疗提 高患者生存时间的效果,还需考虑对其他因子的效果进行调整。
变量名 caseno time censor age trt sex bui ch p stage 变量说明 患者编号 生存时间(月) 删失 手术时的年龄 处理组别(有无手术中放疗) 性别 占位处 胰胆管浸润程度 有无腹膜转移 TNM 分类 变量类型 连续 2 分类 连续 2 分类 2 分类 2 分类 有序多分类 2 分类 2 分类 分类变量的编码
Life-Tables过程
例2:某医院对114名男性胃癌患者接受手术后的生存情况 进行了11年的随访,得到数据(lifetb.sav)如下
Life-Tables过程
Life-Tables过程
输出生存时间范围及组距:前一个框输入生存 时间上限,后一个框输入生存时间的组距
Life-Tables过程
生存分析
生存分析
生存分析 :在临床诊疗工作的评价中,慢性疾病的预
后一般不适用于治愈率、病死率等指标来考核,因为其无
法在短时间内明确判断预后情况,为此,只能对患者进行 长期随访,统计一定时期后的生存或死亡情况以判断诊疗
效果。
生存分析还适用于现场追踪研究(发病为阳性)、临床 疗效试验(痊愈或显效为阳性)、动物试验(发病或死亡) 等。
Cox回归模型
相关性估计
Cox回归模型 (1)记录汇总表
分析结果
上表输出总例数、删失例数、失访例数
Cox回归模型 (2)哑变量对照表
分析结果
Cox回归模型 (3)模型结果
分析结果
p=0.034,表明加入这些自变型 (3)模型结果
Cox回归模型
将h0(t)移至等式左边并去自然对数得:
ln[hi(t)/ h0(t)]=β1xi1+….+βpxip 等式左边的部分为相对风险度的自然对数值,等式右边部分
为伴随变量与相应回归系术的线性组合。
βj(j=1,2,…,p)的实际意义是:在p-1个伴随变量为一 定值时,当伴随变量 xj每改变一个测定单位时所引起的相对 风险度自然对数值的改变量。 Cox模型假定各自变量 xj的回 归系数 βj与危险度间呈指数函数关系。当 βj= 0 时,说明 xj对 危险度不起作用; βj 为正值时 xj 为危险因子,增大了危险度; βj 为负值时 xj = 1 与 xj = 0 的两个危险度相比,则得到一个与 h0(t)无关的比值,称为相对危险度。
自变量的相关系数矩阵
Cox回归模型 (5)自变量均数
分析结果
输出自变量均数
Cox回归模型 (6)生存曲线
分析结果
输出各自变量均值取值水平时的累积生存函数曲线
基本概念
生存时间(Survival Time): 从狭义的角度来说:生存时间是患某病的病人从发病到 死亡所经历的时间跨度。 生存时间 开始发病 病人死亡
从广义的角度:从某种起始事件到达某种终点时间所经历 的时间跨度。 生存时间 起始事件 终点事件
生存时间的数据类型
1. 完全数据( Complete Data)指达到了明确结局的观察对象 的生存时间数据。某个观察对象具有明确的结局时,该观察 对象所提供的关于生存时间的信息是完整的。
0:死亡、1:删失 0:无术中放疗、1:有术中放疗 0:男、1:女 0:胰脏头部、1:头部以外 1:ch0、2:ch1、3:ch2、4:ch3 0:无、1:有 3:Ⅲ期、4:Ⅳ期
Cox回归模型
Cox回归模型
Cox回归模型
ch为有序多分类,将其指定为哑变量进行分析
Cox回归模型
累积生存 函数曲线
分析结果
5
…
6
Kaplan-meier过程 (2)生存时间估计
分析结果
Mean是生存时间的算术均数, Median为中位生存时间, 同时表格中也给出它们的95%的可信区间。
Kaplan-meier过程 (3)水平间的整体比较
分析结果
Log Rank、Breslow和Tarone-Ware三种检验方法的检验统计 量分别为3.282、2.861和3.360,它们的p值分别为0.194、0.239 和0.186,说明三组疗法之间生存时间的差异无显著性
Kaplan-meier法用于:
估计某因素不同水平的中位生存时间
比较研究因素不同水平的生存时间有无差异 控制一分层因素后对研究因素不同水平的生存时间比较
Kaplan-meier过程
例1:3种疗法治疗66例白血病患者缓解时间(天),数据
(kaplanm.sav)如下 A疗法:4,5,9,10,11,12,13,28,28,28,29,31, 32,37,41,41,57,62,74,100,139,20+,258+,269 B疗法:8,10,10,12,14,20,48,70,75,99,103, 162,169,195,220,161+,199+,217+,245+ C疗法:8,10,11,23,25,28,28,31,31,40,48,89,
生存分析方法
Kaplan-meier过程 这是一种非参数法,主要用于小样本,适用于能够准 确记录事件和删失发生时点的数据。
Life Tables过程
也叫寿命表法,适用于样本量大,且不太可能准确记 载每个观察对象的死亡或删失发生时间的数据。 Cox回归模型分析法 用于描述多个变量对生存时间的影响
Kaplan-meier过程
Hazard:累积风险函数估计
Cumulative events:终结事件的累积频数
Kaplan-meier过程
生存分析表 平均生存时间和中位
生存时间及其标准误
和可信区间 累积生存函数曲线