Cox回归比例风险假定的考察和影响点的识别及其SAS和SPSS实现
Cox比例风险模型
Cox比例风险模型——Hazard model(一)方法简介1概念界定COX回归模型,全称Cox 比例风险回归模型(Cox’s proportional hazards regression model),简称Cox 回归模型。
是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。
该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。
由于上述优良性质,该模型自问世以来,在医学随访研究中得到广泛的应用,是迄今生存分析中应用最多的多因素分析方法。
(绕绍奇,徐天和,2013)与参数模型相比,该模型不能给出各时点的风险率,但对生存时间分布无要求,可估计出各研究因素对风险率的影响,因而应用范围更广。
2 方法创始人:Cox (1972) proportional (成比例的)hazard regression model.详细介绍了该方法的具体推演过程以及相关的实例。
参考文献:Cox, D. R. (1992). Regression models and life-tables. Journal of the Royal Statistical Society, 34(2), 187-220.3 基础知识h(X,t)由两部分组成:h0(t)不要求特定的形式,具有非参数方法的特点,而exp(…) 部分的自变量效应具有参数模型的形式,所以Cox 回归属于半参数模型。
等比例风险假设是最为关键的适用条件,类似于线性回归模型中的线性相关假设。
比例风险( PH) 假定的检验方法目前,检验Cox 回归模型PH 假定的方法主要有图示法和假设检验法[6]两种。
图示法包括: ( 1)Cox &K-M 比较法,( 2 ) 累积风险函数法,( 3 )Schoenfeld 残差图法; 假设检验法包括: ( 1) 时协变量法,( 2) 线性相关检验法,( 3) 加权残差Score 法; ( 4) Omnibus 检验法。
SPSS学习笔记之——生存分析的Cox回归模型(比例风险模型)
一、生存分析基本概念1、事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:操作步骤:SPSS变量视图菜单选择:点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。
cox模型校准曲线(测试集)的6种实现方法
Cox模型校准曲线是生存分析中非常重要的概念之一。
它可以帮助我们评估Cox比例风险模型对于实际观测数据的拟合情况,并且在一定程度上反映了模型的预测准确性。
在实际工作中,对Cox模型校准曲线的实现方法有着不同的需求,因此有多种实现方法可以供我们选择。
在本文中,我们将探讨Cox模型校准曲线在测试集中的6种实现方法,并对这些方法进行全面评估和比较。
1. 目标理解在开始讨论6种实现方法之前,让我们首先回顾一下Cox模型校准曲线的概念。
Cox比例风险模型是用于分析生存数据的一种常见统计模型,它可以帮助我们评估某些危险因素对于生存时间的影响。
而Cox模型的校准曲线则是用来评估模型对于未来事件的预测能力,通常用来检验模型是否存在预测偏差或准确性问题。
准确地实现Cox模型校准曲线对于我们正确评估模型的性能至关重要。
2. 实现方法一:基于R语言的survival包第一种实现方法是使用R语言中的survival包来绘制Cox模型校准曲线。
这种方法在生存分析领域非常常见,survival包提供了丰富的函数和工具来进行生存分析相关的统计计算和图形展示。
通过调用survival 包中的函数,我们可以很容易地在测试集上实现并绘制Cox模型的校准曲线。
3. 实现方法二:基于Python的lifelines包另一种常见的实现方法是使用Python中的lifelines包来实现Cox模型校准曲线。
lifelines包是针对生存分析任务的Python包,它提供了类似于survival包的功能,并且可以方便地绘制Cox模型的校准曲线。
相比于R语言,使用Python进行生存分析的优势在于其丰富的数据处理和机器学习库,例如numpy、pandas和scikit-learn,可以更加方便地进行数据预处理和模型评估。
4. 实现方法三:基于SPSS的生存分析模块除了使用编程语言进行实现外,我们还可以使用统计软件SPSS中的生存分析模块来实现Cox模型校准曲线。
生存分析SAS和SPSS实现的比较
⽣存分析SAS和SPSS实现的⽐较计算机应⽤?Δ通讯作者:余红梅⽣存分析SAS和SPSS实现的⽐较⼭西医科⼤学卫⽣统计学教研室(030001) 赵景义 任晓卫 张建军 余红梅ΔSAS和SPSS都能对⽣存资料进⾏较完善的⽣存分析,但它们所提供的⽣存分析过程不尽相同,过程下的选项和相应的输出结果也各有千秋〔1,2〕,因此有必要对两个软件的⽣存分析功能做⼀个⽐较系统的⽐较,为实际⼯作者根据研究⽬的和所需计算结果选择恰当的统计分析软件提供依据。
⽣存率估计SAS与SPSS均可得到⽣存率的Kaplan-Meier 估计、寿命表法估计以及Greenwood公式计算出的⽣存率的标准误,且计算结果完全相同。
两种软件在估计中位⽣存期及其⽅差上也⼀致。
两种软件标准输出中,期初例数均不正确。
期初例数即风险集,应是恰在每个死亡时间之前的存活例数。
因此,输出结果中期初例数结果都应增加1。
SAS与SPSS在平均⽣存时间计算⽅式上不同。
当最后⼀个观测值删失时,所有软件均低估该均数,但SAS低估得更严重。
SAS 估计均数只涉及到最后⼀个死亡时间,⽽SPSS估计均数涉及到最后⼀个观测值。
⽣存率⽐较SAS与SPSS都提供对两组或两组以上⽣存率⽐较的log-rank检验和Wilcoxon检验(SAS)或Breslow 检验(SPSS)。
SAS另提供似然⽐检验,⽽SPSS另提供Tarone-Ware检验。
log-rank检验、Wilcoxon检验(或Breslow检验)和Tarone-Ware检验区别在于赋予观测的权重不同,对log-rank检验,对所有t,W (t)=1,当所⽐较的总体风险率成⽐例时检验效能最⾼;对Wilcoxon检验(或Breslow 检验),W(t i)=n i;⽽Tarone-Ware检验中W(t i)=n i1/2,其中n i表⽰时间t i处所对应的期初例数〔3〕。
SPSS有趋势检验的模块,可进⾏分组因素⽔平间的线性趋势检验,可进⾏组间的两两⽐较,并可做分层分析。
生存分析的cox回归模型案例——spss
生存分析的c ox回归模型案例 --- spss作者:日期:一、生存分析基本概念1、事件(Ev en t)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Surv i va 1 ti me指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Se n sor in g)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Sur vi val distribute n fun ct io n)又叫累积生存率,表达式为S( t )=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t 的概率°t = 0时S(t )=1,随着t的增加S (t)递减(严格的说是不增),1-S (t )为累积分布函数,表示生存时间T不超过t的概率。
?二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kap 1 an-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
F面用一个例子来说明S P SS中Cox回归模型的操作方法。
例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据表M.J 験膈疼术申皴疔效杲硏愛数据的说碉旳E数值(N)8 0 手术吋的年龄 sex 数值(N) 8 0 性别trt bui ch数值㈣ 8 0数值㈣” 0数值㈣8有无甫中放疗□无朮中敵无3数值但)stage数值(N)8TFJIW 分期目II 朝}…炉度量⑶足,名义(N) 昙右A^x(N) 雲右易名以N) 垂右di 序号Q) 言右 A «X[N) 尋石—品名0N)若右 =臺变址名 变值说明暫丘类申.分类童就的浦附『WTFK11馳者编号1 inw j 生存时闻⑴)ceitsrir跚矢2号类m 拓,f :删矢叭T 术时的年龄连绩trt 处理组别的无术巾放疗) 2分类 m 无术中»Jr J : ff 术中放疗M'l性別 2分类 S 男皿女L MII占位址2分娄th 騎赃头SLX 头部臥外 rh 程度W 序多分类 1: ultO >2 irhl 、3 = °:h2・4* «-h3P封无腹雎转将2分炎 U:无% 1 J A 亠片1TMM 分类2分类3; III 期 J : IX 期操作步骤:?SPSS 变量视图caserto 数值但) 8 0无_____ 无 8少度量⑶time 数值㈣ 8 1 生存时问(月)— 无—无 8度量⑸censor数值㈣8刪失m 死亡}-无 8冨右— 曷 «X(N)范虞, 对齐名称卷数标签值列痕量标准胯脏头詔…无s 曉胆管檯润程厦8表M.J験膈疼术申皴疔效杲硏愛数据的说碉菜单选择:文件疋)履辑电)视團电)败握匸}转弟折牲)直誚迴)團形迫)娈用程序世}硏□世)琴助PZJ L-12' stage5cas&no123time2.41.710 11 12 13 14 15 16 17 18 101112141516U1819201.04.66410.S6 11 15S4.04.04.06.53 &£.96 2报告陆述颈计裁(D 上廊购値邂]一般线煙摸型1.9 广义线性摸型混合損型0》相关©回甘迟)对數线性摸型(Q 神经网络度呈⑶ 非参数检聽创预测(D生存函数程}参重n轆应)缺尖M斩边… 雾重归園© 亘束抽肄丄>|sex~ DQtri111Q°0|n園芽命a(L)...寸Kaplan4Jieier...Cox回归Q._|匕蛍依时协裘益⑼…点击进入C ox主对话框,如下,将ti me选入时间”框将代表删失的censo r变量选入状态”框,其余分析变量选入协变量”框。
Cox回归,不懂的话来看这篇30天学会医学统计与SPSS公益课(D26)
Cox回归,不懂的话来看这篇30天学会医学统计与SPSS公益课(D26)Cox回归由于其复杂性和相对较少应用(除了临床研究),很多统计学习者很少接触过和应用Cox回归,对其原理与应用也不甚了解,一般医学教科书一写到Cox回归,马上会涉及到几个令人生畏的名称:比如半参数回归、风险函数,以及那无法理解的Cox回归方程,当然Cox回归全称也令人发蒙:“Cox比例风险模型”。
但随着队列研究和中长期随访的实验性研究越来越多,了解Cox 回归是一项必要的学习内容。
本文撇开复杂原理,简单通俗地介绍下Cox回归,特别是它的应用。
除此之外,必须值得了解的一个非常重要的指标--HR值。
Cox回归与HR值在科学研究中,经常遇到分类的结局,主要是二分类结局(阴性/阳性;生存/死亡),研究者可以通过logistic回归来探讨影响结局的因素,或者构建预测模型来预测新患者的预期。
但很多时候logistic回归方法无法使用。
比如,在随访期中,绝大部分对象都发生阳性结局( 患者全部治愈或者患者几乎都死亡了)。
例如比较两种治疗手段治疗新冠肺炎效果(比如瑞德西韦和安慰剂组),可能在1一个月的效果分别是95%和90%,在统计学上可能没有差异。
logistic回归是关于率的分析,探讨影响发生率的因素,但发生率的研究不能说明一切。
我们还可以从发生率发生的速度来分析,探讨影响发生速度的因素。
这便是Cox回归基本思维。
Cox回归是生存分析的重要方法,全称是“Cox比例风险模型”。
它主要探讨终点事件发生速度有关的因素。
通俗来说,它可以探讨,到底哪类群体的“死亡”速度更快、到底什么因素影响了“死亡”速度。
生存分析的“死亡”指的是,阳性终点事件的发生。
死亡速度指的是,t时刻存活的个体在t 时刻的瞬时死亡(阳性事件发生)率,可以理解为一组人群在不同时刻的阳性终点事件发生的速度。
具体可以用以下函数来表达:在专业上,我们把它称之为风险h(t),上述公式称之为风险函数(hazard function)。
COX回归分析解析
COX回归分析解析Cox回归分析是一种常用的生存分析方法,用于评估对生存时间有影响的因素。
它可以解决各种因素在时间上对生存时间的影响,并可以考虑协变量的影响。
本文将对Cox回归分析的原理、应用和解读进行详细解析。
1. Cox回归分析原理Cox回归分析基于Cox比例风险模型,该模型假设各个协变量对生存时间的影响是线性的,并且不随时间变化。
其模型的数学表达式如下:h(t,x) = h0(t) * exp(β1x1 + β2x2 + ... + βpxp)其中,h(t,x)表示在给定协变量(x1, x2, ..., xp)条件下,时间t时刻个体的瞬时风险;h0(t)是基准风险函数,表示在所有协变量都为0的情况下,个体的风险函数;β1, β2, ..., βp为协变量x1, x2, ..., xp的回归系数。
2. Cox回归分析应用Cox回归分析广泛应用于生存分析领域,特别是在临床研究中。
它可以研究各种协变量对生存时间的影响,并进行因素筛选和预测。
在临床研究中,Cox回归分析可以用于评估各种因素对疾病生存时间的影响,如性别、年龄、治疗方式等。
同时,它还可以用于预测患者的生存概率,为临床决策提供依据。
除了临床研究外,Cox回归分析还可以用于其他领域的生存分析,如经济学、社会学等。
它可以评估不同因素对个体生存时间的影响,并提供深入的解释和预测。
在进行Cox回归分析后,可以得到每个协变量的回归系数和相应的风险比(HR)。
风险比是比较不同协变量之间风险大小的衡量指标。
当HR大于1时,表示该因素增加了个体生存时间的风险;当HR小于1时,表示该因素减少了个体生存时间的风险。
此外,Cox回归分析还可以得到每个协变量的置信区间(CI),用于对回归系数的显著性进行评估。
当CI不包含1时,表示该因素对生存时间具有显著影响;当CI包含1时,表示该因素对生存时间的影响不显著。
为了更好地解释结果,还可以绘制Kaplan-Meier曲线,用于显示不同组之间的生存差异。
(仅供参考)Cox回归分析—非常详细的SPSS操作介绍
患者生存状态的影响因素分析——生存资料的COX回归分析1、问题与数据某研究者拟观察某新药的抗肿瘤效果,将70名肺癌患者随机分为两组,分别采用该新药和常规药物进行治疗,观察两组肺癌患者的生存情况,共随访2年。
研究以死亡为结局,两种治疗方式为主要研究因素,同时考虑调整年龄和性别的影响,比较两种疗法对肺癌患者生存的影响是否有差异。
变量的赋值和部分原始数据见表1和表2。
表1. 某恶性肿瘤的影响因素与赋值表2. 两组患者的生存情况group gender age time survival0 1 0 22 10 1 1 10 10 1 1 64 10 1 1 12 10 1 0 17 11 0 0 19 11 1 1 4 11 0 1 12 01 0 0 5 01 1 1 27 02、对数据结构的分析该研究以死亡为结局,治疗方式为主要研究因素,每个研究对象都有生存时间(随访开始到死亡、失访或随访结束的时间),同时考虑调整年龄和性别的影响。
欲了解两种疗法对肺癌患者生存的影响是否有差异,可以用Cox比例风险模型(Cox proportional-hazards model,也称为Cox回归)进行分析。
实际上,Cox回归的结局不一定是死亡,也可以是发病、妊娠、再入院等。
其共同特点是,不仅考察结局是否发生,还考察结局发生的时间。
在进行Cox回归分析前,如果样本不多而变量较多,建议先通过单变量分析(KM法绘制生存曲线、Logrank检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。
即使样本足够大,也不建议把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。
单因素分析后,应当考虑应该将哪些自变量纳入Cox回归模型。
一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。
Cox回归比例风险假定的考察和影响点的识别及其SAS和SPSS实现的开题报告
Cox回归比例风险假定的考察和影响点的识别及其SAS和SPSS实现的开题报告一、研究背景和目的Cox回归模型是目前医学、生物和社会科学等领域中较为常用的生存分析方法之一。
在应用Cox回归模型进行生存分析时,通常需要满足比例风险假定。
然而,在实际应用中,比例风险假定可能被违反,从而导致Cox回归分析的结果产生偏差。
因此,本研究旨在对比例风险假定进行考察,并探讨违反比例风险假定的原因及其对Cox回归分析结果的影响。
同时,本研究还将介绍如何在SAS和SPSS中实现Cox回归分析。
二、研究内容本研究将分为以下几个部分:1. 比例风险假定的含义和假定检验方法,包括图形检验、log-log图、残差图和比例风险检验。
2. 违反比例风险假定的原因及其影响点的识别方法。
3. 在SAS中实现Cox回归分析,包括模型的建立、模型的拟合、模型的检验和结果的解释等方面。
4. 在SPSS中实现Cox回归分析,包括数据的准备、模型的建立、模型的拟合、模型的检验和结果的解释等方面。
5. 实例分析,通过一个真实的数据集进行Cox回归分析。
三、研究意义本研究将有助于深入理解Cox回归模型及其应用,特别是对比例风险假定的理解和应用,通过本研究可以更好地进行生存分析。
同时,本研究对医学、生物和社会科学等领域的研究具有指导意义,有助于提高研究质量和科学水平。
四、研究方法本研究将采用文献调研和实例分析相结合的方法,通过文献的收集和整理,探讨比例风险假定的含义、假定检验方法、违反比例风险假定的原因及其影响点的识别方法等方面,同时在SAS和SPSS中实现Cox回归分析,并通过一个真实的数据集进行实例分析。
五、预期结果本研究将形成一份完整的开题报告,包括研究背景、目的、内容、意义、方法等方面的内容。
预计本研究将取得以下几方面的预期结果:1. 深入理解比例风险假定及其在Cox回归模型中的应用。
2. 掌握Cox回归模型在SAS和SPSS中的实现方法。
基于删失数据的Cox 回归分析及影响点识别
基于删失数据的 Cox 回归分析及影响点识别
苗新利
(楚雄师范学院 数学与统计学院 云南 楚雄 675000)
摘 要:本文基于生存模型,主要对存在删失数据的生存史资料进行了Cox比例风险回归建模,并对模型进行了影响点诊断 和识别。本文采用数据删失方法和数据扰动机制确定数据中的异常点和影响点,并将此方法应用于心脏移植数据进行实证分析, 从而验证了理论方法的可行性。
+ β p X ip
+
β
p
X
jp
( ) ( ) =
exp
β1
X i1 − X j1
+ β2
Xi2 − X j2
+
( ) +β p X ip − X jp
(一) Kaplan-Meier生存率曲线
(2)
对于连续变量、0-1 变量 ( 二分值变量 )、有序分类变量,
如果两条 K-M 生存率曲线趋势基本一致,及其赋值表
变量
因素
分组
Age
年龄
≥40=1;<40=0
T5
不匹配分数
≥1.0=1;<1.0=0
Time
生存时间(天)
含删失数据
Censor
生存状态
Dead=1;Alive=0
三、Cox比例风险回归假定(PH假定)考察及建模
Cox 模型 [5] 表达式是
( ) = h(t)
h0 (t )exp
0.1376
0.7107
-2Log(LR)
0.4349
0.5096
(二)log[-logS(t)]对t的生存率曲线
对于 0-1 二分值变量,如果二者的对数的负对数生存率曲
最新生存分析的cox回归模型案例——spss资料
一、生存分析基本概念1、事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:操作步骤:SPSS变量视图菜单选择:点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor 变量选入“状态”框,其余分析变量选入“协变量”框。
含时依协变量Cox风险模型临床应用及SPSS实现课件
现
刘竞 2015-8-17
含时依协变量Cox风险模型临床应用及SPSS实现
时依协变量
Time-dependent covariates(时依协变量,T_COV_)
观察期间取值会发生改变或效应会发生改变的协变量
离散型:骨髓移植患者的移植状态,移植前为0,移植后 为1;GVHD;CMV感染等
(1)寻找最佳分界点 尝试法:选择最大对数偏似然对应的时间点为最佳分界点
含时依协变量Cox风险模型临床应用及SPSS实现
Τ =12
Τ =24
Τ =36
Τ =24 是最佳分界点
含时依协变量Cox风险模型临床应用及SPSS实现
(2)建立T_COV_变量,通过含时依协变量Cox模型进行生存分析
含时依协变量Cox风险模型临床应用及SPSS实现
连续型:血压、血药浓度、病毒拷贝数等 含时依协变量Cox风险模型临床应用及SPSS实现
比例风险假定(PH假定)
比例风险(RR):
该比值与h0(t)无关,且在时间t上为常数,称为比例风 险假定,即PH假定,即模型中协变量的效应不随时间t而
改变,比例风险由此得名。 Cox模型属比例风含时险依协模变量C型ox风组险模型,临床其应用应及SPS用S实现的前提是满足PH假
含时依协变量Cox风险模型临床应用及SPSS实现
(3) 选择“模型”——设置时间和状态、协变量——进入
含时依协变量Cox风险模型临床应用及SPSS实现
(4)分析结果
P<0.05 不满足PH假定 P≥0.05 满足PH假定
含时依协变量Cox风险模型临床应用及SPSS实现
(5)结论 四个变量均满足PH假定,即可以应用Cox比例风险模型进行生存分析
SPSS学习笔记之——生存分析的Cox回归模型(比例风险模型)
一、生存分析基本概念1、事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:操作步骤:SPSS变量视图菜单选择:点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。
Cox回归分析:详细的SPSS操作步骤
Cox回归分析:详细的SPSS操作步骤问题与数据某研究者拟观察某新药的抗肿瘤效果,将70名肺癌患者随机分为两组,分别采用该新药和常规药物进行治疗,观察两组肺癌患者的生存情况,共随访2年。
研究以死亡为结局,两种治疗方式为主要研究因素,同时考虑调整年龄和性别的影响,比较两种疗法对肺癌患者生存的影响是否有差异。
变量的赋值和部分原始数据见表1和表2。
表1. 肺癌患者生存的影响因素与赋值表2. 两组患者的生存情况对数据结构的分析该研究以死亡为结局,治疗方式为主要研究因素,每个研究对象都有生存时间(随访开始到死亡、失访或随访结束的时间),同时考虑调整年龄和性别的影响。
欲了解两种疗法对肺癌患者生存的影响是否有差异,可以用Cox比例风险模型(Cox proportional-hazards model,也称为Cox回归)进行分析。
实际上,Cox回归的结局不一定是死亡,也可以是发病、妊娠、再入院等。
其共同特点是,不仅考察结局是否发生,还考察结局发生的时间。
在进行Cox回归分析前,如果样本不多而变量较多,建议先通过单变量分析(KM法绘制生存曲线、Logrank检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。
即使样本足够大,也不建议把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。
单因素分析后,应当考虑应该将哪些自变量纳入Cox回归模型。
一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。
(敲黑板:上面两段加粗部分是重点,重点,重点)1. 数据录入SPSS2. Analyze→Survival→Cox Regression3.选项设置1)主对话框设置:①将生存时间变量送入Time框中→②将结局变量送入Status框中→③点击Define Event→④定义表示终点事件发生的数值(此例中为死亡,用1表示)→⑤Continue→⑥将分组因素和需要调整的变量送入Covariates框中→⑦Method选择Forward:LR。
骨髓移植数据的删失分位数回归分析及SAS软件实现
骨髓移植数据的删失分位数回归分析及SAS软件实现王纯杰;蒋京京;李兵发;赵红梅【摘要】针对髓细胞性白血病患者异体骨髓移植数据,基于软件SAS 9.4,对各生存时间及其有影响的协变量进行比例风险回归模型(Cox)、加速失效时间模型(AFT)对此数据进行回归分析,并应用拟合优度检验和逐步回归进行自变量选元,在此选元基础上建立了删失分位数回归分析,对此数据进行了更详细的分析,讨论了不同分位数时各协变量的回归系数变化情况.【期刊名称】《吉林师范大学学报(自然科学版)》【年(卷),期】2017(038)004【总页数】10页(P76-85)【关键词】骨髓移植;比例风险模型;加速失效时间模型;删失分位数回归;SAS软件【作者】王纯杰;蒋京京;李兵发;赵红梅【作者单位】长春工业大学基础科学学院,吉林长春130012;长春工业大学基础科学学院,吉林长春130012;中南大学湘雅医院,湖南长沙410008;长春工业大学基础科学学院,吉林长春130012【正文语种】中文【中图分类】O212.4骨髓移植是治疗急性白血病的标准方法.而移植后的病情恢复是一个复杂的过程.恢复的预后(prognosis)取决于骨髓移植时的诸多风险因素,因此,面对那么多可能存在的风险因素,需要对其进行深一步的研究.1978年,Koenker和Bassett[1]提出分位数回归概念,进一步发展了分位数回归在线性模型中应用的理论;1982年,他们又研究了分位数回归的线性假设检验以及异方差的稳健性检验,为分位数回归的应用提供了保证[2-3];1986年,Powell[4]在基于删失数据情况下提出了非线性分位数回归;1987年Koenker[5]等提出了关于分位数回归的有效算法;1994年,Koenker[6]等又讨论了线性异方差模型的L估计法.在此基础之上,Chernozhukov和Hart Hong[7]提出了要研究删失分位数回归以及它的三步评估方法;2001年,Tasche[8]研究了分位数回归的无偏性;2002年,Kim和White[9]研究了关于非线性分位数回归估计量的一致性等性质;2003年,Portnoy的算法[10]减少了在单样本的情况下的Kaplan-Meier估计;2004年,Kim和Muller[11]研究了关于两步分位数回归的渐近特性;2008年,Koenker[12]完成了在SAS软件方面对删失分位数回归的实现;2013年,Fan和Liu[13]对删失分位数的敏感性分析进行了研究.骨髓移植的删失分位数模型运用先进的数据挖掘技术,本文通过对病人和捐赠者的年龄、性别、CMV状态以及等待移植时间、FAB、医院和MTX是否作为GVHP使用等大量的数据进行系统的分析,挖掘出数据中各变量之间的关系,来判断死亡或者研究时间.除此之外,还通过建立Cox模型与删失分位数模型比较,对数据进行进一步的分析验证.得出最终的结论,实现本文的应用价值.本文利用Copelan等[14](1991年)讲述了对即将进行移植手术的患者实施非放射性调整疗法的多中心性试验的具体研究数据,对患有急性骨髓性白血病(AML)和急性淋巴性白血病(ALL)的患者同时进行16 mg/kg口服白消安(BU)和120 mg/kg静脉注射环磷酰胺(CY)的治疗.总共137名患者(其中99名AML患者,38名ALL 患者)分别在四家医院接受了治疗.图1为患者恢复过程简图.分析探索137位骨髓移植病人数据中不同协变量如何影响生存时间的回归建模问题,对每种病患者,按移植时的状态归为不同的风险类别和生存时间变量见表1,以及其他列入考虑范围之列的风险因素见表2.在做生存分析的删失分位数回归之前,首先进行简单的回归分析[15].自变量的选择是建立回归模型的一个极为重要的问题.一般情况下,根据所研究问题的目的,结合经济和现实理论罗列出对因变量可能存在影响的一些条件因素作为自变量.如果忽略了某些比较重要的变量,回归方程的效果会受到影响,结果肯定不好;如果担心遗漏了重要的变量,而考虑过多的自变量,不仅计算量会增大很多,而且得到的回归方程稳定性也会很差,直接影响到回归方程的应用.因此要做的第一步就是建立普通回归模型,观察各协变量是否有显著的影响.在生存分析中,最普通的回归模型就是Cox比例风险回归模型.2.1 Cox回归分析2.1.1 普通Cox模型1972年,英国统计学家Cox[16]提出了有关Cox模型的问题,1999年,Jason 和Robert[17]对竞争风险比例风险模型进行了进一步的研究.下面基于SAS软件,应用Cox模型对数据进行分析.考虑生存时间T1的Cox回归分析过程(其他生存时间的Cox回归分析程序类似),SAS程序见程序A,输出结果见表3和表4.根据输出结果表(表3和表4),在生存时间T1下,对模型的全局检验中三种检验的P值都小于0.05,Cox模型拟合效果显著,说明对此进行建模是好的,但对每个协变量的检验存在显著差异,说明这十一个协变量存在严重的多重共线性.因此需要消除多重共线性.同样方法分析生存时间T2和TP的回归建模.而在生存时间TA和TC下,对模型的全局检验都未通过,显著性水平P值都大于0.1.因此整体的模型效果也不好.因此说明出现急(慢)性GVHD的生存时间并不受这些响应变量的影响,后面将不再对生存时间TA和TC进一步建模.2.1.2 筛选变量对自变量进行筛选有很多种方法,有前进法、后退法和逐步回归法、主成分法、变量聚类法、变量与目标变量之间的关联分析法等.本文选择逐步回归法进行自变量的选择,并设引入自变量的显著性水平为0.1,剔除自变量的显著性水平为0.2.其它程序与T1的类似.对T1进行自变量选择的SAS程序见程序B.输出结果见表5和表6.根据输出结果表(表5和表6)分析可知,对时间T1下变量的系数的最大似然估计值中,四个变量的偏回归系数都与零有显著性差异.逐步选择汇总结果表明:依次选入了四个变量Z8、Z9、Z10、Z2,引入的每个变量的评分卡方值所对应的P值都小于0.05.说明都很显著.因此全部通过了参数检验.逐步过程法得到的最后模型拟合得很好.说明捐赠者的年龄、FAB等级、医院情况以及MTX是否作为GVHP使用这四个因素对死亡或研究时间影响很大,需进一步研究.基于上述Cox模型对各个生存时间的协变量筛选以及确定,本文也利用加速失效模型进行回归分析及变量选择,跟普通Cox模型进行比较分析.2.2 加速失效回归分析2.2.1 加速失效回归模型加速失效模型最早是由Pieruschka(1961年)首次提出,Kalbfleisch and Prentice[18]给出系统的总结,对加速失效时间数据的统计分析.1990年,Nelson[19]研究了加速检验:统计模型.加速失效模型经常用来替代半参数比例模型.这种方法类似于经典的线性回归方法.它对存活时间X的自然对数Y=ln(X)建模.对Y假设一线性模型,即模型形式为其中γ′=(γ1,…,γp)是回归系数向量,未知参数σ为尺度参数,W是误差项.通常假设误差项服从的不同分布产生不同的回归模型,例如服从标准正态分布,从而产生对数正态回归模型,或者服从极值分布,从而产生威布尔回归模型,或者服从Logistic分布,从而产生对数Logistic回归模型.这种模型被称为加速失效模型.常见的参数加速失效模型[20]如表7所示.2.2.2 加速失效回归分析首先利用Kaplan-Meier法分析死亡或者研究时间T1的分布.通过对骨髓移植数据画出指数(Exponential)模型、威布尔(Weibull)模型、伽玛(Gamma)模型和对数逻吉斯蒂(Log-logistic)模型以及对数正态(Log-normal)模型残差图,最后分析生存时间服从的分布以及合适的回归模型,因此通过使用SAS软件对其进行分析,写出SAS程序见程序C.根据SAS分析可知,观察表8对数似然值,因为这些对数似然值越大对应的拟合度就越好.因此通过对数似然值知Log-logistic模型拟合的最好;再通过残差图(图2)可知,图像接近线性,说明此模型拟合的很好.因此,最终决定对死亡或研究时间T1拟合Log-logistic模型.通过对Cox模型利用逐步回归法以及对加速失效模型利用显著性检验的协变量对时间影响程度大小的分析,分别筛选出相应的协变量,将两个模型协变量最终的筛选及参数估计整理成表格写在下表中根据表9中两种模型的建立,分别写出其生存函数模型,其中Cox模型的形式为式中S0(t)为基准生存函数.再对数据分别用各种假设回归模型进行拟合,得到Log-logistic模型的对数似然值最小,因此,最终采用Log-logistic进行建模,加速失效模型其生存函数形式为3.1 删失分位数回归模型1978年,Koenker和Bassett 最早提出了分位数回归方法,现在分位数回归在各方面已经得到了很大的发展和应用.2003年,Portnoy[11]对删失分位数回归也进行了研究.分位数回归[21]通过使用条件分位数的概念,现在已经成为了经典线性回归的重要推广.给定一个p×1维的协变量矢且τ∈[0,1],不失一般性,随机变量的条件分位数Y,定义为:分位数回归模型可以线性相关QY(τ|Z)到Z,对于每一个0lt;τlt;1,即其中向量β(τ),代表τ协变量对Y分量的影响,可能会改变.不难看出,模型(3.2)简化为AFT模型(2.1),当β(τ)={Qε(τ),bT}T,其中Qε(τ)表示τ的百分位数时.与AFT模型相比,分位数回归模型更灵活,因为的影响并不局限在τ不变.这种不同的效果构想在许多实际情况下都能增强实用程序.3.2 骨髓移植的删失分位数回归在经过以上对普通的删失回归[22]进行分析,得出了对本文有用的协变量,下面开始分析在不同分位点[23]下的删失回归.首先对T1进行分析,Z8、Z9、Z10、Z2这四个协变量对生存时间的影响.同时,对时间取对数进行分析.通过对五个时间分别的输出,将整理的估计值放入到下面表格中,估计值的第二行都是对自变量估计值的显著性检验,SAS程序见程序D.根据T1的生存概率图(图3)可以知道,在研究的137个样本下的生存概率最低达到了将近40%,说明生存率很高,造成这种原因可能是由于样本量不够大.因此,在分析删失分位数回归时,根据情况适量的选择分位点进行研究.对生存时间T1选择0.05到0.4分位点进行分析.从删失分位数回归模型的结果表(表10)来看,在影响死亡时间的模型中,捐赠者的年龄(Z2)在5%~11%的删失分位数回归中显著,在14%~32%的删失分位数回归系数的显著性检验均大于0.1,没有通过显著性检验,又因为系数为负,说明在前端时捐赠者的年龄对生存时间的影响要大于后面的情况,即捐赠者的年龄较低的时候对死亡时间影响较大,年龄较高时对死亡时间影响比较小.FAB等级(Z8)除了在5%、8%、20%删失分位数回归中系数的显著性大于0.1不显著,在其它删失分位数回归中都很显著,说明FAB等级对死亡时间有显著影响,并且在显著的分位数回归中系数均保持在-0.85水平,说明当死亡时间处于底阶段时,提高一单位的FAB等级,死亡率就会减少0.85个单位.医院情况(Z9)在5%~20%的删失分位数回归中都不显著,在23%~32%显著,说明在低分为点时医院情况对死亡时间的影响要小于后面的情况,即当死亡率较高时,医院对死亡时间的影响较大,死亡率较低时,医院对死亡时间的影响较小. MTX作为GVHP使用(Z10)除了在5%、8%删失分位数回归中系数的显著性大于0.1不显著,在其它删失分位数回归中都很显著,说明MTX作为GVHP使用对死亡时间有显著影响,且系数的大小呈递减趋势,这表明MTX作为GVHP使用较少时,生存时间高于平均水平.通过绘制不同分位数时系数的变化我们知道,在建立删失分位数回归模型的过程中,我们可以输出并观察回归参数和分位数水平的变化情况,使用这些图比较分位数对协变量的影响.如果曲线是不恒定的,它可以表示数据的不均匀性.对回归系数的的解释,在给定的分位数的情况下是类似经典回归分析的.也就是说,即假定其他变量是固定的,分析一个给定的协变量的系数是表示log(T)在该协变量下的变化的影响.在图4中,我们绘制了不同分位数时捐赠者的年龄、FAB等级、医院情况和MTX 是否作为GVHP使用对死亡或研究时间的影响.从图中可知,捐赠者的年龄会影响患者的死亡时间,且随着捐赠者的年龄的不断在增长,年龄对加速死亡时间的作用也越来越显著.说明年龄越大,捐赠成功的几率越小.当生存时间水平处于分布低端时,FAB等级对死亡时间的改变有比较稳定的负作用.也就是死亡时间会随之而变化.同时我们可以知道医院情况对死亡时间有比较稳定的正促进作用.也就是说医院的好坏会影响患者的死亡时间.从图中可以看出,MTX是否作为GVHP使用对死亡时间的改变先有负促进作用再有负抑制作用,说明MTX作为GVHP使用在适当的情况下是可以减速患者的死亡时间.最后根据结果写出部分删失分位数的模型为通过三种方法进行比较,我们可以发现在Cox模型中,选择出来的变量为四个:Z2、Z8、Z9、Z10.而加速失效模型中,选择的变量为Z8、Z9、Z10.在删失分位数回归中,是利用之前选择的四个变量进行分析.发现利用删失分位数回归得出的系数,对其实际情况解释更为合理.通过对骨髓移植数据的分析可以知道:捐赠者的年龄、等待移植时间、FAB等级、医院情况、MTX作为GVHP使用这五个变量对患者生存时间具有严重的影响.其他变量对其生存时间的影响较小.捐赠者年龄较低的时候对死亡时间影响较大,年龄较高时对死亡时间影响比较小.当死亡时间处于底阶段时,提高一单位的FAB等级,死亡率就会减少0.85个单位.当死亡率较高时,医院对死亡时间的影响较大,死亡率较低时,医院对死亡时间的影响较小.MTX作为GVHP使用较少时,生存时间高于平均水平.这些结论将最后为临床治疗提供了科学的依据.【相关文献】[1]KOENKER R,BASSETT G.The asymptotic distribution of the least absolute error estimator[J].J Am Stat Assoc,1978,73:618-622.[2]KOENKER R,BASSETT G.Robust tests for heteroscedasticity based on regression quantiles[J].Econometrica,1982,50(1):43-61.[3]KOENKER R,BASSETT G.Tests of linear hypotheses and l″1estimation[J].Econometrica,1982,50(6):1577-1583.[4]POWELL.Censored regression quantiles[J].J Econometrics,1986,32(1):143-155.[5]KOENKER R,D’OREY puting regression quantiles[J].J R Stat Soc,1987,36(3):383-393.[6]KOENKER R,ZHAO Q.L-Estimation for linear heterscedastic models[J].J Nonparametr Stat,1994,3(4):223-235.[7]CHERNOZHUKOV V,HONG H.Simple 3-step censored quantile regression and extramarital affairs[J].Social Science Electronic Publishing,2001,97(459):872-882.[8]TASCHE D.Unbiasedness in least quantile regression[M].Heidelberg:Physica-Verlag ,2001.[9]KIM T H,WHITE H.Estimation,inference,and specification testing for possibly misspecified quantile regression[J].AIE,2002,17(3):107-132.[10]PORTNOY S.Censored Regression Quantiles[J].J Am Stat Assoc,2003,98(4):1001-1012.[11]KIM T H,MULLER C.Two-stage quantile regression when the first stage is based on quantile regression [J].Econometrics Journal,2004,7(1):218-231.[12]KOENKER R.Censored Quantile Regression Redux[J].J Stat Softw,2008,27(6):1-25.[13]FAN Y Q,LIU R X.Partial Identication and Inference in Censored Quantile Regression:A Sensitivity Analysis[D].Washington:Department of Economics University of Washington,2013.[14]COPLEAN E A,BIGGS J C,THOMPSON J M,et al.Treatment for acute myelocytic leukemia with allogeneic bone marrow transplantation following preparation withBu/Cy[J].Blood,1991,78(3):838-843.[15]马振中.Cox回归比例风险假定的考察和影响点的识别及其SAS和SPSS实现[D].太原:山西医科大学,2007.[16]COX D R.Regression models and life-tables[J].J R Stat Soc,1972,34(2):187-220.[17]JASON P F,ROBERT J G.A proportional hazards model for the subdistribution of a competing risk[J].J Am Stat Assoc,1999,94(2):496-509.[18]KALBFLEISCH J D,PRENTICE R L.The statistical analysis of failure time data[M].New York:Wiley,2002.[19]NELSON W.Accelerated testing:statistical models,test plans and data analysis[M].New York:Analysis Wiley,2009.[20]蒋宏,方守恩,陈雨人.删失数据下事件持续时间多因素生存分析模型[J].同济大学学报(自然科学版),2012,40(12):1808-1813.[21]PENG L,HUANG Y.Survival Analysis With Quantile Regression Models[J].J Am Stat Assoc,2008,103(2):637-649.[22]张利.线性分位数回归模型及其应用[D].天津:天津大学,2009.[23]刘生龙.教育和经验对中国居民收入的影响——基于分位数回归和审查分位数回归的实证研究[J].数量经济技术经济研究,2008,25(4):75-85.。
含时间相依协变量的Cox模型与SAS软件实现
含时间相依协变量的Cox模型与SAS软件实现
陶庄
【期刊名称】《中国慢性病预防与控制》
【年(卷),期】2008(16)4
【摘要】对生物和人的生存时间的评估与预测是生物学与医学的重要任务,由此
而形成了数理统计学的重要分支——生存分析已成为近年来最热门的统计方法之一,它在研究疾病.特别是慢性非传染性疾病的发生、发展和转归等各个方面都有着广泛的应用。
与其他任何统计分析的目的一样.生存分析同样关注两个问题:即“发生了什么”(寿命的刻画)与“什么促使了发生”(影响因素的识别)。
而Cox比例危险模型(cox proportional hazards model)是研究后者的主要工具。
【总页数】2页(P430-431)
【关键词】时间相依协变量;Cox比例危险模型;SAS软件
【作者】陶庄
【作者单位】中国疾病预防控制中心公共卫生监测与信息服务中心
【正文语种】中文
【中图分类】TP31
【相关文献】
1.应用含时依协变量Cox回归模型探讨美沙酮维持治疗者HCV阳转危险因素 [J], 邹霞;张磊;凌莉
2.如何用SAS软件正确分析生物医学科研资料ⅩⅪ.结果变量为二值变量的高维列
联表资料的统计分析与SAS软件实现(一) [J], 王琪;胡良平
3.如何用SAS软件正确分析生物医学科研资料ⅩⅩⅡ.结果变量为二值变量的高维列联表资料的统计分析与SAS软件实现(二) [J], 鲍晓蕾;胡良平
4.用STATA软件拟合含时间相依协变量的Cox模型 [J], 陶庄;卢双;李芳;郭霏
5.时间相依协变量Cox模型的变量选择 [J], 韦新星
因版权原因,仅展示原文概要,查看原文内容请购买。
Cox比例风险Frailty模型简介与软件实现
Cox比例风险Frailty模型简介与软件实现*朱玉1梅杨2李杰1陈佰锋1姚应水1△【摘要】【提要】目的介绍Cox比例风险Frailty模型的原理及其在SAS 9.3软件中的实现过程。
方法利用具体数据的分析过程介绍Cox比例风险Frailty模型在SAS 9.3软件中的实现,并比较Cox比例风险模型与Cox比例风险Frailty模型的分析效果。
结果Frailty项对数变换后的方差估计值为0.831,与0比较差异有统计学意义,有必要在Cox比例风险模型中加入Frailty项。
结论Cox比例风险Frailty模型能够揭示资料的异质性,准确地分析因素对结局变量的影响,获得更为客观的分析结论。
【期刊名称】中国卫生统计【年(卷),期】2014(031)003【总页数】3【关键词】【关键词】Frailty模型Cox比例风险模型Cox比例风险Frailty模型以时间到事件(Time-To-Event)为结局变量的生存分析方法众多,其中经典的分析方法是Cox比例风险模型。
它的理论假设之一是研究对象间相互独立,即研究对象间具有同质性,这暗示每个研究对象有相同的基线风险。
在实际研究中,这种假设不易达到,由于未知因素或设计等原因,导致研究对象个体间或组别间存在异质性,研究对象表现出组内相关的特性,经典的生存分析不再适合分析这类型的数据。
这时,需要对经典的生存分析的方法进行改进,引入Frailty项(异质性变量),发展为Frailty模型(异质性模型)。
本文介绍加入Frailty项的Cox比例风险模型——Cox比例风险Frailty模型和软件实现。
基本原理以多中心临床随机化对照试验为例,介绍Cox比例风险Frailty模型。
中心i(i =1,2,…,k),每个中心的研究对象j(j=1,2,…,ni)。
在介绍Cox比例风险Frailty模型之前,先回顾下Cox比例风险模型。
1.Cox比例风险模型Cox提出比例风险模型[1]如下:其中h0(t|X)称为基线风险函数,h(t|X)表示在协变量为X条件下的风险函数,exp(β)为风险比(hazard ratio,HR)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
山西医科大学
硕士学位论文
Cox回归比例风险假定的考察和影响点的识别及其SAS和SPSS实
现
姓名:马振中
申请学位级别:硕士
专业:流行病与卫生统计学
指导教师:余红梅
20070508
曲睦¨人乍硕L学位论文
图1-2SPSS主界面
图1-3KapIan-Meier过程主对话框图1-4KapJan-Meier过程DefineEvent子对话框
表1-1KapIan-Meier过程主对话框说明
大时,四种方法结果相近;结点比例很大时,两种近似结果有偏性,考虑计算耗时,可选EFR嘣近似法。
SELECTION=FORWARD{BACKWARD:STEPWISElNONE}SCORE,指定变量筛选方法,分别表示前进法、后退法、逐步法、全回归模型(缺省值)和最优子集法。
SLE=和SLS=分别指定引入和剔除变量的显著性水平口。
缺省值为口=0.05。
RL要求输出相对危险度RR的95%可信区间。
oUTPuT语句创建一个新的SAS数据集,含有为每一个观测计算的一些统计量,SAS为每一个统计量定义一个关键字,如生存率和预后指数分别用SURVIVAL和XBETA表示。
选项ORDER=DATA规定输出的数据集中的观测顺序与输入数据集中的顺序一致;METHOD=PLjCHJEMP规定用于计算生存率的方法,PL表示生存率的乘积一极限法(缺省值),CH和EMP表示生存率的经验累积危险率估计法。
(2)SPSS过程‘9“…1
CoxRegression主对话框、Categoricalcovariates子对话框和plots子对话框见图卜6、图1-7和图卜8,CoxRegression主对话框和plots子对话框说明见表卜3和表】一4。
图卜6COxRegressi013过程主对话框
表1-3CoxRegression过程主对话框说明
选项说明备注
Time
status
CovariatesMethod生存时间
生存结局
DefineEvent定义表示终点事什发生的数值
Value(s)indicatingEventHasOccurred
臼变龄
变链筛选方法
本例中time,必须变量。
本例中censor,必须变量。
SingleValue:单个数值,如本例“I”。
RangeofValues:某个范围内的数值。
ListofValues:若干离散数值。
本例中age,grade,size,relapse。
山两医科』=学碗I学位论文
图1-7CategoricaICovariates子对话框
图1吨Plots子对话框
表10CoxRegression过程PIots子对话框说明
图1—12Coxw/Time—DepCoy过程T-cov_定义框
2、点击Model,界面同CoxRegression过程,Covariates框中选入age和T-.CoL,Method选Enter。
输出结果如下:
VariablesintheEquation
BSEWalddfSig.Exp(B)age,030.100.090I.764I.031
·.006.033.0321.857.994T—COV一
其它三个变量方法同上,运行结果age、grade、size和relapse四个时依协变量的P值分别为O.857,0.075,0.274和O.069,说明4个变量均满足PH假定。
表1-8膀胱肿瘤数据四个变量PH假定考察
SPSS结果同SAS结果完全~致,结论相同。
【例卜2】多发性骨髓瘤数掘(见附表1)。
65例多发性骨髓瘤病人的生存资料,17例为截尾值。
五个预后变量分别是,诊断时尿氮含量mmol/L似。
),诊断时血红蛋白含量g/t.(X:),年龄(也,岁),性别(x。
,男性0,女性1),诊断时血浆钙含量mg%(x,)。
原始资料中尿氮含量取对数。
各变量赋值见表1-9。
6。