cox比例风险回归模型及其R程序

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4. Cox模型的解释及应用
5. Cox模型拟合优度的考察
1. 分析前的准备----数据整理

严密的研究设计 收集资料:影响疾病的因素、病人的个性及行为特征等 资料(如病人的年龄、性别、职业、是否饮酒、是否吸 烟及病情、病理类型等资料)、研究对象的生存时间和 截尾指示变量(一般用变量t表示生存时间,用变量d表示 是否截尾)。资料应尽量避免偏性及主观因素的影响。 样本含量:不宜过小。一般情况下,样本例数应为分析 因素的5-20倍。 数据预处理:如数据的变换、日历数据与生存时间的转 化等。同时要对数据进行描述性分析。
Cox回归分析
刘瑞红
Cox 模型不直接考察生存函数 S t 与协变量的关系,而 是用风险率函数ht 作为因变量,并假定: ht , X h0 t exp X
Cox模型的 基本形式
h0 t exp1 X 1 2 X 2 m X m
相对危险度RR
h(t ) h0 (t ) exp( 1) RR exp( ) h' (t ) h0 (t ) exp( 0)
ht h0 t exp 1 X 1 2 X 2 m X m RRi h' t h0 t exp 1 X 1 ' 2 X 2 ' m X m '
exp
n
exp 1 X i1 2 X i 2 p X im
1 X s1



2 X s 2 P X sm
将n个病人死亡的 条件概率相乘
L
i 1
SR( t i )
exp X
1
exp1 X i1 2 X i 2 p X im
右侧可分为两部分:h0(t)没有明确的定义, 分布无明确的假定,参数无法估计,为 非参数部分;另一部分是参数部分,其 参数可以通过样本的实际观察值来估计 的,正因为Cox模型有非参数和参数两部 分组成,故又称为半参数模型。
பைடு நூலகம்
ht , X h0 t exp X
h0 t exp1 X 1 2 X 2 m X m
Lp q1q2 qk ,
qi:
eb1 b2
eb1 b2 1 , , b2 b1 b2 b1 0 0 e e e e e e
eb1 eb1
eb1 b2 1 eb1 Lp b1 b2 0 b2 b1 0 b2 b1 b1 e e e e e e e e
图 19-1 Cox 回归结构与原理示意图 (4 例肺癌)
比值反映的,其中的风险函数和基础风险函数是
未知的。另外偏回归系数的估计需要借助于偏似
然函数的方法。在完成参数估计的情况下,可对 基础风险函数和风险函数做出估计,并可计算每 一个时刻的生存率。
二、Cox回归分析的一般步骤 1. 分析前的准备----数据整理 2. 参数估计,建立最佳模型 3. 假设检验

因素筛选时需规定显著性水平,一般情况下初步筛选因 素的显著性水平确定为0.1或0.15,设计较严格的研究显 著性水平可确定为0.05。

另外,筛选因素时,还要考虑因素间共线性的影响。当 存在共线性时,应考虑消除共线的影响,如采用主成分 回归等方法。
3. 参数的假设检验

(1) 似然比检验(likelihood ratio test)

约束条件下最大化问题就是求解下式根, LnL ( ) LnL( ) g 0 LnL ( ) g( ) g ( ) C 0 其中,g 是矩阵g= 的转置
拉格朗日乘子检验(LM)

如果约束成立,对数似然函数值不会有显著变化。这就意味着在一阶

在原假设成立条件下,
LM S ( ) I ( ) S ( ) ~ 2 (q)
1 a
拉格朗日乘子检验(LM)

对于线性约束
将有关量代入上式得,
' ne* X ( X ' X ) 1 X ' e* 2 2 LM= = nR ~ (q) ' e*e*

对数似然函数的导数就是得分向量,因此,LM检验就是检验约束条件 下参数估计值的得分向量值是否显著异于零,因而,LM检验又称为得 分检验。
拉格朗日乘子检验(LM)

ˆ) 0 ,可 在最大似然估计过程中,通过解似然方程 S (
以求出无约束估计量 ˆ ;如果计算有约束估计量 在此 处得分,则 S ( ) 一般不为零,但是如果约束有效,则 S ( ) 趋近于零。
代表ti时刻 以后危险集 R(ti)中对似 然函数作贡 献的个体
S R ( t i )
h
h0 t exp 1 X i1 2 X i 2 p X im
0


t exp 1 X s1 2 X s 2 P X sm

S R ( t i )
条件下,第二项应该很小,特别是
H0: =0 件是否成立检验转化成检验
思想。


应该很小。因此,约束条 ,这就是拉格朗日乘子检验的
但是直接检验H0: =0 比较困难,有一个等价而简单的方法。 如果约束条件成立,在约束估计值处计算对数似然函数的导数应该近 似为零,如果该值显著异于零,则约束条件不成立,拒绝原假设。
n
i

求关于 j j 1,2,,m 的一阶偏导数,并求其等于 0 (即 ln L( ) 0 )的解,得到 j 的最大似然估计值。
j
(2) 建立最佳模型

为建立最佳模型常需对研究的因素进行筛选,筛选方法
有前进法、后退法和逐步回归法。实际工作中要根据具 体情况选择使用,最常用的为逐步回归法。
(2) 得分检验(score test)(又称为拉格朗日 乘数法)

(3) Wald检验 是三种基于极大似然法大样本检验方法。

似然比检验:用于模型中原有不显著变量的剔除和显
著变量的引入,以及包含不同变量数时模型间的比较。检 验新增加的协变量是否有统计学意义的统计量为:
拉格朗日乘子检验(LM)

j

反映了协变量X与生存函数的关系
ht , X h0 t exp X
表示具有协变量 X 的个 体在时刻 t 的危险率, 又称为瞬时死亡率。t 为生存时间,
X ' X 1 , X 2 ,, X m
h0 t exp1 X 1 2 X 2 m X m
' 为 Cox 模型的 (1 , 2 m ) 偏回归系数,是一组未知的参数, 需根据实际的数据来估计。
表示与生存时间可能有 关的协变量或交互项。 其中的因素可能是定量 的或定性的,在整个观 察期间内不随时间的变 化而变化。
所有危险因素为0时的基础风 险率,它是未知的,但假定它 与h(t,X)是呈比例的。
病人 Name 王一 黄二 张三 李四
处理 性别 生存 结局 组号 (男=1) 天数 (死=1) x1 1 0 0 1 x2 1 0 1 0 t 18 48 70 90 d 1 1 0 1
风险函数 (因人而异) h(t)=h0(t) e h0(t) e h0(t)
b2 e h0(t)
风险率(随时变化) 18 天 h0(18) e

基本思想:拉格朗日乘子检验(LM),又称为Score检验。
该检验基于约束模型,无需估计无约束模型。 假设约束条件为 H0 : g C 对数似然函数,另

,在约束条件下最大化
表示拉格朗日乘子向量,此时,拉 LnL ( ) LnL( ) g( ) C 格朗日函数为
' ' exp 1 X 1' X 1 2 X 2 X2 m Xm Xm






exp i
相对危险度RR
③同时考虑2个协变量,2个因素都存在的危险率与 2个因素都不存在时的危险率之比(相对危险度)为
ht h0 t exp 1 1 2 1 RR h' t h0 t exp 1 0 2 0 exp 1 2 exp 1 exp 2 RR1 RR2
利用生存率函数S(t,X)与 风险函数h(t,X)的关系可 导出
t S t , X exp ht , X dt 较好地解 0 决截尾值 t exp( X ) 的问题 exp h0 t exp X dt S 0 t 0
Cox回归基本模型的两个前提假设
①各危险因素的作用不随时间变化而变化, 即
h( t ) 不随时间变化而变化; h0 ( t )
②对数线性假定:模型中的协变量应该与 对数风险比成线性关系。

Cox回归模型与一般的回归分析不同,它不是直接 用生存时间作为回归方程的因变量,协变量对生
存时间的影响是通过风险函数和基础风险函数的


表 16-8
x t d n n 2 4 13 23 3 2 11 21 1 12 14 1 21 22 24
Cox 模型分析的数据格式 X4 时间,t 结局,d
编号 1 2
X1
协 变 量 X2 X3
x11
x12 x 22
xn 2
x13 x 23
xn3
x14 x 24
xn 4
t1
ht , X / h0 t exp1 X1 2 X 2 p X m
偏回归系数i的意义是,当其它协变量都不变时,
Xi每变化一个单位,相对危险度的自然对数
(lnRR)变化i个单位。 若i>0,则RR>1,该因素为危险因素; 若i<0,则RR<1, 该因素为保护因素; 若i=0,则RR=1, 该因素为无关因素。
n exp1 X i1 2 X i 2 m X im L( ) exp X X X i 1 1 s1 2 s2 m sm S R( t i )
两边取自然对数
m ln L( ) i 1 X i1 m X im ln exp j X sj j 1 i 1 S R ( t ) i
b1 b2
b1 x1 b2 x2
48 天
90天
b1 b2
h0(18) e
0
h0(48) e
0
b2 e h0(18)
b2 e h0(48)
h0(t) e
b1
h0(18) e
b1
h0(48) e
b1
+
h0(90) e
b1
条件死亡概率 (第 i 个死亡时刻) 偏似然函数 (条件概率连乘)
qi hi(t) hj(t) ,
s1
2 X s 2 P X sm
第 i 个研究对象在 t i 时刻死亡的概率应当是两部分的乘积,一是患 者存活到 t i 时刻的概率(与 h0(t)有关) ,二是该暴露人群 Ri 中恰好第 i 个患者死亡的概率(qi) , L 忽略了前者,故称之为偏似然函数。
有截尾值时,用 i 来表示数据类型: i 1 ,表示病人在 t i 时刻病 人死亡。 i 0 ,表示病人在 t i 时刻截尾。其偏似然函数为:
t2
tn
d1
d2
dn
x 21
x n1

n
2. 参数估计,建立最佳模型
(1) 参数估计----偏似然估计

假定有n个病人,他们的生存时间由小到大排列:
t1≤t2≤…≤tn

对于每个生存时间ti来说,凡生存时间大于等于ti的所 有病人组成一个危险集,记为R(ti)。在危险集内的病人, 在ti以前尚生存,但处在危险之中,随着时间的推移, 危险集内的病人陆续死亡,逐渐退出观察,直至最后 一个病人死亡时,危险集消失。
相关文档
最新文档