COX回归分析解析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表2
实验对象
Logistic回归模型的数据结构
y X1 X2 X3 …. XP
1 2 3 … n
y1 y2 y3 … yn
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 a23 a33 … an3
… … … … …
a1p aபைடு நூலகம்p a3p … anp
━━━━━━━━━━━━━━━━━━ 其中:y取值是二值或多项分类
Options→Correlation of estimate→ Display model→at last step→Entry-removal (0.05,0.10)→Maximum iterations(20)→ Continue→OK
Case Processing Summary N Cases available in analysis Cases dropped Event a Censored Total Cases with missing values Cases with non-positive time Censored cases before the earliest event in a stratum Total 15 1 16 0 0 0 0 16 Percent 93.8% 6.3% 100.0% .0% .0% .0% .0% 100.0%

2

2

1

0




2363
88-12-1 95-5-22 1
注:性别‘ 1’ 为男性、放疗‘ 1’ 表示采用,‘ 0’ 表示未采用、结局 ‘1’表示死亡。
3.SPSS 软件实现方法
File→Open→相应数据(已存在)→ Analyze→ Survival→Cox regression →Time(dat)→Status →Define event →single value(1) →Continue → Covariates(自变量)→method → Fkward→Continue →
( Cox's model)。
proportional
harzard

1 2 3 … n
表1
y
多元线性回归分析的数据结构
X1 X2 X3 …. XP
实验对象
y1 y2 y3 … yn
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 a23 a33 … an3
… … … … …
例在对资料进行描述时: 5名癌症患者存活时间(月) 6 10 14 20 20 n=5 平均生存时间, mean=18 ,median=14

7 8+
25
35 + 50
当有截尾数据时,
?
Kaplanmeier生存率曲线图
三、Cox回归分析(Cox regression)

影响生存时间的长短不仅与治疗措施有 关 , 还可能与病人的体质 , 年龄 , 病情的轻 重等多种因素有关。如何找出它们之间的关 系呢?对生存资料不能用多元线性回归分析。 1972 年英国统计学家 Cox DR. 提出了一种能 处理多因素生存分析数据的比例危险模型
(3)可以用 β1x1+β2x2+…+βpxp(预 后指数)估计疾病的预后。
4、筛选变量(逐步COX回归分析)
(1)向前法(forward
selection)
(2)后退法(backward selection) (3)逐步回归法 逐步引入-剔除法(stepwise selection) SPSS实现方法与Logistic回归相同
结局 1 1 0
项目登记
整理
生存天数 578 1549 4717
性别 年龄 分期 鼻血 放疗 化疗 开始日 终止日 1 45 2 2 0 1 88-1-17 89-8-17 0 36 2 2 0 1 88-1-21 92-4-17 0 45 2 0 1 0 88-2-2 90-12-31 … 0

51
(6)Cox模型中回归系数的检验
假设为 H0: k 0 ,其它参数β固定; H1: k 0 ,其它参数β固定。 H0成立时,统计量 Z =bk/SE(bk) 服 从标准正态分布。SE(bk)是回归系数bk的标准 误。
3、Cox回归模型的作用 (1) 可以分析各因素的作用 (2)可以计算各因素的相对危险度 (relative risk,RR)
a1p a2p a3p … anp
━━━━━━━━━━━━━━━━━━ 其中:y取值是服从正态分布
多元线性回归模型
通过实验测得含有p个自变量x1,x2,x3,…,xp 及一个因变量y的n个观察对象值, 利用最小二乘法 原理, 建立多元线性回归模型:
ˆ b0 b1x1 b2 x2 bp x p y
…. XP
a1p a2p a3p … anp
3、COX回归模型 (Cox regression model)
(1)风险率(hazard rate):
患者在t时刻仍存活,在时间t后的瞬间 死亡率,以h(t)表示。
死于区间(t , t t )的病人数 h(t ) 在t时刻尚存的病人数 t
(3)Cox比例风险回归模型
ln(h(t)/ h0(t))=β1x1+β2x2+…+βpxp
参数β 1,β2…,βp称为偏回归系数 , 由于h0(t)是未知的,所以COX模型称为半参 数模型。
COX比例风险函数的另一种形式: h(t)= h0(t)exp(β1x1+β2x2+…+βpxp)
(4) 流行病学意义
1、数据结构
设含有p个变量x1, x2,…,xp及时间T和结局C的 n个观察对象. 其数据结构见表3。
表3
实验对象 t
COX模型数据结构
C X1 X2 X3
1 2 3 … n
t1 t2 t3 … tn
1 0 0 … 1
a11 a21 a31 … an1
a12 a22 a32 … an2
a13 … a23 … a33 … … … an3 …
变量xj暴露水平时的风险率与非暴 露水平时的风险率之比称为风险比hr (hazard ratio)
hr= eβi
hr风险比相对危险度RR
(5)Cox回归模型的检验



对Cox模型的检验采用似然比检验。 假设为H0:所有的βi 为0 , H1:至少有一个 βi 不为0 。 将 Ho 和 H1 条件下的最大部分似然函数的对数 值分别记为 LLP (H1 ) 和 LLP ( H1 ) 可以证明在H0成立的条件下,统计量 χ2=-2[ LLP ( H1 ) - LLP ( H 0 ) ] 服从 自由度为p的χ2分布。
Step 2
a. Residual Chi Square = 9.374 with 5 df Sig. = .095 b. Residual Chi Square = 2.790 with 4 df Sig. = .594
Variables in the Equation Step 1 Step 2 X4 X4 X5 B 1.084 1.381 -1.589 SE .421 .530 .695 Wald 6.630 6.799 5.221 df 1 1 1 Sig. .010 .009 .022 Exp(B) 2.957 3.978 .204
其中b0为截距, b1 ,b2 …bp称为偏回归系数.
bi 表示当将其它 p-1 个变量的作用加以固定后 , Xi
改变1个单位时Y将改变bi个单位.
SPSS实现逐步回归方法:
操作过程:Analyze---Regression--Linear---y选入Dependent---x1、x2、 X3选入Independent---Stepwise--options--ok
(2)COX回归模型的构造

多元线性回归模型:
ˆi b0 b1x1i b2 x2i bp x pi y
Logistic回归模型: ln[p /(1 p)] 0 1 X 1 p X p 设不存在因素X1、X2 、Xp的影响下, 病人t 时刻死亡的风险率为h0(t), 存在因素X1、 X2 、Xp t的影响下, t时刻死亡的风险率为h(t). 用死亡率的比 h(t)/h0(t) 代替P/(1-P)即得。
Total a. Dependent Variable: DAY
Omnibus Tests of Model Coefficientsa,b Overall (score) -2 Log Likelihood Chi-square df 45.145 14.783 6 Change From Previous Step Change From Previous Block Sig. Chi-square df Sig. Chi-square df Sig. .022 16.199 6 .013 16.199 6 .013
始点
终点
始点
终点

生 存 分 析 (survival analysis) : 生存时间一般是通过随访收集。不 完全数据提供了部分信息。须要用 专门的方法进行统计处理,这类统 计方法起源于对寿命资料的统计分 析,故称为生存分析。
二、生存分析的主要内容
第一,描述生存过程 研究生存时间的分布特点,估计生存 率,生存曲线; 第二,比较生存过程(假设检验) 对两组或多组生存率进行比较; 第三,影响生存时间的因素分析 了解影响生存过程的主要因素为改善 预后提供指导。
生存分析与Cox回归分析
一、基本概念
生存时间( survival time) :疾病治疗的预后 情况,一方面看结局好坏,另一方面还要看出现这 种结局所经历的时间长短。所经历的时间称为生存 时间。 完全与不完全数据 一部分研究对象可观察到死亡,从而得到准确的生 存时间,所提供的信息是完全的,称为完全数据; 另一部分病人由于失访、意外事故、或到观察结束 时仍存活等原因,无法知道确切的生存时间,它提 供了不完全的信息,称为不完全数据(截尾数据、 删失数据:censor data)。
Cov ariate Means X1 X2 X3 X4 X5 X6 Mean .500 44.625 2.063 1.250 .563 .625
Zhubu:Block1: Method = Forward Stepwise (Wald)
Variables not in the Equation a ,b Step 1 X1 X2 X3 X5 X6 X1 X2 X3 X6 Score 1.320 .220 .019 6.144 .488 .016 .712 .867 .692 df 1 1 1 1 1 1 1 1 1 Sig. .251 .639 .891 .013 .485 .900 .399 .352 .406
a. Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: -61.344 b. Beginning Block Number 1. Method: Enter
Variables in the Equation B X1 X2 X3 X4 X5 X6 .262 .053 -1.274 1.106 -2.587 -.541 SE .896 .053 1.261 .618 1.114 .848 Wald .085 .995 1.020 3.201 5.397 .407 df 1 1 1 1 1 1 Sig. .770 .318 .312 .074 .020 .524 Exp(B) 1.299 1.054 .280 3.023 .075 .582
定义:
logit( p) ln[p /(1 p)]
为Logistic变换,即:
Logit( p) 0 1 X 1 p X p
SPSS操作步骤:
Analyze-----Regression-----Binary Logistic -----Dependent框(y)-----Covariates框 (x1,x2,…)------ok
Enter和Remove的确定同前
调试法:P从大到小取值0.5,0.1, 0.05,一般实际用时, Enter , Remove应多次选取调整。

例.某医师对1988年收治的16例鼻腔 淋巴瘤患者随访了13年,数据见表7, 试作COX回归。

编 号
1 2 3
… 16
表2
鼻腔淋巴瘤患者随访资料
观察记录
相关文档
最新文档