Cox回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



23
1
2
52
32
0
2
57
Stata命令 gen ta=treat*age 生成age和treat的交互项ta cox time treat age ta, dead(dead) 拟合含有
交互项的Cox模型 cox命令的语句格式为:cox 生存时间变量 协变量,
dead(结局变量)
(proportional hazard model) S (t) = S0 (t)exp( Xβ ')
Xβ'=β1x1+β2x2+…+βmxm
h0(t)称为基础风险函数(Baseline Hazard Function)
◦ 表示个体在时点t的基线死亡风险,也就是说 所有协变量为0,即风险因素为基线值时的死 亡风险率
Cox regression -- Breslow method for ties Entry time 0
Log likelihood = -59.661859
Number of obs =
LR chi2(3)
=
Prob > chi2 =
Pseudo R2
=
34 18.24 0.0004 0.1326
在时点2(年)的风险率,估计活过2 (年)者接下去 的时刻死亡的危险率h(2)=0.2/0.85=0.24
12
2
2017/4/13
Cox比例风险模型假定病人的风险函数为
h(t,X)=h0(t)exp(β1x1+β2x2+…+βmxm)
ln
h(t, X ) h0 (t)
= ln RH (t) = β1X1 + β2 X 2
RR=exp(β)
表示协变量每增加一个单位,危险度改变多少倍。
treat的β= -1.617,RRtreat=0.199,表示治疗方 案2与1比较,其危险度是治疗方案1的0.199倍,提 示治疗方案2优于治疗方案1。
age的β=0.119,RRage=1.127,表明年龄每增加 一岁,死亡的可能性增加到1.127倍
0.84
3
3
0.03
0.87
9
8-
2
10
9-
2
11
10-
1
12 11-21
8
2
0.02
0.89
2
0.02
0.91
1
0.01
0.92
8
0.08
1.00
11
估计该病患者生存时间不超过2年的概率: F(2)=0.15
该病患者在时点2(年)死亡的危险性:
f(2)=0.20
估计该病患者生存时间超过2 (年)的概率: S(2)=1-F(2)=1-0.15=0.85
------------------------------------------------------------------------------
Cox regression -- Breslow method for ties Entry time 0
Log likelihood = -59.700845
Relationship between F(t) , S(t) and f(t)
f(t)
F(t)
S(t) t
风险函数λ(t)或h(t) (hazard function),也称风险 率或瞬时死亡率,描述已活过时点t的个体在时点t 后单位时间内死亡的危险性
◦ 个体在某个时点(t, t+Δt)发生某种事件(如死亡)的瞬时 概率
i 确诊后(年) 死于本病例数 频数/年 频率/年 累计频率/年
ti
fi
fi/年
f(ti)
F(ti+1)
1
0-
2
1-
3
2-
4
3-
5
4-
6
5-
7
6-
8
7-来自百度文库
5
5
0.05
0.05
10
10
0.10
0.15
20
20
0.20
0.35
30
30
0.30
0.65
10
10
0.10
0.75
5
5
0.05
0.80
4
4
0.04
RH (t) = h(t, X )

+ βmXm

h0 (t)
RH(t)表示在时间t,协变量X下,个体风险率相对于
基础风险率的比
= RH (t) ex= p(X β ′) exp(β1x1 + ...+ β p xp )
可见, RH(t)不随时间变化 因此,COX回归模型又称为比例风险模型
2017/4/13
2017/4/13
5例癌患者随访记录
序号
1 2 3 4 5
姓名
马** 李** 张** 吴** 王**
性别 (男=1)
1 0 1 0 1
处理组
0 1 1 0 1
开始日期 终止日期
98-07-12 98-07-01 98-07-14 98-08-22 98-10-20
98-11-29 98-12-08 98-12-31 98-11-29 98-11-25
treat | -3.005587 5.033301 -0.60 0.550 -12.87068 6.859502
age | .0891689 .116237 0.77 0.443 -.1386514 .3169892
ta | .0220285 .0792198 0.28 0.781 -.1332394 .1772965
dead |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
treat | -1.616596 .4948552 -3.27 0.001 -2.586495 -.6466978
h0 (t)
根据这四个风险模型,可以实现四个病人之间的任何比较。例如:乙
病人相对于丙病人的相对危险度为:
h0 h0
(t )exp(β1 (t )exp(β 2
) )
=
exp(β1

β
2
)
风险函数的比值不随时间改变而改变。即要求每个 个体的协变量的值在随访过程中保持不变
3
2017/4/13
某医生研究2种治疗方案 对晚期肺癌的影响,收 集了34名患者的生存资 料,同时收集了患者的 年龄因素,资料如右表
23
57
方案 2 治疗组(N=14)
生存月数 年龄
6
72
6+
70
7
63
9+
61
10+
54
11+
66
13
67
15+
55
16
72
19+
55
20+
60
22
63
23
52
32+
57
数据结构
1 2
20 21
33 34
time dead treat age
1
1
1
66
1
1
1
70




23
1
1
57
6
1
2
72


h(x1, x2,t) = h0(t)exp(β1x1 + β2x2 )
现有甲、乙、丙、丁四个病人,他们的协变量值列于下表,根据上述
模型求他们在时点t的突然死亡风险。
x1
x2
甲1
1
乙1
0
丙0
1
丁0
0
时点t的突然死亡风险 h0 (t)exp(β1 + β2 )
h0 (t)exp(β1 )
h0 (t)exp(β2 )
Number of obs =
LR chi2(2)
=
Prob > chi2 =
Pseudo R2
=
34 18.16 0.0001 0.1320
------------------------------------------------------------------------------
time |
◦ 生存时间的分布可能为指数分布、Weibull分布、 对数正态分布等
某病患者生存时间频数分布(假定无删失数据)
i 确诊后(年) 死于本病例数 频数/年 频率/年 累计频率/年
ti
fi
fi/年
f(ti)
F(ti+1)
1
0-
5
5
0.05
0.05
2
1-
10
10
0.10
0.15
3
2-
20
20
0.20
0.35
例1 对100只小白鼠照射同等剂量的γ射线,观察它 们的耐受情况,在1个月、2个月时记录小白鼠死亡 情况,结果如下,假设每个月死亡的小白鼠都在月末
的同一时点发生,试估计f(1), S(1)和λ(1)
n=100
70只死亡 X 15只死亡 X
30只存活
15只存活
0
1
2
T月
例2 某病患者生存时间频数分布
生存月数time;年龄age; dead=1失效, dead=0 , 截尾;treat=1,方案1, treat=2,方案2
方案 1 治疗组(N=20)
生存月数 年龄
1
66
1
70
2
64
3
57
4
61
4
72
5
68
5
63
8
61
8+
63
8
57
8
54
11
55
11
60
12
54
12
67
15
56
17
54
22
62
------------------------------------------------------------------------------
time |
dead |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
结局 (死=1)
0 1 0 1 1
生存天数
140 160 170 99 36
生存时间
◦ 完全数据(complete data) ◦ 截尾数据(censored data),亦称为删失数据
非参数法
◦ 随访资料的常用分析方法
参数法
◦ 要求观察的生存时间t服从某一特定的分布,根据 特定的分布估计参数,从而得到生存率的估计值。
◦ 它是与时间有关的任意函数 ,反映风险函数 随时间变化的特点
◦ 但在做比较时,不用关心h0(t)的具体形式
The relative risk (RR) of a person with X=(x1,x2,… ,xm) comparing to a "person" with O=(0,0,…,0) is exp(β1x1+β2x2+… +βmxm)
age | .119485 .0407113 2.93 0.003 .0396924 .1992776
------------------------------------------------------------------------------
Cox回归方程 h(t, X ) = h0 (t) ⋅ e(−1.617⋅treat+0.119⋅age)
4
2017/4/13
在Stata命令中加入hr,可以直接给出RR值。 cox time treat age , dead(dead) hr
time | dead | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------treat | .1985735 .0982651 -3.27 0.001 .0752835 .5237726 age | 1.126916 .0458782 2.93 0.003 1.040491 1.220521
◦ 一般来说指的是Cox比例风险模型,属多因素 分析方法,主要用于分析影响生存率的因素
◦ 是目前医学中应用最广的生存分析方法之一
生存函数S(t) (survival function)
◦ 个体存活时间超过t的概率,随时间t的增大而减小 S(t) = P[T > t]
概率密度函数f(t) (probability density function)
◦ 个体在单位时间内死亡的概率极限,一般为一右侧长尾曲线, 其右侧积分面积即为S(t)
= f (t) lim 1 P[t ∈(t,t + ∆t)] ∆t→0 ∆t
1
2017/4/13
累积死亡函数F(t ) (cumulative distribution function) F(t) = 1− S(t) = P[T ≤ t]
◦ 假定这个个体存活时间大于等于t。 ◦ 这个函数为发病或死亡密度(ID或MD)
= λ(t) lim 1 P[T ∈(t,t + ∆t) / T ≥ t] ∆t→0 ∆t
λ(t) = f (t) S (t )
累积风险函数(cumulative hazard function)
◦ 风险函数的右侧积分面积
4
3-
30
30
0.30
0.65
5
4-
10
10
0.10
0.75
6
5-
5
5
0.05
0.80
7
6-
4
4
0.04
0.84
8
7-
3
3
0.03
0.87
9
8-
2
2
0.02
0.89
10
9-
2
2
0.02
0.91
11
10-
1
1
0.01
0.91
12 11-21
8
0.8
0.008
1.00
半参数法
◦ 规定了影响因素和生存结局间的关系,对时间 (和风险函数)的分布没有加以限定
βi的实际意义
◦ 当其它协变量相同,变量Xi改变一个单位时,引起的死亡 风险改变倍数的自然对数值
从本质上讲,Cox模型无法准确估计出具体风险状 况和计算生存率
研究癌细胞是否有转移(x1:x1=0 无转移,x1=1 有转移)和是否 手术(x2:x2=0 无手术,x2=1 有手术)这两个协变量对癌症患者 生存时间的影响,建立了如下Cox回归模型:
相关文档
最新文档