事件史分析3

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

三讲COX 风险

本讲提要

1．Cox模型的内容

2．Cox模型的特点和应用

3．Cox模型的假设和检验

1. 什么是Cox模型

A。在事件史分析中的时间依赖问题

原因：时间是一个重要维度

例子：

•职务升迁：对工作期限的依赖

•工作变动：对年龄（工龄）的依赖

三种解决办法:

•离散时间的事件史模型：

o（1）时间作为解释变量，（2）使用随时间变化的变量，（3）不对时间模型化

o假设：时间依赖问题通过模型中的控制变量可以排除；

•Cox模型：假设有时间依赖，但是把时间依赖看作是一个可以通过统计处理而绕过的问题

•参数方程：对时间依赖的方式加以模型化

B．COX模型

几个假设

▪假设我们讨论的事件史中，时间是连续的；

▪假设样本中每个人的风险是成比例的，即每个人的风险都是其他人风险的一个固定比例。所以，COX模型又称比例风险模型。

比例风险模型可以表述如下：

h(t, x) = h0(t) eβ’x⇔ln h(t, x) = α(t) +β’x

在这里，α(t)=logh0(t)。

上面公式说明，一个样本在时间t的风险是两个部分的乘积：

1．h0(t) 是一个基准风险函数，它的形式没有被具体规定（不能是负数），可以用任何形式出现。我们可以把它看作是当所有变量为0时，一个样本所面临的风险函

数。

2 eβ’x。一组k自变量的线形方程。

用广义线形模型（Generalized Linear Models）的语言来说，时间与解释变量间没有interaction。.

▪If α(t) = α→ exponential model

▪If α(t) = α t → Gompertz model

▪If α(t) = α log t → Weibull model

注意：Cox模型的一个重要假设是，h0(t)可以有任何形式，但是它对于所有的样本都是同样的，因此，我们可以通过样本之间的相比来消除α(t)。这个假设的另外一个表述是，样本之间的风险是成比例的（proportional）。

例如，

在这里，λ0(t)在公式中被取消，因此风险的比例在不同时间都是同样的，不随时间变化。如果我们观察不同群体的log h(t)，那么它们的log h(t)应该是平行的。而h0(t) 可以被解释为所有样本共有的共同基准风险。

2．Cox 特点和应用

（1） Cox的重要贡献

1．允许风险率有时间依赖，但对风险率的分布形式没有做任何假设。在h0(t)未知的条件下，可以对上式中的β进行估算。被称为部分似然值法。

2．统计计算上简易；

注意：部分似然值法的估算使用了有关持续期时间（duration times）的顺序，但对事件发生的准确时间不予关注。事件而不是个人是似然值估算的关注点。

h0(t) 没有模型化，因此，Cox模型又被称为半参数模型。

估算方法被称为部分似然值法。对于“部分似然值法”，我们可以写为观察到的所有事件的似然值的乘积。因此，如果J是事件的数目，那么我们可以有如下公式，

在这里，Lj是第j个事件的似然值。

（2）参数估算方法（Estimation Method ）

在一个有n人的随机样本中，有k观察到的不同的生命时间（没有同时发生的事件），n-k删截的生命时间。我们把这些k生命时间按时间长短从短到长顺序排列起来，即ti < tj if i < j. 设R i =R(t i) 为在时间ti的风险集，即在t i.之前仍然生存而且没有被删截的样本。

当任何生命时间(t i) 出现时（即事件发生时），总是有一个相应的R i. 个人i [i ∈ R i] 经历该事件，而不是其他在风险集中的人，的概率是:

在这里，(h0(t))被取消了。我们可以使用似然值法对下式求β的估算值:

上式是所谓的“部分似然值法”，只对exp(xi'β)有关。而通常的似然值法需要知道h0(t). 但在实际估算中，我们可以把上式看作为似然值函数，其β的估测具有最大似然值法的各种特点： consistency and asymptotic normality。只是有着极少的效率损失。

一个例子：STATA p22-23

id time x

2 5 2

3 9 4

4 20 9

5 22 10

h(subject 4 at time 20) = h4(20)=h0(20)exp(β0+9βx)

注意：在我们考虑 h j(20) 时，只有h j(20) 和h j(22)在风险集中。

我们可以用“部分似然值法”对上式求βx。

（3）同时发生的事件（tied events）

如果时间是连续的，那么应该没一个以上的事件在同一时间发生。但是，在实际资料中，时间并不是真正连续的。因此，当我们用一个时间整数来统计时间时，就会发生不同事件在同一时间发生的情形。例如，可能几个人在一年里经历了“提升”事件。

Cox模型在部分似然值法的统计分析中，假设生命时间（ti）是各自不同的，在统计处理时首先将时间T按顺序排列。我们可能碰到一个问题：如果资料中的样本经历的事件同时发生，也就是说，在某一时间的T多次出现（tied events），怎么办？

统计学家提出了几种近似方法来解决这个困难：

▪Breslow approximation

▪Marginal calculation （exactm）

▪Partial calculation （exactp）

▪Efron approximation （efron）

（4） COX模型没有截距

Cox模型的统计结果中没有“截距”，这是因为截距是α（基准风险函数）的一个部分，在“部分似然值法”中被取消了。

（5）COX模型的问题

(1)Cox模型没有充分利用信息。只考虑持续时间的次序，但没有使用事件发生准确

时间的信息。

(2)假设时间是连续的。对“同时发生的事件”处理困难。（但这些因素现在都不是

重要问题了。）

(3)没有直接计算h0(t). （但是可以用其他方法估算出来。）

3．Cox模型的假设和检验

关风险设讨论

1．这个假设是什么意思？

2．如何检验这个假设？