事件史分析3

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

三讲COX 风险

本讲提要

1.Cox模型的内容

2.Cox模型的特点和应用

3.Cox模型的假设和检验

1. 什么是Cox模型

A。在事件史分析中的时间依赖问题

原因:时间是一个重要维度

例子:

•职务升迁:对工作期限的依赖

•工作变动:对年龄(工龄)的依赖

三种解决办法:

•离散时间的事件史模型:

o(1)时间作为解释变量,(2)使用随时间变化的变量,(3)不对时间模型化

o假设:时间依赖问题通过模型中的控制变量可以排除;

•Cox模型:假设有时间依赖,但是把时间依赖看作是一个可以通过统计处理而绕过的问题

•参数方程:对时间依赖的方式加以模型化

B.COX模型

几个假设

▪假设我们讨论的事件史中,时间是连续的;

▪假设样本中每个人的风险是成比例的,即每个人的风险都是其他人风险的一个固定比例。所以,COX模型又称比例风险模型。

比例风险模型可以表述如下:

h(t, x) = h0(t) eβ’x⇔ln h(t, x) = α(t) +β’x

在这里,α(t)=logh0(t)。

上面公式说明,一个样本在时间t的风险是两个部分的乘积:

1.h0(t) 是一个基准风险函数,它的形式没有被具体规定(不能是负数),可以用任何形式出现。我们可以把它看作是当所有变量为0时,一个样本所面临的风险函

数。

2 eβ’x。一组k自变量的线形方程。

用广义线形模型(Generalized Linear Models)的语言来说,时间与解释变量间没有interaction。.

▪If α(t) = α→ exponential model

▪If α(t) = α t → Gompertz model

▪If α(t) = α log t → Weibull model

注意:Cox模型的一个重要假设是,h0(t)可以有任何形式,但是它对于所有的样本都是同样的,因此,我们可以通过样本之间的相比来消除α(t)。这个假设的另外一个表述是,样本之间的风险是成比例的(proportional)。

例如,

在这里,λ0(t)在公式中被取消,因此风险的比例在不同时间都是同样的,不随时间变化。如果我们观察不同群体的log h(t),那么它们的log h(t)应该是平行的。而h0(t) 可以被解释为所有样本共有的共同基准风险。

2.Cox 特点和应用

(1) Cox的重要贡献

1.允许风险率有时间依赖,但对风险率的分布形式没有做任何假设。在h0(t)未知的条件下,可以对上式中的β进行估算。被称为部分似然值法。

2.统计计算上简易;

注意:部分似然值法的估算使用了有关持续期时间(duration times)的顺序,但对事件发生的准确时间不予关注。事件而不是个人是似然值估算的关注点。

h0(t) 没有模型化,因此,Cox模型又被称为半参数模型。

估算方法被称为部分似然值法。对于“部分似然值法”,我们可以写为观察到的所有事件的似然值的乘积。因此,如果J是事件的数目,那么我们可以有如下公式,

在这里,Lj是第j个事件的似然值。

(2)参数估算方法(Estimation Method )

在一个有n人的随机样本中,有k观察到的不同的生命时间(没有同时发生的事件),n-k删截的生命时间。我们把这些k生命时间按时间长短从短到长顺序排列起来,即ti < tj if i < j. 设R i =R(t i) 为在时间ti的风险集,即在t i.之前仍然生存而且没有被删截的样本。

当任何生命时间(t i) 出现时(即事件发生时),总是有一个相应的R i. 个人i [i ∈ R i] 经历该事件,而不是其他在风险集中的人,的概率是:

在这里,(h0(t))被取消了。我们可以使用似然值法对下式求β的估算值:

上式是所谓的“部分似然值法”,只对exp(xi'β)有关。而通常的似然值法需要知道h0(t). 但在实际估算中,我们可以把上式看作为似然值函数,其β的估测具有最大似然值法的各种特点: consistency and asymptotic normality。只是有着极少的效率损失。

一个例子:STATA p22-23

id time x

2 5 2

3 9 4

4 20 9

5 22 10

h(subject 4 at time 20) = h4(20)=h0(20)exp(β0+9βx)

注意:在我们考虑 h j(20) 时,只有h j(20) 和h j(22)在风险集中。

我们可以用“部分似然值法”对上式求βx。

(3)同时发生的事件(tied events)

如果时间是连续的,那么应该没一个以上的事件在同一时间发生。但是,在实际资料中,时间并不是真正连续的。因此,当我们用一个时间整数来统计时间时,就会发生不同事件在同一时间发生的情形。例如,可能几个人在一年里经历了“提升”事件。

Cox模型在部分似然值法的统计分析中,假设生命时间(ti)是各自不同的,在统计处理时首先将时间T按顺序排列。我们可能碰到一个问题:如果资料中的样本经历的事件同时发生,也就是说,在某一时间的T多次出现(tied events),怎么办?

统计学家提出了几种近似方法来解决这个困难:

▪Breslow approximation

▪Marginal calculation (exactm)

▪Partial calculation (exactp)

▪Efron approximation (efron)

(4) COX模型没有截距

Cox模型的统计结果中没有“截距”,这是因为截距是α(基准风险函数)的一个部分,在“部分似然值法”中被取消了。

(5)COX模型的问题

(1)Cox模型没有充分利用信息。只考虑持续时间的次序,但没有使用事件发生准确

时间的信息。

(2)假设时间是连续的。对“同时发生的事件”处理困难。(但这些因素现在都不是

重要问题了。)

(3)没有直接计算h0(t). (但是可以用其他方法估算出来。)

3.Cox模型的假设和检验

关 风险 设 讨论

1.这个假设是什么意思?

2.如何检验这个假设?

相关文档
最新文档