8 持续时间数据模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
考虑到持续时间样本观测值分为两类,令
ii
1 0
如果持续时间观测值取自已经结束事件的个体 如果持续时间观测值取自尚未结束事件的个体
n
ln L (i ln f (wi ) (1 i ) ln S(wi ))
i 1
n
ln L (i (wi ln ) e wi )
i 1
1 p
利用 wi wi
dt
f (t) S(t) (t)
Hazard比率与t的概 率密度函数f、条件分 布函数F和生存函数S
之间的关系
t
令
ln S(t) (z)dz (t) 0
S(t) e(t)
⒉ 不考虑外生变量的Hazard比率模型
• 既然人们更关心事件在t之后的一个短时间Δ内结 束的可能性,而该可能性又可以通过Hazard比率 来描述,那么可以直接建立Hazard比率模型,估 计Hazard比率的参数,然后再通过积分得到生存 函数和条件分布函数。这就是持续时间被解释变 量计量经济学模型的总的研究思路。
• 然后再扩展到两类样本数据,即第1个问题。
二、Hazard比率与Hazard比率模型
⒈ Hazard比率
• 随机变量T具有连续的概率密度函数f(t),t是T的 一个观测值,即事件已经持续的时间。应该有:
t
P(T t) F (t) f (z)dz 0
S(t) 1 F(t) P(T t)
之。
由t的密度函数和样本观测值,利用最大似然法, 可以得到参数α、β的估计量,进而得到Hazard 比率的估计量,使该持续时间计量经济学问题得
到解决。
⒊ 几种常用的Hazard比率模型
• 在上面的描述中,首先对Hazard比率作出假设, 导出生存函数和密度函数,然后利用最大似然法 估计参数。
• 如果人们并不首先对Hazard比率作出假设,而是 直接对生存函数所服从的分布作出假设,然后直 接估计该分布的参数,结果是相同的。
ln S(t ( , p))
非归并观测值
归并观测值
f (t) S(t) (t)
ln L
ln (t ( , p))
ln S(t ( , p))
非归并观测值
所有观测值
⒌考虑外生变量的Hazard比率模型
• 对事件持续进行因果分析,则要引入影响持续时 间的各种因素。
• 但是,人们并不建立以持续时间为被解释变量的 模型,而是以Hazard比率为被解释变量,以影响 持续时间的各种因素为解释变量建立模型,而且 为了估计的方便,对模型的关系类型作出特定的 假设。
⒉ 持续时间被解释变量的计量经济学问题
• 以失业的持续时间分析为例,看看这类计量经济 学问题的特征。
• 以失业的持续时间t 作为被解释变量,以年龄、 受教育程度、家庭状况、工作经历、健康状况等 作为解释变量,建立如下失业模型:
Ti Xi i
i 1,2, , n
• 模型的3个特点:
– 失业已经持续的时间并不是失业持续时间的真实反映, 不能作为失业持续时间的观测值。
– 取得部分解释变量的样本观测值存在困难,因为它们 在持续时间内是变化的。
– 失业者关心的不是如何解释失业已经持续的时间,而 是希望知道在观测值t时刻之后的最短时间内能够重新 就业的可能性为多大。
• 首先从上述持续时间被解释变量计量经济学模型 的第3个特征入手;
• 并假设解释变量的样本观测值在失业持续的时间 内是不变化的,即忽略上述第2个问题;
• 这就是实际中通常采用的思路。其过程如下:
S(t) (t) f (t) 参数估计量 Hazard比率
• 下列分布经常被作为生存函数S(t)的分布
S (t ) e (t ) p
韦伯分布
S(t) ( p ln( t))
对数正态分布
S(t) 1 (1 ( t) p )
对数逻辑分布
• 对于生存函数的每种分布,都有对应的Hazard比 率函数。
⑵Hazard比率为一个线性函数
(t) t
(t)
t
0
(z)dz
t
1 2
Biblioteka Baidu
t
2
f (t) S(t) (t) (t)e(t)
如果得到参数β的估计 量为正,表示Hazard 比率随着持续时间的 增长而增大,也表示 在t之后的一个短时间 Δ内结束事件的概率随 着持续时间的增长而 增大;如果得到参数 的估计量为负,则反
§ 8 持续时间数据模型 Duration Data Model
一、计量经济学中持续时间分析问题的提出 二、Hazard比率与Hazard比率模型
一、计量经济学中持续时间分析问题的 提出
⒈ 经济生活中的持续时间问题
• 以某项活动的持续时间作为研究对象的经济问题。 • 失业问题 • 罢工问题 • 设备运行时间问题
wi Xi
对简化的对数似然函数求极大,得到关于参数估 计量的方程组,采用牛顿迭代方法求解方程组, 即得到参数估计量。
• 例如,对于生存函数服从韦伯分布的情况,建立 如下模型,并且假设在持续的时间内,Xi具有不 变的观测值。
i e Xi
等价的线性模型
wi p ln( i tt ) p(ln ti X i )
f (wi ) p exp (wi e wi )
S(wi ) exp (e wi )
• 采用最大似然法估计等价的线性模型。
dt
ln S(t) k t
S(t) e t
S(t) Ke t
因为 S(0) P(T 0) 1 ,得到K=1
这就是说t的生存函数S服从指数分布。 如何估计常数λ? 因为对于指数分布,有: E(t) 1
1 t
即为λ的最大似然估计量。其中的f由样本观测值计 算得到,于是得到Hazard比率的估计量。
⒋考虑两类样本数据的最大似然估计
• 必须将持续时间样本观测值分为两类,一类是对 已经结束的事件进行的调查,一类是对仍处于持 续过程中的事件进行的调查。对于前者,持续时 间的观测值是真实的;而对于后者,样本观测值 实际上是“归并”数据。
• Hazard比率模型的对数似然函数为:
ln L
ln f (t ( , p))
• 如何构造和求解Hazard比率模型,首先通过两个 简单的例子来说明。
⑴ Hazard比率为一个常数
• 假设Hazard比率为一个常数λ,即假设事件在t之 后的一个短时间内结束的概率是相同的,与已经
持续的时间无关。这种事件在实际中也是存在的, 被称为“无记忆”的过程。
• 那么即有:
微分方程的解
d ln S(t)
定义为生存函数
P(t T t T t)
事件在t之后的一个短时间Δ 内结束的概率
P(t T t T t)
(t) lim
0
lim F (t ) F (t)
0
S (t )
f (t) S(t)
• 称为Hazard 比率。事件 以该比率在 已经持续t时
间后结束。
(t) d ln S(t)