持续时间数据模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、Hazard比率与Hazard比率模型
⒈ Hazard比率
• 随机变量T具有连续的概率密度函数f(t),t是T的 一个观测值,即事件已经持续的时间。应该有:
P(T t ) F (t )
f (z)dz
0
定义为生存函数 事件在t之后的一个短时间Δ 内结束的概率
t
S (t ) 1 F (t ) P(T t )
d ln S (t ) (t ) dt
f (t ) S (t ) (t )
Hazard比率与t的概 率密度函数f、条件分 布函数F和生存函数S 之间的关系
ln S (t )
t
0
( z)dz (t )
令
S (t ) e
( t )
⒉ 不考虑外生变量的Hazard比率模型
S (t ) (t ) f (t ) 参数估计量 Hazard比率
• 下列分布经常被作为生存函数S(t)的分布
S (t ) e
( t ) p
韦伯分布
S (t ) ( p ln( t ))
S (t ) 1 (1 ( t ) p )
对数正态分布
对数逻辑分布
• 对于生存函数的每种分布,都有对应的Hazard比 率函数。
⒋考虑两类样本数据的最大似然估计
• 必须将持续时间样本观测值分为两类,一类是对 已经结束的事件进行的调查,一类是对仍处于持 续过程中的事件进行的调查。对于前者,持续时 间的观测值是真实的;而对于后者,样本观测值 实际上是“归并”数据。 • Hazard比率模型的对数似然函数为:
ln L
非归并观测值
ln f (t ( , p)) ln S(t ( , p))
归并观测值
f (t ) S (t ) (t )
ln L
非归并观测值
ln (t ( , p)) ln S(t ( , p))
所有观测值
⒌考虑外生变量的Hazard比率模型
– 失业已经持续的时间并不是失业持续时间的真实反映, 不能作为失业持续时间的观测值。 – 取得部分解释变量的样本观测值存在困难,因为它们 在持续时间内是变化的。 – 失业者关心的不是如何解释失业已经持续的时间,而 是希望知道在观测值t时刻之后的最短时间内能够重新 就业的可能性为多大。
• 首先从上述持续时间被解释变量计量经济学模型 的第3个特征入手; • 并假设解释变量的样本观测值在失业持续的时间 内是不变化的,即忽略上述第2个问题; • 然后再扩展到两类样本数据,即第1个问题。
S (t ) Ke
t
S (t ) e
t
因为 S (0) P (T 0) 1 ,到K=1
这就是说t的生存函数S服从指数分布。 如何估计常数λ? 因为对于指数分布,有:
1 t
E (t ) 1
即为λ的最大似然估计量。其中的f由样本观测值计 算得到,于是得到Hazard比率的估计量。
• 既然人们更关心事件在t之后的一个短时间Δ内结 束的可能性,而该可能性又可以通过Hazard比率 来描述,那么可以直接建立Hazard比率模型,估 计Hazard比率的参数,然后再通过积分得到生存 函数和条件分布函数。这就是持续时间被解释变 量计量经济学模型的总的研究思路。
• 如何构造和求解Hazard比率模型,首先通过两个 简单的例子来说明。
⑵Hazard比率为一个线性函数
(t ) t
1 (t ) ( z)dz t 2 t2 0
t
f (t ) S (t ) (t ) (t )e ( t )
如果得到参数β的估计 量为正,表示Hazard 比率随着持续时间的 增长而增大,也表示 在t之后的一个短时间 Δ内结束事件的概率随 着持续时间的增长而 增大;如果得到参数 的估计量为负,则反 之。
P(t T t T t )
(t ) lim
P(t T t T t )
F (t ) F (t ) lim 0 S ( t ) f (t ) S (t )
0
• 称为Hazard 比率。事件 以该比率在 已经持续t时
间后结束。
⑴ Hazard比率为一个常数 • 假设Hazard比率为一个常数λ,即假设事件在t之 后的一个短时间内结束的概率是相同的,与已经 持续的时间无关。这种事件在实际中也是存在的, 被称为“无记忆”的过程。 • 那么即有: 微分方程的解
d ln S (t ) dt
ln S (t ) k t
由t的密度函数和样本观测值,利用最大似然法, 可以得到参数α、β的估计量,进而得到Hazard 比率的估计量,使该持续时间计量经济学问题得 到解决。
⒊ 几种常用的Hazard比率模型
• 在上面的描述中,首先对Hazard比率作出假设, 导出生存函数和密度函数,然后利用最大似然法 估计参数。 • 如果人们并不首先对Hazard比率作出假设,而是 直接对生存函数所服从的分布作出假设,然后直 接估计该分布的参数,结果是相同的。 • 这就是实际中通常采用的思路。其过程如下:
• 对事件持续进行因果分析,则要引入影响持续时 间的各种因素。
• 但是,人们并不建立以持续时间为被解释变量的 模型,而是以Hazard比率为被解释变量,以影响 持续时间的各种因素为解释变量建立模型,而且 为了估计的方便,对模型的关系类型作出特定的 假设。
⒉ 持续时间被解释变量的计量经济学问题
• 以失业的持续时间分析为例,看看这类计量经济 学问题的特征。
• 以失业的持续时间t 作为被解释变量,以年龄、 受教育程度、家庭状况、工作经历、健康状况等 作为解释变量,建立如下失业模型:
Ti X i i
i 1,2, , n
• 模型的3个特点:
持续时间数据模型 Duration Data Model
一、计量经济学中持续时间分析问题的提出 二、Hazard比率与Hazard比率模型
一、计量经济学中持续时间分析问题的 提出
⒈ 经济生活中的持续时间问题
• 以某项活动的持续时间作为研究对象的经济问题。
• 失业问题 • 罢工问题
• 设备运行时间问题