4.4 计数数据模型-高级应用计量经济学课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– Hausman,Hall和Griliches(1984)提出了负二项回 归模型和Panel方法,
– Gourier,Monfort和Trogonon(1984)提出了仿最 大似然法。
• 其中,最先提出的泊松方法在研究计数数据模型 问题中应用得非常广泛。
二、计数过程及其分布
1、计数过程
• 计数过程的定义
5、负二项分布
(Negative Binomial distribution)
• 如果计数过程的均值小于方差,称为分散过度 (overdispersion)。
• 对于这样的计数过程,一般服从负二项分布。
X~NB(α,θ), 0<θ<1,α>0 。
P( X k) ( k) ( 1 ) ( )k ( )(k 1) 1 1
– 随机过程{N(t),t≥0} 被称为计数过程,N(t) 表示t时间前 发生的事件总量。
• 平稳性(Stationary)
– 在任何时间区间上,事件发生数量的分布只由时间区 间的长度决定。
i.d .
N(t2 s) N(t1 s) : N (t2) N (t1)
2、单变量泊松过程
• 在时间区间(t,t+Δt) 上,事件发生1次的概率与t 时间前事件发生的数量无关。
根据iid假设和大数定律,
1 n
Hn (0 )
1 n
n i 1
Hi (0)
p I
– I为Fisher信息矩阵
E[Hi (0) xi ] E[gi (0)gi (0)' xi ] I
根据中心极限定理
1 n
gn (0 )
d
N (0,
I)
因此, n(ˆ 0) dN(0, I 1)
• 以上结果表明, ˆ 是 0 的一致估计量 由于大样本方差矩阵达到Cramer-Rao下界, 估计量是大样本有效的 因此,正确设定的泊松回归模型满足
• 被解释变量Y i服从参数为λi的泊松分布,其中λi与 解释变量Xi存在某种关系。模型的初始方程为:
Pr ob(Yi
yi )
e i yi i yi !
, yi
0,1,2,....
ln i Xiβ
E Yi Xi Var Yi Xi i eXiβ
P(Yi
k
xi )
exp( exp(xi )) exp(kxi )
pk
(t)sk
dt
k 1
(
pk
(t
)
pk 1 (t ))s k
(
s)P(s,t)
P(s,t) exp[( s)t]
P( X
k)
(k !)1
dkP (ds)k
s0
(t)k
exp(t)
k!
3、泊松分布(Poisson distribution)
• 在泊松过程中,标准化时间区间长度为 t=1, 则可 以得到参数为λ的标准泊松分布
E(Yi ) ˆi Var(Yi ) (Yi ˆi )2 uˆi 2
uˆi 2 ˆi i
uˆi 2
ˆi
ˆi
i
如果α的估计趋近于1, 则不拒绝零假设。
如果α的估计趋近于1,β的估计 趋近于0,则不拒绝零假设。
• 拉格朗日乘子检验
– 泊松分布是负二项分布的一种特殊情况,如果对负二 项分布的某个参数施加一定的限制条件后,就能够得 到泊松分布。
n
yi log( yi / y)
i 1
该统计量被应用软件(例如Eviews等)普遍采用。 从直观看,如果完全拟合,R2=1。
• Rp2 统计量
n
yi
i
2
R
2 p
1
i1
ˆi
2
.
n
yi
y
i1 y
该统计量通过把泊松模型 同只有一种观察值的模型 相比较的方法,考察该模 型的拟合优度。但是这个 统计量有时为负,而且会 随变量的减少而变小。
k!
2、极大似然估计(MLE)
• 对数似然函数
n
l( ; y, x) [ exp(xi ) yi xi ln( yi !)] i 1
• 最大化似然函数,一阶条件:
l( ; y, x)
n
[ yi
i 1
exp(xi )]xi'
0
• Hessian矩阵:
H
(;
y,
x)
2l(; y, '
x)
• 在时间区间(t,t+Δt) 上,事件发生1次和0次的概 率分别为:
P{N(t,t t) 1} t (t)
P{N(t,t t) 0} 1 t (t)
PN(t,t t) 1 o(t)
即,在一个足够短的区间上,事件发生两次以上的概率趋 近于0。
PN(0,t t) k pk (t t)
在t时刻已经发生k次的概率乘 以(t+Δt)内发生0次的概率
pk (t t) pk (t)(1 t) pk1(t)t o(t)
pk (t t) pk (t) t( pk (t) pk1(t)) 0(t)
在t时刻已经发生 (k-1)次的概率乘 以(t+Δt)内发生1
次的概率
pk
(t
t) t
• 假设是Y计数变量,X是一组解释变量,建立如下 的经典线性模型:
Yi Xiβ i E(i ) 0 i 1,2, , n E(Yi Xi ) Xiβ i 1,2, , n
左端为非负整数,而右端并无限制,致使左右端矛盾。
• 如果对Y采用对数变换,可以解决非负限制问题。
log(Yi ) Xiβ i
– 一定时间内发生事故的次数 – 一年中公司申请的专利数量 – 一定时间内变换工作的次数 – 一定时间内到医院就诊的次数 – 家庭生育孩子的数量 – 学生在本科4年中不及格课程门数
• 以这些变量为被解释变量,研究它们的影响因素, 构成了计量经济学的一类问题。
2、计量经济学中的离散计数数据模型
• 以离散计数变量为被解释变量,研究它们的影响 因素,构成了计量经济学的一类问题。这类问题 的共同特点是:被解释变量观测值表现为非负整 数。
• G2统计量
n
n
G 2 di 2 Yi ln(Yi / ˆi )
• 被解释变量观测值的非负整数特征,计数数据中 零元素和绝对值较小的数据出现得较为频繁,而 且离散特征十分明显,以及模型的异方差特征, 决定了有必要引进描述非负整数特征的概率分布 建立离散计数数据模型。
• 七十年代末以来,许多学者在计数数据模型的处 理方法方面作出了较大贡献,包括:
– Gilbert(1979)提出了泊松回归模型,
6、泊松回归模型的拟合优度检验
• 由于泊松回归模型的条件均值非线性,且回归方 程存在异方差,所以它不能产生类似于经典线性 模型中的R2统计量。
• 提出了若干个替代性的统计量,用以衡量该模型 的拟合优度。
• Pseudo R-squared
n
yi log(ˆi / y) (ˆi y)
R2 i1
k
– 其中, 0 ,且当 0 ,k /
E(X ) 1
Var(
X
)
பைடு நூலகம்
(1
)2
• 当 , 0 ,分布为泊松分布
•
当
np , p
1 p
1 p
,分布为二项分布
•
当
( 1 ), 1
1
1
,分布为负二项分布
• 当 0, ,分布为对数分布
三、泊松回归模型
1、泊松回归模型(Poisson regression model)
– 则Z服从泊松分布,参数为
4、二项分布(Binomial distribution)
• 随机变量X服从参数为n和p的二项分布, X~B(n,p), 0<p<1, 即
P( X
k
)
n ()
p
k
(1
p)nk
k
均值和方差为:E(X)=np, Var(X)=np(1-p)
计数过程的均值大于方差,称为分散不足 (underdispersion)。
n
n(ˆ 0 ) d N (0, n[ exp(xi )xi' xi ]1) i 1
5、泊松回归模型的假设检验
• 泊松回归模型假定被解释变量的均值等于方差, 这是一个非常强的假设。
• 如何检验这个假设条件是否成立?主要有以下两 种:
– 基于回归的检验方法 – 拉格朗日乘子检验法
• 基于回归的分布检验 H 0 : Var[Yi ] E[Yi ], H1 : Var[Yi ] E[Yi ] (E[Yi ])
E(X ) (1 ) , Var(X ) (1 )
2
6、对数分布(Logarithmic distribution )
P( X k) k / k [log(1 )]1
方差和均值为:
E( X ) (1 )1 Var( X ) (1 )(1 )2
7、计数数据分布特征
• 如果以泊松分布作为标准,二项分布更集中于均 值,而负二项分布更为分散
• 所有分布都向左侧倾斜(skewed to the left), 说明在计数分布中,数值较小的数据出现的概率 较高。
8、Katz分布族
• 非负整数分布可以用递归概率比表示
P( X k) pk f (k, )
P( X k 1) pk1
• Katz分布族定义为
pk (k 1)
pk 1
– 在实际社会经济生活中,所谓“重复抽样”是不可能 实现的,只能根据对不同个体的一次抽样得到的序列 近似地判断是否服从泊松分布。
• 定理
令 X : Po(),Y : Po() 。当且仅当X与Y独立时,
随机变量 Z=X+Y是泊松分布。 – 当X与Y独立时,Z的概率生成函数为
E(s X Y ) E(s X )E(sY ) e e s s e( )( )s
– 构造LM统计量:
权重为1
n
wˆ i[(Yi ˆi )2 Yi ]
LM i1 n 2 wˆ i2ˆi2 i1
LM n(e'e Y ) /(2')1/ 2
• 例题:
– 采用基于回归的检验方法检验被解释变量的均值等于 方差,得到回归方程:
uˆi 2 0.3566ˆi
拒绝均值等于方差零假设。由简单统计分析得到,序 列UNPASS的均值为0.48,方差为0.9078,可以认为 该序列为分散过度型。应该采用负二项分布回归模型。
P( X k) ()k exp( )
k!
泊松分布的一个重要特征是均值和方差相等,称 为分散均衡 (equidispersion)。
E( X ) , Var( X )
• 泊松分布是计数过程最常见的一类分布。
– 所谓均值和方差相等,指的是,如果对同一个个体, 例如某个人一年内到医院就诊的次数,进行无数次重 复抽样,得到的计数数据序列的均值和方差相等。
在计数数据应用研究中难以实现,因为相当比例的Y的 观测值为0。
• 当y没有上界时,可以采用指数函数模型
E(Yi Xi ) exp(Xiβ)
非线性最小二乘方法(NLS)可以用于该模型的估计, 但效果不理想。因为NLS估计量非有效,除非y的方差 为常数,而实际上,所有计数数据的标准分布都意味着 异方差。
§4.4 离散计数数据模型 Models For Count Data
一、离散计数数据模型的提出 二、计数过程及其分布 三、泊松回归模型 四、负二项分布回归模型 五、零变换泊松模型
一、离散计数数据模型的提出
1、经济社会研究中的离散计数问题
• 计数变量是取值为非负整数的变量 • 许多经济、社会问题的描述变量都为计数变量
n i 1
exp( xi
)xi' xi
• 由于Hessian矩阵是负定的,对数似然函数是凹 函数,估计值 ˆ 的二阶条件满足
• 利用迭代算法,可以求解一阶条件 – 例如,Newton-Raphson方法
ˆt1 ˆt (H(ˆt ))1 g(ˆt )
g(.)是梯度向量
g( ) l( ; y, x)
• 模型正确设定,当且仅当存在 0 满足
n
n
f ( yi xi , 0 ) f0 ( yi xi )
i 1
i 1
假设模型正确设定,围绕 0 对 g(ˆ)进行
Taylor展开
g(ˆ) g(0) H(0)(ˆ 0)
由一阶条件可知,g(ˆ) 0
n
(ˆ
0
)
(
1 n
H
(0
))1
1 n
g (0 )
3、例题:本科不及格门数的原因分析
• 变量 – Unpass—不及格门数 – Score—高考成绩 – Stime—平均每周于用学习的时间 – Dsa—理、文科虚变量 – Dbody—健康状况虚变量
• 数据
• 数据
• 经典模型(OLS)
• Poisson回归模型
剔除不显著变量
4、估计量的性质
pk
(t)
(
pk
(t)
pk 1 (t ))
o(t)
t 0
dpk (t) dt
(
pk
(t)
pk 1 (t ))
• 使用初始条件 P0(0) 1 ,求解以上微分方程 • 利用概率生成函数得到泊松分布
P(s,t) E(sN(t) )
k 0
pk
(t )s k
dP(s,t) d
dt
k 0
– Gourier,Monfort和Trogonon(1984)提出了仿最 大似然法。
• 其中,最先提出的泊松方法在研究计数数据模型 问题中应用得非常广泛。
二、计数过程及其分布
1、计数过程
• 计数过程的定义
5、负二项分布
(Negative Binomial distribution)
• 如果计数过程的均值小于方差,称为分散过度 (overdispersion)。
• 对于这样的计数过程,一般服从负二项分布。
X~NB(α,θ), 0<θ<1,α>0 。
P( X k) ( k) ( 1 ) ( )k ( )(k 1) 1 1
– 随机过程{N(t),t≥0} 被称为计数过程,N(t) 表示t时间前 发生的事件总量。
• 平稳性(Stationary)
– 在任何时间区间上,事件发生数量的分布只由时间区 间的长度决定。
i.d .
N(t2 s) N(t1 s) : N (t2) N (t1)
2、单变量泊松过程
• 在时间区间(t,t+Δt) 上,事件发生1次的概率与t 时间前事件发生的数量无关。
根据iid假设和大数定律,
1 n
Hn (0 )
1 n
n i 1
Hi (0)
p I
– I为Fisher信息矩阵
E[Hi (0) xi ] E[gi (0)gi (0)' xi ] I
根据中心极限定理
1 n
gn (0 )
d
N (0,
I)
因此, n(ˆ 0) dN(0, I 1)
• 以上结果表明, ˆ 是 0 的一致估计量 由于大样本方差矩阵达到Cramer-Rao下界, 估计量是大样本有效的 因此,正确设定的泊松回归模型满足
• 被解释变量Y i服从参数为λi的泊松分布,其中λi与 解释变量Xi存在某种关系。模型的初始方程为:
Pr ob(Yi
yi )
e i yi i yi !
, yi
0,1,2,....
ln i Xiβ
E Yi Xi Var Yi Xi i eXiβ
P(Yi
k
xi )
exp( exp(xi )) exp(kxi )
pk
(t)sk
dt
k 1
(
pk
(t
)
pk 1 (t ))s k
(
s)P(s,t)
P(s,t) exp[( s)t]
P( X
k)
(k !)1
dkP (ds)k
s0
(t)k
exp(t)
k!
3、泊松分布(Poisson distribution)
• 在泊松过程中,标准化时间区间长度为 t=1, 则可 以得到参数为λ的标准泊松分布
E(Yi ) ˆi Var(Yi ) (Yi ˆi )2 uˆi 2
uˆi 2 ˆi i
uˆi 2
ˆi
ˆi
i
如果α的估计趋近于1, 则不拒绝零假设。
如果α的估计趋近于1,β的估计 趋近于0,则不拒绝零假设。
• 拉格朗日乘子检验
– 泊松分布是负二项分布的一种特殊情况,如果对负二 项分布的某个参数施加一定的限制条件后,就能够得 到泊松分布。
n
yi log( yi / y)
i 1
该统计量被应用软件(例如Eviews等)普遍采用。 从直观看,如果完全拟合,R2=1。
• Rp2 统计量
n
yi
i
2
R
2 p
1
i1
ˆi
2
.
n
yi
y
i1 y
该统计量通过把泊松模型 同只有一种观察值的模型 相比较的方法,考察该模 型的拟合优度。但是这个 统计量有时为负,而且会 随变量的减少而变小。
k!
2、极大似然估计(MLE)
• 对数似然函数
n
l( ; y, x) [ exp(xi ) yi xi ln( yi !)] i 1
• 最大化似然函数,一阶条件:
l( ; y, x)
n
[ yi
i 1
exp(xi )]xi'
0
• Hessian矩阵:
H
(;
y,
x)
2l(; y, '
x)
• 在时间区间(t,t+Δt) 上,事件发生1次和0次的概 率分别为:
P{N(t,t t) 1} t (t)
P{N(t,t t) 0} 1 t (t)
PN(t,t t) 1 o(t)
即,在一个足够短的区间上,事件发生两次以上的概率趋 近于0。
PN(0,t t) k pk (t t)
在t时刻已经发生k次的概率乘 以(t+Δt)内发生0次的概率
pk (t t) pk (t)(1 t) pk1(t)t o(t)
pk (t t) pk (t) t( pk (t) pk1(t)) 0(t)
在t时刻已经发生 (k-1)次的概率乘 以(t+Δt)内发生1
次的概率
pk
(t
t) t
• 假设是Y计数变量,X是一组解释变量,建立如下 的经典线性模型:
Yi Xiβ i E(i ) 0 i 1,2, , n E(Yi Xi ) Xiβ i 1,2, , n
左端为非负整数,而右端并无限制,致使左右端矛盾。
• 如果对Y采用对数变换,可以解决非负限制问题。
log(Yi ) Xiβ i
– 一定时间内发生事故的次数 – 一年中公司申请的专利数量 – 一定时间内变换工作的次数 – 一定时间内到医院就诊的次数 – 家庭生育孩子的数量 – 学生在本科4年中不及格课程门数
• 以这些变量为被解释变量,研究它们的影响因素, 构成了计量经济学的一类问题。
2、计量经济学中的离散计数数据模型
• 以离散计数变量为被解释变量,研究它们的影响 因素,构成了计量经济学的一类问题。这类问题 的共同特点是:被解释变量观测值表现为非负整 数。
• G2统计量
n
n
G 2 di 2 Yi ln(Yi / ˆi )
• 被解释变量观测值的非负整数特征,计数数据中 零元素和绝对值较小的数据出现得较为频繁,而 且离散特征十分明显,以及模型的异方差特征, 决定了有必要引进描述非负整数特征的概率分布 建立离散计数数据模型。
• 七十年代末以来,许多学者在计数数据模型的处 理方法方面作出了较大贡献,包括:
– Gilbert(1979)提出了泊松回归模型,
6、泊松回归模型的拟合优度检验
• 由于泊松回归模型的条件均值非线性,且回归方 程存在异方差,所以它不能产生类似于经典线性 模型中的R2统计量。
• 提出了若干个替代性的统计量,用以衡量该模型 的拟合优度。
• Pseudo R-squared
n
yi log(ˆi / y) (ˆi y)
R2 i1
k
– 其中, 0 ,且当 0 ,k /
E(X ) 1
Var(
X
)
பைடு நூலகம்
(1
)2
• 当 , 0 ,分布为泊松分布
•
当
np , p
1 p
1 p
,分布为二项分布
•
当
( 1 ), 1
1
1
,分布为负二项分布
• 当 0, ,分布为对数分布
三、泊松回归模型
1、泊松回归模型(Poisson regression model)
– 则Z服从泊松分布,参数为
4、二项分布(Binomial distribution)
• 随机变量X服从参数为n和p的二项分布, X~B(n,p), 0<p<1, 即
P( X
k
)
n ()
p
k
(1
p)nk
k
均值和方差为:E(X)=np, Var(X)=np(1-p)
计数过程的均值大于方差,称为分散不足 (underdispersion)。
n
n(ˆ 0 ) d N (0, n[ exp(xi )xi' xi ]1) i 1
5、泊松回归模型的假设检验
• 泊松回归模型假定被解释变量的均值等于方差, 这是一个非常强的假设。
• 如何检验这个假设条件是否成立?主要有以下两 种:
– 基于回归的检验方法 – 拉格朗日乘子检验法
• 基于回归的分布检验 H 0 : Var[Yi ] E[Yi ], H1 : Var[Yi ] E[Yi ] (E[Yi ])
E(X ) (1 ) , Var(X ) (1 )
2
6、对数分布(Logarithmic distribution )
P( X k) k / k [log(1 )]1
方差和均值为:
E( X ) (1 )1 Var( X ) (1 )(1 )2
7、计数数据分布特征
• 如果以泊松分布作为标准,二项分布更集中于均 值,而负二项分布更为分散
• 所有分布都向左侧倾斜(skewed to the left), 说明在计数分布中,数值较小的数据出现的概率 较高。
8、Katz分布族
• 非负整数分布可以用递归概率比表示
P( X k) pk f (k, )
P( X k 1) pk1
• Katz分布族定义为
pk (k 1)
pk 1
– 在实际社会经济生活中,所谓“重复抽样”是不可能 实现的,只能根据对不同个体的一次抽样得到的序列 近似地判断是否服从泊松分布。
• 定理
令 X : Po(),Y : Po() 。当且仅当X与Y独立时,
随机变量 Z=X+Y是泊松分布。 – 当X与Y独立时,Z的概率生成函数为
E(s X Y ) E(s X )E(sY ) e e s s e( )( )s
– 构造LM统计量:
权重为1
n
wˆ i[(Yi ˆi )2 Yi ]
LM i1 n 2 wˆ i2ˆi2 i1
LM n(e'e Y ) /(2')1/ 2
• 例题:
– 采用基于回归的检验方法检验被解释变量的均值等于 方差,得到回归方程:
uˆi 2 0.3566ˆi
拒绝均值等于方差零假设。由简单统计分析得到,序 列UNPASS的均值为0.48,方差为0.9078,可以认为 该序列为分散过度型。应该采用负二项分布回归模型。
P( X k) ()k exp( )
k!
泊松分布的一个重要特征是均值和方差相等,称 为分散均衡 (equidispersion)。
E( X ) , Var( X )
• 泊松分布是计数过程最常见的一类分布。
– 所谓均值和方差相等,指的是,如果对同一个个体, 例如某个人一年内到医院就诊的次数,进行无数次重 复抽样,得到的计数数据序列的均值和方差相等。
在计数数据应用研究中难以实现,因为相当比例的Y的 观测值为0。
• 当y没有上界时,可以采用指数函数模型
E(Yi Xi ) exp(Xiβ)
非线性最小二乘方法(NLS)可以用于该模型的估计, 但效果不理想。因为NLS估计量非有效,除非y的方差 为常数,而实际上,所有计数数据的标准分布都意味着 异方差。
§4.4 离散计数数据模型 Models For Count Data
一、离散计数数据模型的提出 二、计数过程及其分布 三、泊松回归模型 四、负二项分布回归模型 五、零变换泊松模型
一、离散计数数据模型的提出
1、经济社会研究中的离散计数问题
• 计数变量是取值为非负整数的变量 • 许多经济、社会问题的描述变量都为计数变量
n i 1
exp( xi
)xi' xi
• 由于Hessian矩阵是负定的,对数似然函数是凹 函数,估计值 ˆ 的二阶条件满足
• 利用迭代算法,可以求解一阶条件 – 例如,Newton-Raphson方法
ˆt1 ˆt (H(ˆt ))1 g(ˆt )
g(.)是梯度向量
g( ) l( ; y, x)
• 模型正确设定,当且仅当存在 0 满足
n
n
f ( yi xi , 0 ) f0 ( yi xi )
i 1
i 1
假设模型正确设定,围绕 0 对 g(ˆ)进行
Taylor展开
g(ˆ) g(0) H(0)(ˆ 0)
由一阶条件可知,g(ˆ) 0
n
(ˆ
0
)
(
1 n
H
(0
))1
1 n
g (0 )
3、例题:本科不及格门数的原因分析
• 变量 – Unpass—不及格门数 – Score—高考成绩 – Stime—平均每周于用学习的时间 – Dsa—理、文科虚变量 – Dbody—健康状况虚变量
• 数据
• 数据
• 经典模型(OLS)
• Poisson回归模型
剔除不显著变量
4、估计量的性质
pk
(t)
(
pk
(t)
pk 1 (t ))
o(t)
t 0
dpk (t) dt
(
pk
(t)
pk 1 (t ))
• 使用初始条件 P0(0) 1 ,求解以上微分方程 • 利用概率生成函数得到泊松分布
P(s,t) E(sN(t) )
k 0
pk
(t )s k
dP(s,t) d
dt
k 0