第十一讲 二元选择模型(高级计量经济学课件-对外经济贸易大学 潘红宇)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高级计量经济学-11
二元选择模型
对二元选择模型的解释
在大部分应用中关心的是xj 的变化对P(y=1|x)的影 响,边际影响(margin effect) 如果解释变量连续 p / x j g ( z ) j 如果解释变量离散,假设x1取值0或1 概率变化很简单,其他量保持不变 G(0+1+2 x2…+xk)-G(0+2 x2+…+xk)
潜在(latent)模型
假设有一个无法观测到的变量满足传统的线性模 型,例如y*表示已婚妇女的参加工作的效用。 y*=0+1x1+…+xk+u 如果y*>0,则y=1,否则等于0 假设u满足标准正态分布或标准逻辑分布并且与x 独立 p(y=1|x)=p(y*>0|x)=p(u>-(0+1x1+…+xk)|x)=1G(-(0+1x1+…+xk))= G(0+1x1+…+xk)
预测y=1的概率
P^(y=1|x)=G(b0+b1x1+…+bxk) Y^=1如果P^>0.5 Y^=0如果P^<=0.5
例2
选择公共交通还是开车上班 y=1选择开车 解释变量x是(乘公共交通需要的时间-开车需要的时间) -0.0644+0.0299Xi X=20时
ˆ dP / dx f (b1 b2 x)b2 f (0.0644 0.0299 * 20)(0.0299 ) 0.0104
ˆ ˆ wr0 1 p p 0.5 ˆ ˆ p p 0.5 ˆ p N1 / N
R 1 wr1 / wr0
2 p
推断和识别检验
检验模型中某个系数是否等于0,使用t检验。 检验某几个系数是否等于0 使用WALD检验,LM检验或LR检验
ˆ ˆ ˆ ( R q)' ( RVar( ) R' ) 1 ( R q) ˆ ˆ LR 2(ln L ln L )
i 1 N
xi' h( z i ' )
) (1 yi ) log(1 G (
i 1
N
xi' h( z i ' )
))
假设 V ( i ) k[exp( z i ' )] 2 ~ 一阶条件 L N [ yi F ( xi' )
i 1
~ f ( x ' ) exp( z i' ) xi ~ ~ F ( xi' )(1 F ( xi' ))
log L0 N1 log(N1 / N ) ( N N1 ) log(1 N1 / N )
2 McFaddenR 1 log L1 / log L0
拟和优度-(3)错判率
模型的错判率
1 N ˆ wr1 ( y i y i ) 2 N i 1 对照模型(只包括常数项)的错判率
家庭其他收入 教育程度 工作时间 工作时间2 年龄 小于6岁孩子 个数 常数项
-0.0034 0.038 0.039 -0.0006 -0.016 -0.262 0.586
-0.021 0.221 0.206 -0.0032 -0.088 -1.443 0.425
-0.012 0.131 0.123 -0.0019 -0.53 -0.868 0.27
潜在模型
如果有明确效用的化,整个PROBIT模型可以写成 y*=0+1x1+…+xk+u,u~N(0,1) y=1,如果y*>0 y=0,如果y*0
估计方法
似wk.baidu.com函数
L( ) P( y i 1 | xi ; ) yi P( y i 0 | xi ; )1 yi
例题
假设异方差 V ( i ) [exp(1kids 2 familyinco )] 2 me 存在异方差时的似然值=-487.6356 LR=2(-487.6356-(-490.8478))=6.424 LM=2.236(使用BHHH) W=6.533 2(2)临界值5.99(1%)
ˆ x=30时, P F (0.0644 0.0299 * 30) 0.798 预测结果y=1
例3
已婚女性是否参加工作的影响因素 抽样调查753个妇女,如果工作work=1 影响因素包括其他的收入;教育程度;结婚前的 工作时间;年龄;小于6岁的孩子的个数。
例3
是否工作 变量 线性概率模型 逻辑模型 PROBIT模型
二元选择模型的解释
三个二元选择模型的边际影响
( xi' ) ( xi' ) k xik L( x ) e k ( xi' )(1 ( xi' ) k xi' 2 xik (1 e )
' i xi'
xi' k (or 0) xik
R U
LM=g’Vg g是无约束模型的一阶条件,在满足约束情况下的取值,V 是无约束模型的参数的协方差阵在约束满足情况下的取 值
检验
检验是否有忽略掉的解释变量 H0: y*=x’+ H1: y*=x’+ z’ + 检验=0 使用LM检验 1)估计零假设成立时的模型 ˆ ˆ 1 G xi' G z i' u i 2)估计辅助回归模型 3)计算NR2=拟和值的平方和=N-RSS,(RSS是残差平方和)
拟和优度- (2)pseudo R-squared
Amemiya (1981)
1 pseudoR 1 1 2(log L1 log L0 ) / N
2
McFadden(1974) L1无约束模型,设计的模型;L0有约束模型,模型 中只包括常数项;N样本数,N1样本中被解释变 量观测值取1的个数。
检验-异方差
假设异方差
V ( i ) kh( z i' )
h(0)=1, 对于probit模型,k=1 对于logit模型k=2/3 常用的假设是指数形式
h [exp(1 z1i ... J z Ji )]
2
检验-异方差
似然函数
log L( ) yi log G (
二元选择模型的解释
LOGIT模型与PROBIT模型和线性概率模型系数的 比较(不包括常数项) 因为正态分布密度函数g(0)=0.4,标准逻辑密度函数 g(0)=0.25 , 所 以 比 较 他 们 对 概 率 的 影 响 时 把 PROBIT模型除以2.5,把逻辑模型除以4可以同 线性概率模型的系数进行比较。 或者PROBIT 模型系数乘以1.6与LOGIT模型进行 比较
估计方法
广义残差
y i F ( xi' ) f ( xi' ) F ( xi' )(1 F ( xi' ))
LOGIT模型的一阶和二阶条件
因为 一阶
f ( x ) ( x )(1 ( x )
' i ' i ' i
log L( ) N [ yi ( xi' )]xi i 1
二元选择模型的解释
( 1 ) g(z)是密度函数,总是大于0,所以参数的符号为正
说明增加发生的概率,为负说明减少发生的概率,但是 程度的大小还需要计算。 (2)随着解释变量的变化,密度函数的取值发生变化。对 probit模型来说,当z=0时,密度值最大大约是0.4,这 时选择y=1概率50%,这时x改变的边际效果最大 (3)另一方面如果z取值非常大(小),这时y=1的概率 几乎等于1,x的改变的边际效果很小,因为f(z)近似 等于0
' i
yi F ( x ) L ' ~ [ f ( xi ' ) exp( z i' ) z i ( xi' ) ' ~ ' ~ i 1 F ( xi )(1 F ( xi ))
N ' i
~
检验-异方差
异方差的LM检验 H0:=0 检验相当于做如下辅助回归
ˆi x ( i ) ( x ) z i' ui ˆ 1
G ' i G ' i
~
统计量NR2~2(J) R2是没有中心化的可决系数
例题
假设已婚妇女是否参加工作为例,共753人,428人参加工作 P(y=1|X)=G(常数,年龄,年龄的平方,家庭收入,教育, 孩子个数) 只包括常数项的似然值 L0=325*LN(325/753)+428*LN(428/753) =-514.8732 模型的似然值L1=-490.8478 LR=-2(-514.8732-(-490.8478))=48.05072~2(5)临界值 11.07
例3
1)三种方法系数符号相同。 2)系数大小比较,逻辑模型乘0.25,probit模型乘 0.4。 3)重要的区别是线性概率模型假设边际效应相同, 而逻辑模型和概率单位模型假设边际效应递减。
例3
根据线性概率模型,如果增加一个小孩,不管已经有了几 个小孩,也不管其他解释变量的取值,参加工作的概率 减少26.2%。 根据PROBIT模型,假设取其他解释变量为样本均值,当没 有孩子,增加1个时,参加工作概率减少33.4%,如果已 经有1个,又增加一个,参加工作概率减少22.5%。 使用PROBIT模型:其他因素不变时,年龄对参加工作概 率的边际影响 P(y=1|X)=g(0.27-0.012收入的均值+0.131教育程度均值 +0.123工作时间均值-0.0019工作时间均值2-0.53年龄 -0.868小孩个数均值)(-0.53)
二元选择模型的解释
例1 p(y=1|x)=G(0+1Z1+2Z21+3LOG(Z2)+ 4Z3) 变 量 Z1 改 变 一 个 单 位 , y=1 变 化 的 概 率 为 g(0+1Z1+2Z21+3LOG(Z3)+ 4Z3) ( 1 + 22 Z1) 变量Z2改变一个单位,y=1变化的概率为 g(0+1Z1+2Z21+3LOG(Z3)+ 4Z3)(3 /Z2)
N 2L H i (1 i ) xi xi ' ' i 1
二阶
拟和优度-(1)percent correctly predicted
计算概率G(0+1x1i+…+xki)如果概率>0.5那么估 计的y=1,否则等于0,把预测的yi与实际yi匹配的 次数占N的比率。
i 1 N
log L( ) y i log G ( x ) (1 y i ) log(1 G ( xi' ))
N
N
一阶条件
i 1
' i
i 1
y i F ( xi' ) log L( ) N [ f ( xi' )] xi ' ' i 1 F ( xi )(1 F ( xi ))
二元选择模型
对二元选择模型的解释
在大部分应用中关心的是xj 的变化对P(y=1|x)的影 响,边际影响(margin effect) 如果解释变量连续 p / x j g ( z ) j 如果解释变量离散,假设x1取值0或1 概率变化很简单,其他量保持不变 G(0+1+2 x2…+xk)-G(0+2 x2+…+xk)
潜在(latent)模型
假设有一个无法观测到的变量满足传统的线性模 型,例如y*表示已婚妇女的参加工作的效用。 y*=0+1x1+…+xk+u 如果y*>0,则y=1,否则等于0 假设u满足标准正态分布或标准逻辑分布并且与x 独立 p(y=1|x)=p(y*>0|x)=p(u>-(0+1x1+…+xk)|x)=1G(-(0+1x1+…+xk))= G(0+1x1+…+xk)
预测y=1的概率
P^(y=1|x)=G(b0+b1x1+…+bxk) Y^=1如果P^>0.5 Y^=0如果P^<=0.5
例2
选择公共交通还是开车上班 y=1选择开车 解释变量x是(乘公共交通需要的时间-开车需要的时间) -0.0644+0.0299Xi X=20时
ˆ dP / dx f (b1 b2 x)b2 f (0.0644 0.0299 * 20)(0.0299 ) 0.0104
ˆ ˆ wr0 1 p p 0.5 ˆ ˆ p p 0.5 ˆ p N1 / N
R 1 wr1 / wr0
2 p
推断和识别检验
检验模型中某个系数是否等于0,使用t检验。 检验某几个系数是否等于0 使用WALD检验,LM检验或LR检验
ˆ ˆ ˆ ( R q)' ( RVar( ) R' ) 1 ( R q) ˆ ˆ LR 2(ln L ln L )
i 1 N
xi' h( z i ' )
) (1 yi ) log(1 G (
i 1
N
xi' h( z i ' )
))
假设 V ( i ) k[exp( z i ' )] 2 ~ 一阶条件 L N [ yi F ( xi' )
i 1
~ f ( x ' ) exp( z i' ) xi ~ ~ F ( xi' )(1 F ( xi' ))
log L0 N1 log(N1 / N ) ( N N1 ) log(1 N1 / N )
2 McFaddenR 1 log L1 / log L0
拟和优度-(3)错判率
模型的错判率
1 N ˆ wr1 ( y i y i ) 2 N i 1 对照模型(只包括常数项)的错判率
家庭其他收入 教育程度 工作时间 工作时间2 年龄 小于6岁孩子 个数 常数项
-0.0034 0.038 0.039 -0.0006 -0.016 -0.262 0.586
-0.021 0.221 0.206 -0.0032 -0.088 -1.443 0.425
-0.012 0.131 0.123 -0.0019 -0.53 -0.868 0.27
潜在模型
如果有明确效用的化,整个PROBIT模型可以写成 y*=0+1x1+…+xk+u,u~N(0,1) y=1,如果y*>0 y=0,如果y*0
估计方法
似wk.baidu.com函数
L( ) P( y i 1 | xi ; ) yi P( y i 0 | xi ; )1 yi
例题
假设异方差 V ( i ) [exp(1kids 2 familyinco )] 2 me 存在异方差时的似然值=-487.6356 LR=2(-487.6356-(-490.8478))=6.424 LM=2.236(使用BHHH) W=6.533 2(2)临界值5.99(1%)
ˆ x=30时, P F (0.0644 0.0299 * 30) 0.798 预测结果y=1
例3
已婚女性是否参加工作的影响因素 抽样调查753个妇女,如果工作work=1 影响因素包括其他的收入;教育程度;结婚前的 工作时间;年龄;小于6岁的孩子的个数。
例3
是否工作 变量 线性概率模型 逻辑模型 PROBIT模型
二元选择模型的解释
三个二元选择模型的边际影响
( xi' ) ( xi' ) k xik L( x ) e k ( xi' )(1 ( xi' ) k xi' 2 xik (1 e )
' i xi'
xi' k (or 0) xik
R U
LM=g’Vg g是无约束模型的一阶条件,在满足约束情况下的取值,V 是无约束模型的参数的协方差阵在约束满足情况下的取 值
检验
检验是否有忽略掉的解释变量 H0: y*=x’+ H1: y*=x’+ z’ + 检验=0 使用LM检验 1)估计零假设成立时的模型 ˆ ˆ 1 G xi' G z i' u i 2)估计辅助回归模型 3)计算NR2=拟和值的平方和=N-RSS,(RSS是残差平方和)
拟和优度- (2)pseudo R-squared
Amemiya (1981)
1 pseudoR 1 1 2(log L1 log L0 ) / N
2
McFadden(1974) L1无约束模型,设计的模型;L0有约束模型,模型 中只包括常数项;N样本数,N1样本中被解释变 量观测值取1的个数。
检验-异方差
假设异方差
V ( i ) kh( z i' )
h(0)=1, 对于probit模型,k=1 对于logit模型k=2/3 常用的假设是指数形式
h [exp(1 z1i ... J z Ji )]
2
检验-异方差
似然函数
log L( ) yi log G (
二元选择模型的解释
LOGIT模型与PROBIT模型和线性概率模型系数的 比较(不包括常数项) 因为正态分布密度函数g(0)=0.4,标准逻辑密度函数 g(0)=0.25 , 所 以 比 较 他 们 对 概 率 的 影 响 时 把 PROBIT模型除以2.5,把逻辑模型除以4可以同 线性概率模型的系数进行比较。 或者PROBIT 模型系数乘以1.6与LOGIT模型进行 比较
估计方法
广义残差
y i F ( xi' ) f ( xi' ) F ( xi' )(1 F ( xi' ))
LOGIT模型的一阶和二阶条件
因为 一阶
f ( x ) ( x )(1 ( x )
' i ' i ' i
log L( ) N [ yi ( xi' )]xi i 1
二元选择模型的解释
( 1 ) g(z)是密度函数,总是大于0,所以参数的符号为正
说明增加发生的概率,为负说明减少发生的概率,但是 程度的大小还需要计算。 (2)随着解释变量的变化,密度函数的取值发生变化。对 probit模型来说,当z=0时,密度值最大大约是0.4,这 时选择y=1概率50%,这时x改变的边际效果最大 (3)另一方面如果z取值非常大(小),这时y=1的概率 几乎等于1,x的改变的边际效果很小,因为f(z)近似 等于0
' i
yi F ( x ) L ' ~ [ f ( xi ' ) exp( z i' ) z i ( xi' ) ' ~ ' ~ i 1 F ( xi )(1 F ( xi ))
N ' i
~
检验-异方差
异方差的LM检验 H0:=0 检验相当于做如下辅助回归
ˆi x ( i ) ( x ) z i' ui ˆ 1
G ' i G ' i
~
统计量NR2~2(J) R2是没有中心化的可决系数
例题
假设已婚妇女是否参加工作为例,共753人,428人参加工作 P(y=1|X)=G(常数,年龄,年龄的平方,家庭收入,教育, 孩子个数) 只包括常数项的似然值 L0=325*LN(325/753)+428*LN(428/753) =-514.8732 模型的似然值L1=-490.8478 LR=-2(-514.8732-(-490.8478))=48.05072~2(5)临界值 11.07
例3
1)三种方法系数符号相同。 2)系数大小比较,逻辑模型乘0.25,probit模型乘 0.4。 3)重要的区别是线性概率模型假设边际效应相同, 而逻辑模型和概率单位模型假设边际效应递减。
例3
根据线性概率模型,如果增加一个小孩,不管已经有了几 个小孩,也不管其他解释变量的取值,参加工作的概率 减少26.2%。 根据PROBIT模型,假设取其他解释变量为样本均值,当没 有孩子,增加1个时,参加工作概率减少33.4%,如果已 经有1个,又增加一个,参加工作概率减少22.5%。 使用PROBIT模型:其他因素不变时,年龄对参加工作概 率的边际影响 P(y=1|X)=g(0.27-0.012收入的均值+0.131教育程度均值 +0.123工作时间均值-0.0019工作时间均值2-0.53年龄 -0.868小孩个数均值)(-0.53)
二元选择模型的解释
例1 p(y=1|x)=G(0+1Z1+2Z21+3LOG(Z2)+ 4Z3) 变 量 Z1 改 变 一 个 单 位 , y=1 变 化 的 概 率 为 g(0+1Z1+2Z21+3LOG(Z3)+ 4Z3) ( 1 + 22 Z1) 变量Z2改变一个单位,y=1变化的概率为 g(0+1Z1+2Z21+3LOG(Z3)+ 4Z3)(3 /Z2)
N 2L H i (1 i ) xi xi ' ' i 1
二阶
拟和优度-(1)percent correctly predicted
计算概率G(0+1x1i+…+xki)如果概率>0.5那么估 计的y=1,否则等于0,把预测的yi与实际yi匹配的 次数占N的比率。
i 1 N
log L( ) y i log G ( x ) (1 y i ) log(1 G ( xi' ))
N
N
一阶条件
i 1
' i
i 1
y i F ( xi' ) log L( ) N [ f ( xi' )] xi ' ' i 1 F ( xi )(1 F ( xi ))