(离散选择模型)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
β2 +β3=0.832-0.481 =0.351 1990年后的边际储蓄倾向为0.832
四.虚拟变量之间的交互作用
如同定量变量一样,虚拟变量也能产生交互作用,例如,如果认为性别 和学历是影响保健支出的主要因素,则可以构建以下模型:
(10.1.6 Yi Y 1D1i 2 D2i D X i i ) D2i为学历虚 这里, 表示居民的保健消费支出, 为性别虚拟变量, i 0 1i 3
设定回归模型为:
(10.1.3) GDP D D D T t 0 1 1t 2 2t 3 3t 4 t
估计结果如下:
GDPt 13049.0 2125.3D1t 2700.3D2t 12747.4D3t 1362.1T et
目录
虚拟解释变量 线性概率模型 Logit 模型
线性概率模型
Probit 模型 三者的比较
例子:房地产类上市公司财务困境的预测
§10.1 虚拟解释变量
一. 测量截距的变动 假设农民接受的教育水平以及性别是影响收入的主要因素,虚拟变量 Di 表示性别,对于女性Di=1,对于男性Di =0。同时,以Yi表示农民的收入, Xi表示农民受教育的水平。农民收入回归模型:
例10-1下面以我国2000-2007年季度GDP数据为例来说明虚 拟变量如何度量截距的变化,图10.1是关于GDP的序列图 。
图10.1.1 GDP序列图
结合数据特征,我们首先定义季度虚拟变量。
1 (第二季度) 1 (第三季度) D1t D2t 0 (其他季度) 0 (其他季度) 1 (第四季度) D3t 0 (其他季度)
这一结果表明,分别来看,我国储蓄函数的截距和斜率在 2 R 0.996, DW 0.58, F 1896.54 1990年前后发生了结构变化。
对β1和β3的联合为0的原假设,我们使用约束的F检验。其约束 条件为 β1=β3 =0。记RSSr为有约束的残差平方和,RSSu为无 约束的残差平方和,构造并计算F统计量:
估计模型(10.1.4),结果如下:
Ct 1209.7 0.546GDP t 0.05GDP Dt et
t=(1.65)
(70.10)
(2.99)
R2 0.995, DW 0.37, F 2462.0
回归结果表明,估计的β2为0.05,其对应的t统 计量值为2.99,可以在5%的显著性水平上拒绝零 假设,因此,我国2000以前的边际消费倾向显著高 于2000以后的边际消费倾向,平均来说高0.05。
由于性别差异所导致男女收入的差异体现在截距上,因此,模型 (10.1.1)的虚拟变量描述了男女收入方程中的截距的变化。
对于类似模型(10.1.1)定义的虚拟变量,把虚拟变量取值为 0的一组称为基准组,而把取值为1的组称为对照组。对模 型(10.1.1) 也可以定义男性Di=1,女性Di=0。 这样变化后,请重写模型(10.1.2),并解释截距项的变 化。
参照虚拟变量的定义,你能分析虚拟变量的交互作用项如何保健支出的差异 Y 吗? i 0 1 D 1i 2 D2i 3 X i 4 D 1i D2 i i
(10.1.7)
Wooldridge(2000) 的一个例子:若一个人在工作 过程中使用了计算机,则虚拟变量 work=1 ,否则 work=0 ;若一个人在家使用计算机,则虚拟变量 home=1 ,否则 home=0 。利用 1989 年人口普查中 13379个样本,得到回归结果:
E(Yi ) 0 (1 pi ) 1 pi pi
E(Yi X i ) 0 1 X i = pi
如果我们称 Yi=1 的条件概率为成功的概率,则成 功的概率 p(Yi=1|Xi)=E(Yi|Xi) 是解释变量的线性函 数,因此,模型(10.2.1)被称为线性概率模型(linear probability model, LPM)
如果我们仍然假定随机误差项ε 的条件期望为0, 就可以得到: E(Yi X i ) 0 1 X i (10.2.2) 现在记 pi 为选择上大学的概率,即“ Yi=1”的概 率,则1- pi为选择不上大学的概率,即“Yi=0”的 概 率 , 这 样 , Yi 服 从 贝 努 里 二 项 概 率 分 布 , 即 p(Yi=1)=pi , p(Yi=0)=1-pi 。由数学期望的定义:
t= (6.83)
2
(1.02)
(1.29)
(6.05)
(16.88)
R 0.93, DW 0.52, F 89.42
由于代表第二季度和第三季度的虚拟变量的回归系 数在5%的显著性水平都不能拒绝零假设,说明第二 季度、第三季度的 GDP 与第一季度的 GDP 没有显著 差异 。因此,应把第一季度、第二季度、第三季度的GDP
二. 有关线性概率模型的问题
1、误差项ε不服从正态分布 在线性概率模型中,误差项εi和Yi一样,只取值0或1,εi服从正 态分布的假定就不成立。εi服从贝努里分布 。 在小样本下,不能使用通常的t统计量和F统计量对(10.2.1)的 OLS估计量进行统计推断,但在大样本下,仍可沿用正态性 假定下的方法。
模型中应该引入几个虚拟变量呢?
能否在模型(10.1.1)中再引进一个虚拟变量di,并将其定义为:女性di=0, 男性di=1?这样,回归模型转化为(10.1.3)
由于女性 Di =1,男性 Di =0,所以Di + di =1。 这样将导致完全多重共线性?(提示:可认为β0系数后面也有一个解释变 量,这个解释变量的取值都为1)。
从回归结果看,虚拟变量D3t对应的回归系数为11122.9 与理论预期一致且统计显著,其含义为,在其他条件 不变前提下,平均来说,第4季度比其余季度的GDP高 11122.9亿。
二. 测量斜率的变动
使用虚拟变量也可以测量回归模型中斜率系数的变化。例如,以国内生 产总值(GDP)代表收入,以居民消费支出代表消费 (C)。考虑我国的居民 收入对居民消费支出的影响。 我国居民的边际消费倾向可能大约在2000年开始发生显著的变化。
归并在一个组别中,仅需把季度因素分为第四季度和其他季 度,这样我们进而在模型中引入一个虚拟变量D3t。
得到的回归模型如下:
GDP T et t 14529.7 11122.9D3t 1370.1
t=(9.43)
2
(6.50)
(17.08)
R 0.93, DW 0.57, F 178.9
Yi 0 1 X i 2 Di i
(10.1.1)
如果我们假定模型(10.1.1)中随机误差项εi的条件期望为0,则男、女 收入的总体回归函数可表示为:
E (Yi Di 0, X i ) 0 1 X i (10.1.2) E ( Y D 1, X ) ( ) X i i i 0 2 1 i 可以看出,女性收入方程的截距为 β 0+β 2,男性收入方程的截距为β 0,
1978-1989年和1990-2006年的储蓄函数分别是: E ( St Dt 1, GDPt ) ( 0 1 ) ( 2 3)GDPt E ( St Dt 0, GDPt ) 0 2GDPt
(10.1.5 )
如果估计的β1显著不为0,则表明储蓄函数的截距 发生结构变化;如果估计的 β 3 显著不为 0 ,表明储 蓄函数的斜率系数发生结构变化;如果估计的β1, β3联合不为零,则表明储蓄函数的截距和斜率都发 生结构变化。
三. 使用虚拟变量检验模型的稳定性
以城乡居民储蓄存款余额代表居民储蓄 (S) ,以 GDP代表居民收入。
我 们 以 1 9 9 0 年 为 分 割 点 设 定 虚 拟 变 量 : Dt=1(1990年以前),Dt=0(1990年以后)
设定储蓄函数回归模型:
St 0 1Dt 2GDP t 3 Dt GDP t
ˆ 0.177work 0.070home 0.017work home 其余因素 log(wage) 0
t=(19.67)
(3.68)
(0.74)
结果表明:在工作中使用计算机但在家里不用计 算机的人比一个什么时候都不使用计算机的人,平 均工资高17.7%,一个在家里使用计算机但在工作 中不使用计算机的人,平均工资比根本就不使用计 算机的人高 7% ;在家里和在工作中都使用计算机 的人,比两种情况下都不使用计算机的人,平均工 资高26.4%。
可以使用通常的t统计量检验单个回归系数β1或β3的显著性, 而对于β1,β3的联合显著性,则使用通常受约束的F统计量。 模型(10.1.5)的估计结果如下:
t=(-9.65) (5.31) (57.83) (-2.18) St 14847.4 13615.4Dt 0.832GDPt 0.481Dt GDP et
定义虚拟变量:
1 (2000年以前) Di 0 (2000年以后)
设定回归模型:
Ct 0 1GDP t 2GDP Dt t
(10.1.4)
2000年前后,我国消费函数的回归函数为: E (Ct Dt 1, GDPt ) 0 ( 1 2)GDPt (10.1.5 ) E (Ct Dt 0, GDPt ) 0 1GDPt 从(10.1.5)式可以看出,2000年以前的边际消费倾 向为β1+ β2 ,2000年以后的边际消费倾向为β1 , 2000年前后消费函数的差异体现在斜率系数上。因 此,在回归模型中以虚拟变量和数值型解释变量相 乘的方式引入虚拟变量,可以用来度量回归模型斜 率系数的变化。
拟变量。若为女性 D1i =1,否则, D1i =0;若为大学本科及以上,D2i =1,否则, D2i =0。Xi 为其它影响保健支出的定量变量,如收入等。
该模型隐含的含义是:由于学历差异,男性在保健支出的差别与女性在保健 支出的差别是一样的。在许多应用中,这种假定很可能不成立。也许对于女 性而言,学历差异导致的保健支出的差异大于男性。也就是说,两个虚拟变 量D1 和D2 之间会相互影响。可以采用虚拟变量的交互作用项来反映这种影 响:
Hale Waihona Puke Baidu
§10.2 线性概率模型 一. 线性概率模型的定义
为了说明问题,先建立一个简单的回归模型:
(10.2.1) 其中,如果高中毕业后选择上大学, Y =1 ;如果高中毕业 i 0 1 i i i 后选择不上大学, Yi =0,为简化,这里仅写出一个解释变
Y X
量Xi,它表示家庭收入。
( RSSr RSSu ) / q (6.44 108 2.67 108 ) / 2 F 17.65 8 RSSu /(n k 1) 2.67 10 /(29 3 1)
由于计算得到的 F 统计量值 17.65>F0.05(2.25)=3.39 ,故拒绝原 假设,接受备择假设,我国储蓄函数在 1990 年前后发生显著 结构变化。 1990年以前的边际储蓄倾向为
2、线性概率模型的误差项εi也不满足同方差的假定
Yi 0 1 X i 2 Di 3di i
(10.1.3)
模型中应该引入几个虚拟变量呢?
当模型存在截距项时,如果定性虚拟变量含有m个分类,则 在模型中应引入m -1个虚拟变量。如果引入m个虚拟变量, 从而产生完全多重共线性, 这就是所谓的虚拟变量陷阱问题。 若将模型中的截距项去掉,如果定性虚拟变量含有m个分类, 则在模型中应引入m个虚拟变量。
四.虚拟变量之间的交互作用
如同定量变量一样,虚拟变量也能产生交互作用,例如,如果认为性别 和学历是影响保健支出的主要因素,则可以构建以下模型:
(10.1.6 Yi Y 1D1i 2 D2i D X i i ) D2i为学历虚 这里, 表示居民的保健消费支出, 为性别虚拟变量, i 0 1i 3
设定回归模型为:
(10.1.3) GDP D D D T t 0 1 1t 2 2t 3 3t 4 t
估计结果如下:
GDPt 13049.0 2125.3D1t 2700.3D2t 12747.4D3t 1362.1T et
目录
虚拟解释变量 线性概率模型 Logit 模型
线性概率模型
Probit 模型 三者的比较
例子:房地产类上市公司财务困境的预测
§10.1 虚拟解释变量
一. 测量截距的变动 假设农民接受的教育水平以及性别是影响收入的主要因素,虚拟变量 Di 表示性别,对于女性Di=1,对于男性Di =0。同时,以Yi表示农民的收入, Xi表示农民受教育的水平。农民收入回归模型:
例10-1下面以我国2000-2007年季度GDP数据为例来说明虚 拟变量如何度量截距的变化,图10.1是关于GDP的序列图 。
图10.1.1 GDP序列图
结合数据特征,我们首先定义季度虚拟变量。
1 (第二季度) 1 (第三季度) D1t D2t 0 (其他季度) 0 (其他季度) 1 (第四季度) D3t 0 (其他季度)
这一结果表明,分别来看,我国储蓄函数的截距和斜率在 2 R 0.996, DW 0.58, F 1896.54 1990年前后发生了结构变化。
对β1和β3的联合为0的原假设,我们使用约束的F检验。其约束 条件为 β1=β3 =0。记RSSr为有约束的残差平方和,RSSu为无 约束的残差平方和,构造并计算F统计量:
估计模型(10.1.4),结果如下:
Ct 1209.7 0.546GDP t 0.05GDP Dt et
t=(1.65)
(70.10)
(2.99)
R2 0.995, DW 0.37, F 2462.0
回归结果表明,估计的β2为0.05,其对应的t统 计量值为2.99,可以在5%的显著性水平上拒绝零 假设,因此,我国2000以前的边际消费倾向显著高 于2000以后的边际消费倾向,平均来说高0.05。
由于性别差异所导致男女收入的差异体现在截距上,因此,模型 (10.1.1)的虚拟变量描述了男女收入方程中的截距的变化。
对于类似模型(10.1.1)定义的虚拟变量,把虚拟变量取值为 0的一组称为基准组,而把取值为1的组称为对照组。对模 型(10.1.1) 也可以定义男性Di=1,女性Di=0。 这样变化后,请重写模型(10.1.2),并解释截距项的变 化。
参照虚拟变量的定义,你能分析虚拟变量的交互作用项如何保健支出的差异 Y 吗? i 0 1 D 1i 2 D2i 3 X i 4 D 1i D2 i i
(10.1.7)
Wooldridge(2000) 的一个例子:若一个人在工作 过程中使用了计算机,则虚拟变量 work=1 ,否则 work=0 ;若一个人在家使用计算机,则虚拟变量 home=1 ,否则 home=0 。利用 1989 年人口普查中 13379个样本,得到回归结果:
E(Yi ) 0 (1 pi ) 1 pi pi
E(Yi X i ) 0 1 X i = pi
如果我们称 Yi=1 的条件概率为成功的概率,则成 功的概率 p(Yi=1|Xi)=E(Yi|Xi) 是解释变量的线性函 数,因此,模型(10.2.1)被称为线性概率模型(linear probability model, LPM)
如果我们仍然假定随机误差项ε 的条件期望为0, 就可以得到: E(Yi X i ) 0 1 X i (10.2.2) 现在记 pi 为选择上大学的概率,即“ Yi=1”的概 率,则1- pi为选择不上大学的概率,即“Yi=0”的 概 率 , 这 样 , Yi 服 从 贝 努 里 二 项 概 率 分 布 , 即 p(Yi=1)=pi , p(Yi=0)=1-pi 。由数学期望的定义:
t= (6.83)
2
(1.02)
(1.29)
(6.05)
(16.88)
R 0.93, DW 0.52, F 89.42
由于代表第二季度和第三季度的虚拟变量的回归系 数在5%的显著性水平都不能拒绝零假设,说明第二 季度、第三季度的 GDP 与第一季度的 GDP 没有显著 差异 。因此,应把第一季度、第二季度、第三季度的GDP
二. 有关线性概率模型的问题
1、误差项ε不服从正态分布 在线性概率模型中,误差项εi和Yi一样,只取值0或1,εi服从正 态分布的假定就不成立。εi服从贝努里分布 。 在小样本下,不能使用通常的t统计量和F统计量对(10.2.1)的 OLS估计量进行统计推断,但在大样本下,仍可沿用正态性 假定下的方法。
模型中应该引入几个虚拟变量呢?
能否在模型(10.1.1)中再引进一个虚拟变量di,并将其定义为:女性di=0, 男性di=1?这样,回归模型转化为(10.1.3)
由于女性 Di =1,男性 Di =0,所以Di + di =1。 这样将导致完全多重共线性?(提示:可认为β0系数后面也有一个解释变 量,这个解释变量的取值都为1)。
从回归结果看,虚拟变量D3t对应的回归系数为11122.9 与理论预期一致且统计显著,其含义为,在其他条件 不变前提下,平均来说,第4季度比其余季度的GDP高 11122.9亿。
二. 测量斜率的变动
使用虚拟变量也可以测量回归模型中斜率系数的变化。例如,以国内生 产总值(GDP)代表收入,以居民消费支出代表消费 (C)。考虑我国的居民 收入对居民消费支出的影响。 我国居民的边际消费倾向可能大约在2000年开始发生显著的变化。
归并在一个组别中,仅需把季度因素分为第四季度和其他季 度,这样我们进而在模型中引入一个虚拟变量D3t。
得到的回归模型如下:
GDP T et t 14529.7 11122.9D3t 1370.1
t=(9.43)
2
(6.50)
(17.08)
R 0.93, DW 0.57, F 178.9
Yi 0 1 X i 2 Di i
(10.1.1)
如果我们假定模型(10.1.1)中随机误差项εi的条件期望为0,则男、女 收入的总体回归函数可表示为:
E (Yi Di 0, X i ) 0 1 X i (10.1.2) E ( Y D 1, X ) ( ) X i i i 0 2 1 i 可以看出,女性收入方程的截距为 β 0+β 2,男性收入方程的截距为β 0,
1978-1989年和1990-2006年的储蓄函数分别是: E ( St Dt 1, GDPt ) ( 0 1 ) ( 2 3)GDPt E ( St Dt 0, GDPt ) 0 2GDPt
(10.1.5 )
如果估计的β1显著不为0,则表明储蓄函数的截距 发生结构变化;如果估计的 β 3 显著不为 0 ,表明储 蓄函数的斜率系数发生结构变化;如果估计的β1, β3联合不为零,则表明储蓄函数的截距和斜率都发 生结构变化。
三. 使用虚拟变量检验模型的稳定性
以城乡居民储蓄存款余额代表居民储蓄 (S) ,以 GDP代表居民收入。
我 们 以 1 9 9 0 年 为 分 割 点 设 定 虚 拟 变 量 : Dt=1(1990年以前),Dt=0(1990年以后)
设定储蓄函数回归模型:
St 0 1Dt 2GDP t 3 Dt GDP t
ˆ 0.177work 0.070home 0.017work home 其余因素 log(wage) 0
t=(19.67)
(3.68)
(0.74)
结果表明:在工作中使用计算机但在家里不用计 算机的人比一个什么时候都不使用计算机的人,平 均工资高17.7%,一个在家里使用计算机但在工作 中不使用计算机的人,平均工资比根本就不使用计 算机的人高 7% ;在家里和在工作中都使用计算机 的人,比两种情况下都不使用计算机的人,平均工 资高26.4%。
可以使用通常的t统计量检验单个回归系数β1或β3的显著性, 而对于β1,β3的联合显著性,则使用通常受约束的F统计量。 模型(10.1.5)的估计结果如下:
t=(-9.65) (5.31) (57.83) (-2.18) St 14847.4 13615.4Dt 0.832GDPt 0.481Dt GDP et
定义虚拟变量:
1 (2000年以前) Di 0 (2000年以后)
设定回归模型:
Ct 0 1GDP t 2GDP Dt t
(10.1.4)
2000年前后,我国消费函数的回归函数为: E (Ct Dt 1, GDPt ) 0 ( 1 2)GDPt (10.1.5 ) E (Ct Dt 0, GDPt ) 0 1GDPt 从(10.1.5)式可以看出,2000年以前的边际消费倾 向为β1+ β2 ,2000年以后的边际消费倾向为β1 , 2000年前后消费函数的差异体现在斜率系数上。因 此,在回归模型中以虚拟变量和数值型解释变量相 乘的方式引入虚拟变量,可以用来度量回归模型斜 率系数的变化。
拟变量。若为女性 D1i =1,否则, D1i =0;若为大学本科及以上,D2i =1,否则, D2i =0。Xi 为其它影响保健支出的定量变量,如收入等。
该模型隐含的含义是:由于学历差异,男性在保健支出的差别与女性在保健 支出的差别是一样的。在许多应用中,这种假定很可能不成立。也许对于女 性而言,学历差异导致的保健支出的差异大于男性。也就是说,两个虚拟变 量D1 和D2 之间会相互影响。可以采用虚拟变量的交互作用项来反映这种影 响:
Hale Waihona Puke Baidu
§10.2 线性概率模型 一. 线性概率模型的定义
为了说明问题,先建立一个简单的回归模型:
(10.2.1) 其中,如果高中毕业后选择上大学, Y =1 ;如果高中毕业 i 0 1 i i i 后选择不上大学, Yi =0,为简化,这里仅写出一个解释变
Y X
量Xi,它表示家庭收入。
( RSSr RSSu ) / q (6.44 108 2.67 108 ) / 2 F 17.65 8 RSSu /(n k 1) 2.67 10 /(29 3 1)
由于计算得到的 F 统计量值 17.65>F0.05(2.25)=3.39 ,故拒绝原 假设,接受备择假设,我国储蓄函数在 1990 年前后发生显著 结构变化。 1990年以前的边际储蓄倾向为
2、线性概率模型的误差项εi也不满足同方差的假定
Yi 0 1 X i 2 Di 3di i
(10.1.3)
模型中应该引入几个虚拟变量呢?
当模型存在截距项时,如果定性虚拟变量含有m个分类,则 在模型中应引入m -1个虚拟变量。如果引入m个虚拟变量, 从而产生完全多重共线性, 这就是所谓的虚拟变量陷阱问题。 若将模型中的截距项去掉,如果定性虚拟变量含有m个分类, 则在模型中应引入m个虚拟变量。