第十章 定性选择模型(计量经济学,潘省初)
潘省初计量经济学中级教程习题参考答案
计量经济学中级教程习题参考答案第一章 绪论一般说来,计量经济分析按照以下步骤进行:(1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据 (4)估计参数 (5)假设检验 (6)预测和政策分析我们在计量经济模型中列出了影响因变量的解释变量,但它(它们)仅是影响因变量的主要因素,还有很多对因变量有影响的因素,它们相对而言不那么重要,因而未被包括在模型中。
为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。
时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。
横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。
如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。
估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。
在一项应用中,依据估计量算出的一个具体的数值,称为估计值。
如Y 就是一个估计量,1nii YYn==∑。
现有一样本,共4个数,100,104,96,130,则根据这个样本的数据运用均值估计量得出的均值估计值为5.107413096104100=+++。
第二章 经典线性回归模型判断题(说明对错;如果错误,则予以更正) (1)对 (2)对 (3)错只要线性回归模型满足假设条件(1)~(4),OLS 估计量就是BLUE 。
(4)错R 2 =ESS/TSS 。
(5)错。
我们可以说的是,手头的数据不允许我们拒绝原假设。
(6)错。
因为∑=22)ˆ(tx Var σβ,只有当∑2t x 保持恒定时,上述说法才正确。
应采用(1),因为由(2)和(3)的回归结果可知,除X 1外,其余解释变量的系数均不显着。
(检验过程略) (1) 斜率系数含义如下:: 年净收益的土地投入弹性, 即土地投入每上升1%, 资金投入不变的情况下, 引起年净收益上升%.733: 年净收益的资金投入弹性, 即资金投入每上升1%, 土地投入不变的情况下, 引起年净收益上升%.拟合情况:92.0129)94.01(*811)1)(1(122=----=-----=k n R n R ,表明模型拟合程度较高.(2) 原假设 0:0=αH备择假设 0:1≠αH检验统计量 022.2135.0/273.0)ˆ(ˆ===ααSe t 查表,447.2)6(025.0=t 因为t=<)6(025.0t ,故接受原假设,即α不显着异于0, 表明土地投入变动对年净收益变动没有显着的影响. 原假设 0:0=βH备择假设 0:1≠βH检验统计量 864.5125.0/733.0)ˆ(ˆ===ββSe t 查表,447.2)6(025.0=t 因为t=>)6(025.0t ,故拒绝原假设,即β显着异于0,表明资金投入变动对年净收益变动有显着的影响. (3) 原假设 0:0==βαH备择假设 1H : 原假设不成立 检验统计量查表,在5%显着水平下14.5)6,2(=F 因为F=47>,故拒绝原假设。
(完整word版)计量经济学中级教程(潘省初 清华大学出版社)课后习题答案
计量经济学中级教程习题参考答案第一章 绪论1.1 一般说来,计量经济分析按照以下步骤进行:(1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据(4)估计参数 (5)假设检验 (6)预测和政策分析 1.2 我们在计量经济模型中列出了影响因变量的解释变量,但它(它们)仅是影响因变量的主要因素,还有很多对因变量有影响的因素,它们相对而言不那么重要,因而未被包括在模型中。
为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。
1.3 时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。
横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。
如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。
1.4 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。
在一项应用中,依据估计量算出的一个具体的数值,称为估计值。
如Y 就是一个估计量,1nii YYn==∑。
现有一样本,共4个数,100,104,96,130,则根据这个样本的数据运用均值估计量得出的均值估计值为5.107413096104100=+++。
第二章 经典线性回归模型2.1 判断题(说明对错;如果错误,则予以更正) (1)对 (2)对 (3)错只要线性回归模型满足假设条件(1)~(4),OLS 估计量就是BLUE 。
(4)错R 2 =ESS/TSS 。
(5)错。
我们可以说的是,手头的数据不允许我们拒绝原假设。
(6)错。
因为∑=22)ˆ(tx Var σβ,只有当∑2t x 保持恒定时,上述说法才正确。
2.2 应采用(1),因为由(2)和(3)的回归结果可知,除X 1外,其余解释变量的系数均不显著。
计量经济学:模型总体设定
• 错例1:在一篇研究制度变迁与经济增长的关系的 博士论文中,建立了如下模型:
ln GDP t 0 1 ln MDIt t
其中,GDP表示国内生产总值,MDI表示制度变 迁。估计得到
ˆ 2.1 1
结论:制度变迁对于GDP的弹性系数为2.1。即制 度变迁变化1%,国内生产总值将变化2.1%。
• 基于时间序列数据的计量经济学模型由于存在非平稳性和 序列相关性,其统计分析理论方法得到了迅速的发展,一 方面为模型总体设定提供了强大的工具,另一方面又将模 型设定引入仅仅依赖数据的歧途。
• 对时间序列的非平稳性的识别与处理构成了数据关系转向 的主要内容; • 在非平稳随机过程之间,建立恒常的数据关系,成为数据 关系导向中时间序列分析的主要目标。
• 从这个意义上,单位根检验、因果关系检验和协整检验理 论,给出了总体回归模型设定的有效工具。
• 这就是计量经济学模型总体设定的“统计检验必要性”原 则。
五、计量经济学模型总体设定的“经济 主体动力学关系导向”原则
• 关于计量经济学模型总体设定的讨论,必须首先 回答:
– 要确定的是经济主体内在的本质意义的属性,还是经 济主体之间的关系意义的属性。 – 要确定的是主体之间的动力学关系,还是作为主体经 济活动结果的经济变量之间的数据关系。
1、模型总体设定
• 两种基本总体模型:
– 一是静态的总体模型。主要是描述经济因素之间不随 时间演变的静态平衡结构,力图揭示经济系统的平衡 关系法则,对应的总体是不随时间变化的静态随机分 布,通常利用截面数据来估计总体模型参数。 – 二是动态的总体模型。主要是描述持续演变的经济因 素之间的动态平衡结构,力图揭示经济系统的演变法 则,对应的总体是在时间维度上持续发生的随机过程, 通常利用时间序列数据来估计总体模型参数。
第10章 含定性变量的回归模型 《应用回归分析》 PPT课件
对一个取值为0和1的因变量, 误差项εi=yi-(β0+β1xi)只能取两个值:
当yi=1时, εi=1-β0-β1xi=1-πi 当yi=0时, εi=-β0-β1xi=-πi 显然,误差项εi是两点型离散分布,当然正态误差回归 模型的假定就不适用了。
Di
Di
1, 0,
当 xi 500 当 xi 500
8
§10.2自变量含定性变量的回归模型的应用
引入两个新的自变量
xi1=xi xi2=(xi-500)Di
这样回归模型转化为标准形式的二元线性回归模型:
yi=β0+β1xi1+β2xi2+εi (10.3)式可以分解为两个线性回归方程:
(10.3)
4.743
5.999E-02
F 79.059
Sig. .000
Coefficients
(Cons tant) X X2
Uns tandardized Co e ffi ci e nts
B
Std. E rror
5.895
.604
-3.954E-03
.001
-3.893E-03
.002
Sta nd ard i ze d Co e ffi ci e nts
Beta
.977 -.111 -.443
t -6.896 11.292
-.309 -1.187
Sig. .000 .000 .760 .247
从表10.4中看到,对β3显著性检验的显著性概率Sig=0.247, 应该接受原假设H0:β3=0,例10.1采用的回归模型(10.11)是
正确的。
第10章(离散选择模型) 计量经济学
R2 0.996, DW 0.58, F 1896.54
这一结果表明,分别来看,我国储蓄函数 的截距和斜率在1990年前后发生了结构变 化。
《计量经济学》,高教出版社, 2011年6月,王少平、杨继生、欧
对β1和β3的联合为0的原假设,我们使用约束的F检验。其约 束条件为 β1=β3 =0。记RSSr为有约束的残差平方和,RSSu为 无约束的残差平方和,构造并计算F统计量:
2011年6月,王少平、杨继生、欧
《计量经济学》,高教出版社, 2011年6月,王少平、杨继生、欧
可以使用通常的t统计量检验单个回归系数 β1或β3的显著性,而对于β1,β3的联合显著 性,则使用通常受约束的F统计量。模型 (10.1.5)的估计结果如下:
St 14847.4 13615.4 Dt 0.832GDPt 0.481Dt GDP et
( RSSr RSSu ) / q (6.44 108 2.67 108 ) / 2 F 17.65 8 RSSu /(n k 1) 2.67 10 /(29 3 1)
由于计算得到的F统计量值17.65>F0.05(2.25)=3.39 ,故拒绝原 假设,接受备择假设,我国储蓄函数在1990年前后发生显著 结构变化。 1990年以前的边际储蓄倾向为 β2 +β3=0.832-0.481 =0.351 1990年后的边际储蓄倾向为0.832
估计结果如下:
GDPt 13049.0 2125.3 D1t 2700.3 D2t 12747.4 D3t 1362.1 T et
t= (6.83) (1.)
潘省初计量经济学第3版
β 0 X 2t β1 X 2t X 1t ...... β K X 2t X Kt X 2tYt
......
......
......
......
β 0 X kt β1
X kt X 1t ...... β K
X Kt 2
X ktYt
按矩阵形式,上述方程组可表示为:
X'
1 Y1
X 1n
Y2
... ...
X
Kn
Yn
Y
即 ( X ' X )β X 'Y
β ( X X )1 X Y
14
三. 最小二乘估计量 β的性质 我们的模型为 Y X u
估计式为
Yˆ
Xβ
1.β 的均值
β ( X X )1 X Y
( X X )1 X ( Xβ u)
( X X )1 X Xβ ( X X )1 X u
收入不变的情况下,价格指数每上升一个点, 食品消费支出减少7.39亿元(0.739个billion)
3
例2:
Ct
β 1
β 2 Dt
β 3 Lt
ut
其中,Ct=消费,Dt=居民可支配收入 Lt=居民拥有的流动资产水平
β2的含义是,在流动资产不变的情况下,可支配收入变动 一个单位对消费额的影响。这是收入对消费额的直接影响。
为求Var( β ),我们考虑
E
β
β
β
β
β0 β0
E
β1 β1
...
β
0
β
0
β1 β1
...
βK
βK
β
K
βK
17
Var(β 0 )
本科经济计量学第10章(第PPT课件
Schwarz criterion
6.656207
F-statistic
26.09857
Prob(F-statistic)
0.000006
回归结果表明,通过工人工作权利法的州中,工会化程度
平均为10.415%,未实施工人权利法的州中,工会化程度平均
为19.8%。因为虚拟变量的系数显著不为零。所以通过工作权
>65
1983 2987 2993 3156 2706 2217
11557 29387 31463 29554 25137 14952
2230 3757 3821 3291 3429 2533
11589 33328 36151 35448 32988 20437
首先对数据进行整理,得到表10-2。
6
S.E. of regression
178.7693 Akaike info criterion 13.42239
Sum squared resid 287626.1 Schwarz criterion
13.54361
Log likelihood
-77.53432 F-statistic
58.36471
-9.391667
R-squared
0.352214
Adjusted R-squared 0.338719
S.E. of regression
6.368320
Sum squared resid 1946.664
Log likelihood
-162.4932
Durbin-Watson stat 0.847527
Dependent Variable: Y Method: Least Squares
潘省初计量经济学中级教程习题参考答案
计量经济学中级教程习题参考答案第一章 绪论1.1 一般说来,计量经济分析按照以下步骤进行:(1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据(4)估计参数 (5)假设检验 (6)预测和政策分析1.2 我们在计量经济模型中列出了影响因变量的解释变量,但它(它们)仅是影响因变量的主要因素,还有很多对因变量有影响的因素,它们相对而言不那么重要,因而未被包括在模型中。
为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。
1.3 时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。
横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。
如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。
1.4 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。
在一项应用中,依据估计量算出的一个具体的数值,称为估计值。
如Y 就是一个估计量,1n ii Y Y n ==∑。
现有一样本,共4个数,100,104,96,130,则根据这个样本的数据运用均值估计量得出的均值估计值为5.1074130********=+++。
第二章 经典线性回归模型2.1 判断题(说明对错;如果错误,则予以更正)(1)对(2)对(3)错只要线性回归模型满足假设条件(1)~(4),OLS 估计量就是BLUE 。
(4)错R 2 =ESS/TSS 。
(5)错。
我们可以说的是,手头的数据不允许我们拒绝原假设。
(6)错。
因为∑=22)ˆ(t x Var σβ,只有当∑2t x 保持恒定时,上述说法才正确。
2.2 应采用(1),因为由(2)和(3)的回归结果可知,除X 1外,其余解释变量的系数均不显著。
计量经济学 第三版 (潘省初 著) 人民大学出版社 课后答案--第8章_课后答案
ˆ 代替方程右端的Y t ,D t ,进行OlS回归, 第二步:在原结构方程中用 Yt 、 D t
即估计
ˆ + β2C Ct = β0 + β1 D t ˆ + α2R It = α0 + α1 Y t
t-1
+ u +ν t
t
t-1
8.7
(1)本模型中 K=10,G=4。不难看出,各方程中“零约束”的数目都大于
案 网
co
C1 C n I1 Yi= In M1 M n
1 1 0 Z 1i = 0 0 0
0 0 I0 Z 6i = I n1 0 0
0 0 0 Z 7i = 0 1 1
da
+ u
t t-1
方程(1): 变量个数 m1=2, k-m1=3>G-1=2,因而为过度识别.
后 答
+ν t
t-1
ww
,C
t-1
(2) 第一步:进行简化式回归,要估计的方程是: Y t = П 10 +П 11 T t +П 12 C t-1 +П 13 R t-1 +П 14 G t +П 15 X t +ν 1t
D t = П 20 +П 21 T t +П 22 C t-1 +П 23 R t-1 +П 24 G t +П 25 X t +ν 2t
w.
Tt; .
本科计量第七版习题参考答案
第六章动态经济模型:自回归模型和分布滞后模型6.1 (1)错。
(2)对。
(3)错。
估计量既不是无偏的,又不是一致的。
(4)对。
(5)错。
将产生一致估计量,但是在小样本情况下,得到的估计量是有偏的。
(6)对。
6.2对于科克模型和适应预期模型,应用OLS法不仅得不到无偏估计量,而且也得不到一致估计量。
但是,部分调整模型不同,用OLS法直接估计部分调整模型,将产生一致估计值,虽然估计值通常是有偏的(在小样本情况下)。
6.3科克方法简单地假定解释变量的各滞后值的系数(有时称为权数)按几何级数递减,即:Yt=α+βXt÷β λ Xt-ι ÷β λ2χt.2 +...+ ut其中O<λ<l0这实际上是假设无限滞后分布,由于0<入<1, X的逐次滞后值对Y的影响是逐渐递减的。
而阿尔蒙方法的基本假设是,如果Y依赖于X的现期值和若干期滞后值, 则权数由一个多项式分布给出。
由于这个原因,阿尔蒙滞后也称为多项式分布滞后。
即在分布滞后模型工=α + β0X t + B1X—+∙∙∙ ++ %中,假定:βi =tz0 +tz1z + a2i2 H ------ F a p i p其中P为多项式的阶数。
也就是用一个P阶多项式来拟合分布滞后,该多项式曲线通过滞后分布的所有点。
6.4(1)估计的Y值是非随机变量X1和X2的线性函数,与扰动项v无关。
(2)与利维顿方法相比,本方法造成多重共线性的风险要小一些。
6.5(1)M∣= aγxγ2+ βλγλY t-∕3lχl(l-χ2)Y l.l+ β2γ2R t-β2r2(1 -∕1)R t.l ÷(2 - ∕l—χ2)μt-∖-(1-∕ι )(1-Yι)M t_2÷[u t—(2 —∕1-χ2)〃1 ÷(I -∕ι )(1-Yz )u t-21 其中&)是a、为和72的函数。
(2)第(1)问中得到的模型高度参数非线性,它的参数需采用非线性回归技术来估计。
计量经济学 第三版 (潘省初 著) 人民大学出版社 课后答案--第5章_课后答案
这是因为变量有效灌溉面积、施肥量与播种面积间有较强的相关性,所以方程 存在多重共线性。现在我们看看各解释变量间的相关性,相关系数矩阵如下:
案 网
X1
1 0.896 0.880 0.715
X2
0.896 1
X3
0.880
后 答
0.895 1
da
0.883 1
0.895
0.685
我们可以通过对变量 X2 的变换来消除多重共线性。 令 X22=X2/X3 (公斤/亩) , 这样就大大降低了施肥量与面积之间的相关性,用变量 X22 代替 X2,对模型重 新回归,结果如下:
解决办法:从模型中去掉解释变量 A,就消除了完全多重共线性问题。 5.7 (1)若采用普通最小二乘法估计销售量对广告宣传费用的回归方程,则系
2
kh
da
课
后 答
w.
案 网
co
m
1.543<DW´= 1.75 <2
数的估计量是无偏的,但不再是有效的,也不是一致的。 (2)应用 GLS 法。设原模型为 y i 0 1 xi u i (1)
行了实验。
(2)结果基本相同。第二个模型三个参数中的两个的标准误差比第一个模型低, 可以认为是改善了第一个模型存在的异方差性问题。 5.11 我们有
用自由度(25,25)查 F 表,5%显著性水平下,临界值为:Fc=1.97。 因为F=2.5454>Fc=1.97,故拒绝原假设原假设H 0 : 1 3 。
t: (11.45) (74.82)
DW=1.15
DW=1.15,查表(n=19,k=1,α=5%)得d L =1.18。 DW=1.15<1.18
C t -ρC t-1 = α(1-ρ)+β(Y t -ρY t-1 )+(u t -ρu t -1 )
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t-Statistic
-2.65 3.25 3.08 0.02
p-Value
0.01 0.00 0.00 0.98
Observations:30 R 2 = 0.58 2 Adjusted R = 0.53 Residual Sum of Squares =3.15 F-statistic = 11.87
尽管因变量在这个二元选择模型中只能取两个值: 0或1,可是该学生的的拟合值或预测值为0.8。我们 将该拟合值解释为该生决定读研的概率的估计值。因 此,该生决定读研的可能性或概率的估计值为0.8。 需要注意的是,这种概率不是我们能观测到的数字, 能观测的是读研还是不读研的决定。 对斜率系数的解释也不同了。在常规回归中,斜 率系数代表的是其他解释变量不变的情况下,该解释 变量的单位变动引起的因变量的变动。而在线性概率 模型中,斜率系数表示其他解释变量不变的情况下, 该解释变量的单位变动引起的因变量等于1的概率的 变动。
如表10-2所示,INCOME的斜率估计值为正,且 在1%的水平上显著。年龄和性别不变的情况下,收入 增加1000元,选择候选人甲的概率增加0.0098。 AGE的斜率估计值也在1%的水平上显著。在收入 和性别不变的情况下,年龄增加1岁,选择候选人甲的 概率增加0.016。MALE的斜率系数统计上不显著,因 而没有证据表明样本中男人和女人的选票不同。 我们可以得出如下结论:年老一些、富裕一些的选 民更喜欢投票给候选人甲。 表10-3给出CAND1的拟合值,每个大于等于0.5的 拟合值计入CAND1为1的预测,而小于0.5的拟合值则 计入CAND1为0的预测。
CAND1i 0 1INCOMEi 2 AGEi 3MALEi ui ( 10.6) 其中: 1 如果第i个选民投候选人甲的票
CAND1i 0 如果第i个选民不投候选人甲的票
INCOME i 第i个选民的家庭收入(单位:千美元)
AGEi 第i个选民的年龄
结合(10.9)式,对于logit模型,有: k pi log 0 ij X ij 1 pi j 1 上式的左端是机会(odds)的对数,称为对数机 会比率(log-odds ratio),因而上式表明对数机会 比率是各解释变量的线性函数,而对于线性概率模 型, pi为各解释变量的线性函数。 如果(10.9)式中 ui 服从正态分布,我们得到的 是probit模型(或normit模型),在这种情况下,累 积分布函数为: zi / 1 t2 F ( zi ) exp( )dt (10.12) 2 2
其中:
1 Yi 0
(10.2)
第i个学生拿到学士学位后三年内去读研 该生三年内未去读研
GPAi 第i个学生本科平均成绩
INCOMEi 第i个学生家庭年收入(单位:千美元)
设回归结果如下(所有系数值均在10%水平统计 上显著):
ˆ 0.7 0.4GPA 0.002 INCOME Y i i i
(10.9)式中F的函数形式取决于有关扰动项u的假 设,如果 ui 的累积分布是logistic分布,则我们得到 的是logit模型。在这种情况下,累积分布函数为:
exp( zi ) F ( zi ) 1 exp( zi )
因此
(10.11)
F ( zi ) log zi 1 F ( zi )
线性概率模型存在的问题
(1)线性概率模型假定自变量与Y=1的概率之间存 在线性关系,而此关系往往不是线性的。 (2)拟合值可能小于0或大于1,而概率值必须位于 0和1的闭区间内。 回到有关读研的例子。假设学生乙的GPA为4.0, 家庭收入为20万美元,则代入(10.3)式,Y的拟合 值为
ˆ 0.7 0.4 4.0 0.002 200 1.3 Y
(4)此外,线性概率模型存在异方差性。扰动项 的方差是 p(1 p) ,这里 p 是因变量等于1的概率, 此概率对于每个观测值不同,因而扰动项方差将不 是常数,导致异方差性。可以使用WLS法,但不是 很有效,并且将改变结果的含义。
(5)最后一个问题是在线性概率模型中,R 2以及 R 2 不再是合适的拟合优度测度。事实上,此问题不仅是 线性概率模型的问题,而是所有定性选择模型的问题。 较好一点的测度是模型正确预测的观测值的百分比。 首先,我们将每一预测归类为1或0。如果拟合值大于 等于0.5,则认为因变量的预测值为1。若小于0.5,则 认为因变量的预测值为0。然后,将这些预测值与实际 发生的情况相比较,计算出正确预测的百分比:
( 10.3)
对每个观测值,我们可根据(10.3)式计算因变量 的拟合值或预测值。在常规OLS回归中,因变量的拟 合值或预测值的含义是,平均而言,我们可以预期的 因变量的值。但在本例的情况下,这种解释就不适用 了。假设学生甲的平均分为3.5,家庭年收入为5万美 元,Y的拟合值为
ˆ 0.7 0.4 3.5 0.002 50 0.8 ( Y 10.4)
正确预测的观测值数 正确预测观测值的百分比 100 观测值总数
需要指出的是,这个测度也不是很理想,但预测结 果的好坏,并非定性选择模型唯一关心的事,这类模 型常被用于研究影响人们进行某个决策的因素。让我 们来看一个竞选的例子。假设候选人甲和乙二人竞选 某市市长,我们可以用一个二元选择模型来研究影响 选民决策的因素,数据见表10-1,模型为:
无论是probit模型还是logit模型,极大似然函数 (10.10)都伴随着非线性估计方法,目前很多计量 经济分析软件已可用于probit和logit分析,用起来很 方便。 由于累积正态分布和累积logistic分布很接近, 只是尾部有点区别,因此,我们无论用(10.11)还 是(10.12),也就是无论用logit法还是probit法, 得到的结果都不会有很大不同。可是,两种方法得 到的参数估计值不是直接可比的。由于logistic分布 2 的方差为 3 ,因此,logit模型得到的的估计值必 须乘以 3 ,才能与probit模型得到的估计值相比较 (正态分布标准差为1)。
* Y 从(10.8)式可看出, i 乘上任何正数都不会改 * 变 Yi,因此这里习惯上假设 Var(ui) = 1,从而固定 Yi
的规模。由(10.7)和(10.8)式,我们有
Pi Pr ob(Yi 1) Pr ob[ui ( 0 j X ij )]
j 1
k
1 F [( 0 j X ij )]
若Yi* 0 其它
( 10.8)
这就是Probit和Logit方法的思路。Probit模型和 Logit模型的区别在于对(10.7)式中扰动项u的分布 的设定,前者设定为正态分布,后者设定为logistic分 布。
(10.7)式与线性概率模型的区别是,这里假设潜 变量的存在。例如,若被观测的虚拟变量是某人买车 还是不买车, Yi * 将被定义为“买车的欲望或能力”, 注意这里的提法是“欲望”和“能力”,因此(10.7) 式中的解释变量是解释这些元素的。
第二节 Probit模型和Logit模型
一.Pro另一类方法假定回归模型为
Yi 0 j X ij ui
* j 1
k
(10.7)
这里 Yi 不可观测,通常称为潜变量(latent variable)。我们能观测到的是虚拟变量:
*
1 Yi 0
1 男性 MALEi 0 女性
表10-2 两候选人选举线性概率模型回归结果 Dependent variable:CAND1
Variable
Constant INCOME AGE MALE
Coefficient
-0.51 0.0098 0.016 0.0031
Standard error
从表10-3可看出,30个观测值中,27个(或90%) 预测正确。选甲的14人中,12人(或85.7%)预测正 确。选乙的16人中,15人(或93.8%)预测正确。 是0.58,表明模型解释了因变量的58%的变动, 这与 90%的正确预测比例相比,低了不少。注意表10 R2 -3中有一些拟合值大于1或小于0。这是我们前面指 出的这类模型的缺点之一,这些拟合值是概率的估计 值,而概率永远不可能大于1或小于0。
(10.1)
这看上去与典型的OLS回归模型并无两样,但区 别是这里Y只取0和1两个值,观测值可以是个人、公 司、国家或任何其他横截面个体所作的决定。解释变 量中可以包括正常变量和虚拟变量。
下面用一个关于是否读研究生的例子来说明如何 解释线性概率模型的结果。模型为:
Yi 0 1GPAi 2 INCOMEi ui
j 1
k
其中F是u的累积分布函数。 如果u的分布是对称的,则 1 F ( z ) F ( z ) ,我们 可以将上式写成
P i F ( 0 j X ij )
j 1 k
(10.9)
我们可写出似然函数:
L P i (1 P i)
Yi 1 Yi 0
(10.10)
第一节 线性概率模型
二元选择模型如何估计呢?由于它看上去象是一 个典型的OLS回归模型,因而一个简单的想法是采用 OLS法估计。当然,对结果的解释与常规线性回归模 型不同,因为二元选择模型中因变量只能取两个预定 的值。线性概率模型(LPM)一般形式如下:
Yi 0 1 X1i 2 X 2i k X ki ui
( 10.5)
从而得到一个不可能的结果(概率值大于1)。假设 另有一个学生丙的GPA为1.0,家庭收入为5万元,则 其Y的拟合值为 -0.2,表明读研的概率为负数,这也 是一个不可能的结果。
解决此问题的一种方法是,令所有负拟合值都等 于0,所有大于1的拟合值都等于1。但也无法令人十 分满意,因为在现实中很少会有决策前某人读研的 概率就等于1的情况,同样,尽管某些人成绩不是很 好,但他去读研的机会仍会大于0。线性概率模型倾 向于给出过多的极端结果:估计的概率等于0或1。 (3) 另一个问题是扰动项不是正态分布的。事实 上,线性概率模型的扰动项服从二项分布。