第五章 多元回归模型的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

此系数也决定了对女人是否存在歧视(是否小于0)。 在图形上可表现为男性工资方程与女性工资方程之间的截 距迁移(intercept shift)。
m a le : w a g e 0 1 e d u c u fe m a le : w a g e 0 0 1 e d u c u
2 2
0 .0 0 5 6 p r iG P A * a tn d r te
如何解释出勤率atndrte对期末标准化考试stndfnl的影响?仅 看atndrte前的系数估计会错误地得出:听课对考试分数 具有负面影响。但这只是度量了priGPA为零时的影响, 这是没有意义的。只有代入有意义的priGPA值,才能得 到其偏效应,如代入均值2.59,影响为0.0078,这意味 着出勤率提高10个百分点,期末考试分数会提高0.078被 标准差。
5.2 虚拟变量的使用
使用多个虚拟变量:如果某定性信息具有多个类别(两个 以上),需使用多个虚拟变量。如工资方程中将人分成四 类:已婚男人、已婚女人、单身男人和单身女人。如何设 置虚拟变量?首先选择一个基组:单身男人,然后对剩下 的每一组都定义一个虚拟变量:marrmale、marrfem和 singfem。
当模型中因变量为对数形式,而自变量以二次形式出现时, 解释需要小心。 对数形式的二次型可说明弹性是非参数的。
5.1 一般线性模型
ˆ 当 1 为负,而 ˆ 2 为正时,二项式可以具有U形。 如房屋价格的回归模型:
ˆ lo g ( p r ic e ) 1 3 .3 9 0 .9 0 2 lo g ( n o x ) 0 .0 8 7 lo g ( d is t ) 0 .5 4 5 r o o m s 0 .0 6 2 r o o m s
2
0 .0 4 8 s tr a tio
含有交互作用项的模型:因变量对一个解释变 量的偏效应、弹性或半弹性可能受另一解释变 量的影响,这就需要交互项的使用。如:
price 0 1 sqrft 2 bdrm s 3 sqrft * bdrm s 4 bthrm s u
5.2 虚拟变量的使用
通过虚拟变量来反映序数信息:序数变量是 (ordinal variable)说明等级排序信息的变量。 如研究城市信用等级对市政债券利率(MBR) 的影响,信用等级变量CR取五级(0到4级)。 如何将序数变量CR放入模型中来解释MBR? 直接将其放入模型: M B R 0 1C R CR前的系数如何解释?各等级之间差距一样吗? 更好的方法是以0级为基组,设定四个虚拟变量:
5.2 虚拟变量的使用
一个虚拟变量的使用:如何在模型中引入二值信息?只 需当作自变量简单地加入模型,关键是对模型的解释。 例:
w a g e 0 1 e d u c 0 fe m a le u
虚拟变量female前的系数表示女性与男性在工资上差异:
0 E w age fem ale 1, educ E w age fem ale 0, educ
2 3
*
1
2
3
2
3
1
2
2
3
3
Y

1
1

1
2
X
2
2
来自百度文库
3
X
3

2
1
2
2
3
3
4
2
3
5.1 一般线性模型
对数函数形式:对以下模型的系数进行解释: ˆ lo g p r ic e 9 .2 3 0 .7 1 8 lo g n o x 0 .3 0 6 r o o m s Rooms前面的系数常解释为,多增加一个房间,结果会提 高30.6%,但这种解释是近似的,精确应该是:
log w age 0 1 m arrm ale 2 m arrfem 3 sin gfem
在方程中用虚拟变量来表示不同组的一般原则:如果回归模 型具有g组(类)的不同截距,需要在模型中包括g-1个虚 拟变量和一个截距。基组的截距是总体上的截距,某一组 的虚拟变量的系数表示该组与基组在截距上的差异。
Bdrms对price的偏效应为:
p r ic e bdrm s
2
3 s q r ft
5.1 一般线性模型
例:出勤率对期末标准化考试成绩的影响:
ˆ s tn d fn l 2 .0 5 0 .0 0 6 7 a tn d r te 1 .6 3 p r iG P A 0 .1 2 8 A C T 0 .2 9 6 p r iG P A 0 .0 0 4 5 A C T
n 4 0 9 , R 0 .3 3 0
2
在某些情况下,序数变量取值过多,可以将它分成几类。
5.2 虚拟变量的使用
虚拟变量的交互作用: 虚拟变量之间的交互作用:在前面工资的模型中,能否使 用两个虚拟变量female和married来反映四类不同的人 群?可以但需要加虚拟变量的交互项:
lo g w a g e 0 1 fem a le 2 m a rried 3 fem a le * m a rried
5.2 虚拟变量的使用
对定性信息的描述:定性信息通常以二值信息的 形式出现,这些信息可通过定义一个二值变量 (binary variable)或0-1变量来刻画,这些变量 常称为虚拟变量(dummy variable)。 在定义一个虚拟变量时,需决定赋予哪个事件的值 为1,哪个事件的值为0,一般采用的变量名就是 取值为1的事件,如female、male、married等。 为什么要用数值0和1来描述定性信息?使用0-1变 量来刻画定性信息的真正好处是,回归模型的参 数有十分自然的解释。
5.2 虚拟变量的使用
能否在模型中再加入反映男性的虚拟变量male? 不行:因为female+male=1,这意味着导致完全共线性,这 被称为虚拟变量陷进(dummy trap)。 有些研究者喜欢将总截距项去掉,将每一组的虚拟变量包括 进来:w a g e 0 m a le 0 fem a le 1 ed u c u 尽管此设置不会产生虚拟变量陷进,但没有截距项的回归会 带来许多困难(如R-平方的使用等),因此我们总是引 进一个总截距作为基组的截距。 通常的t检验可以对工资是否存在性别歧视进行检验。 在许多情形下,虚拟变量反映了个人或其他经济单位的选择 (而不是如性别等预先决定的变量),此时因果关系的问 题再度成为一个核心问题。
本质上线性的方程:那些通过变量替换可以变成为参数的 线性形式的模型。 设一般形式的模型为: Y F X , X , X , 如果能变成如下形式的模型:
2 3 k
f Y 1 2 g 2 X 2 , X 3 , , X k k g k X 2 , X 3 , , X k
各类人群的截距项分别为: 单身男性: 0 结婚男性: 单身女性: 0 1 结婚女性:
0 2
0 1 3
容许出现不同的斜率:有些情况下,想研究非虚拟的解释 变量对因变量的影响是否会在虚拟变量所表现的各组之 间存在差异,需要使用虚拟变量与该解释变量的交互项。 如如果想检验男人和女人在受教育回报上是否相同,模 型为
lo g w a g e 0 1 fem a le 2 ed u c 2 fem a le * ed u c
5.2 虚拟变量的使用
此模型意味着: lo g w a g e ed u c 男性: lo g w a g e ed u c 女性: 检验男人和女人在受教育的回报上相同的假设: H 0 : 2 检验男人和女人平均工资一样的假设: 0 : 1 0, 2 0 H 对美国数据实证结果为:
5.1 一般线性模型
使用对数形式的经验法则: 对金额表示的变量通常可以取对数。 对人数、雇员总数和学校注册人数等变量 可取对数。 以年度量的变量(受教育年限、工作经历、 任职年限和年龄等)通常用原形。 比例或百分比变量(如失业率、参与率、 拘捕率和通过率等)既可使用原形,也可 使用对数,但要区分百分点的变化与百分 比的变化。
* * 变换后的形式为:Y * 1 2 X 2 k X k 此模型本质上是线性的,因为它是关于参数是线性的。 一些常用的模型形式: 2 具有二次项: Y 1 2 X 2 3 X 2
对数形式:
log Y 1 2 log X 2 3 log X 3
5.1 一般线性模型
使用对数形式的局限: 变量不能取零或负值,有时可用: lo g 1 x 使用对数形式的因变量,难以预测原变量的值。 以y作为因变量的模型与以log(y)作为因变量的模 型,不能比较R2,没有直接方法比较两种模型 优劣
5.1 一般线性模型
含二次型的模型:为了描述递减或递增的边际效应,常 2 y 0 1 x 2 x u 使用二次型: ˆ ˆ 1 2 2 x 边际效应的形式为: 例工资方程: w age 3.73 0.298 exp er 0.006 exp er 2 意味着工作经历对工资具有递减的影响。 有时为了计算一般的边际效应,可代入样本中的x的平均 值、中位数或上下四分位数。 ˆ 在多数应用中,1 常为正,而 ˆ 2 为负,此时具有抛物线形 态,存在一个转折点: * ˆ ˆ x 1 / 2 2
M B R 0 1C R1 2 C R 2 3 C R 3 4 C R 4
5.2 虚拟变量的使用
例:相貌吸引力对工资的影响(Hamermesh and Biddle,AER,1994): 男人:lo g w a g e ˆ 0 .1 6 4 b e la v g 0 .0 1 6 a b v a v g o th e rs
第五章 多元回归模型的应用
本章主要讨论在多元回归模型的应用中,如何设定 函数形式、如何使用虚拟变量和如何对多个假设 进行检验。本章对实际的实证研究具有许多有益 的指导,特别是模型的设定上。 5.1 一般线性模型 5.2 虚拟变量的使用 5.3 多参数假设检验 5.4 变量选择方法
5.1 一般线性模型
0
0 .0 4 6
0 .0 3 3
n 7 0 0 , R 0 .4 0 3
2
女人:
lo g w a g e ˆ 0 0 .1 2 4 b e la v g 0 .0 3 5 a b v a v g o th e r s
0 .0 6 6
0 .0 4 9
ˆ ˆ % y 100 exp 2

1 3 5 .8 %
以上的调整对小的百分数变化而言不那么重要。 在应用研究中广泛应用对数形式的原因: 使用对数对系数的解释具有吸引力,且不受测度单位影 响 使用对数比使用水平的因变量更接近CLM假定,如缓和 异方差和偏态性。 取对数可缩小变量取值范围,减弱对异常值的敏感度。
5.1 一般线性模型
乘法模型:Y X X 模型四: Y X X 1 2 3 指数模型:Y e x p X X * 倒数模型: 半对数模型: lo g X Y 有交互项的模型: X X X X Y 在实证研究中模型函数的设定是非常重要的,采 用哪一种函数形式,必须了解每种函数形式的 特点,特别是模型中斜率系数的解释是否符合 所研究现象的特点。多种形式的结合常采用。 以下主要对常用的三种形式更详细讨论。
相关文档
最新文档