05:第五讲 模型设定和虚拟变量专题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
函数形式:(1)为什么采用对数模型?
对数模型测度的是百分比的变化
同时可以测度弹性关系
ln(y) 的分布比较狭窄,可以减少异常值。
缺点:(1)必须满足y > 0,;
(2)对y的预测变得很困难
11
函数形式:(2)二次型模型
对于模型:y = b0 + b1x + b2x2 + u b1单单表示x变化对y的影响,但事实上,二次型模型
33
问题
定性问题经常以二值信息形式出现:一个人是 男还是女,结婚与否,一个人有还没有一台电 脑等等。该问题可通过定义一个二值变量 (binary variable)或一个0-1变量来刻画,此 变量即为虚拟变量(dummy variable)
那么如何引入虚拟变量呢?
34
举例:一个虚拟变量设置
在该例中Βιβλιοθήκη Baiduy的预测值为
yˆ exp ˆ 2 2 exp lnˆ y
bk xk
E y | x 0 exp b0 b1x1 bk xk yˆ ˆ0 exp logˆ y
27
当因变量为log y时对y的预测:
(1)从logy对x1 ,x2 , ,xk的回归中得到拟合值logˆyi .
R2 1 SSR SST
n n
1
2 u
2 y
R2 1 SSR n k 1 SST n 1
ˆ 2
1
SST n 1
1 1 R2 n 1 n k 1
20
调整R方的作用:为在一个模型中另外增加自 变量施加了惩罚。 随着一个新的自变量加入回归方程,SSR下降, 但回归中的自由度df=n-k-1也下降。因此, SSR/(n-k-1)可能上升,也可能下降。
设置原理如下:
虚拟变量的取值
d
1 0
虚拟变量的作用:
举例,如类别变量
性别变量
某种因素起作用 该因素不起作用
35
设置方式
两种设置方式:
(1) yi 1di1 2 di2 ui
保留常数项和其中一个虚拟变量 (2) yi 1 2 di2 ui
log y b0 b1x1 bk xk u
y exp b0 b1x1 bk xk u exp u exp b0 b1x1 bk xk
E y | x E exp u exp b0 b1x1
E exp(u) exp( 2) if u ~ N 0, 2
logc1xj logc1 log xj
5
Beta 系数
标准化系数,只有标准化后才有大小比较的价 值
其基本原理是y,x均是去均值并除以各自的标 准差
则回归系数表示,x一个标准化变化对y一个标 准化变化的影响效应
6
7
Beta 系数
zy bˆ1z1 bˆ2 z2 ... bˆk zk error 其中,zy 表示 y的z-得分, z1 表示x1 的 z 得分,以此类推。而对于
(2)对每个观测i,都求出mˆ i = exp logˆy .
(3)在不设截距的情况下求y对mˆ i的回归,mˆ i的系数
(惟一的系数)就是0的估计值。
(4)对于给定的x1 ,x2 , ,xk的值,求出logˆyi :
logˆ y bˆ0 bˆ1x1 bˆ2 x2 bˆk xk
(5)利用yˆ ˆ0 exp logˆ y直接得到预测值yˆ.
25
通过增加回归变量来减少方差的误差
在回归中增加一个新的自变量会加剧多重共线 性问题;另一方面,从误差项中取出一些因素 作为解释变量可以减少误差方差。
应该将那些影响y而又与所有我们关心的自变 量都无关的自变量包括进来。
26
§ 5 对数模型中对y 的预测
如果是简单从exp(ln(y))来计算预测值y,则会出现低估
29
例6.8 对CEO薪水的预测
salˆary ˆ0 exp log salˆary
, 0.493, 0.243 salˆary,salary
2
salˆary ,salary
salary b0 b1sales b2mktval b3ceoten u R2 0.201
0 0,那么在其他条件相同的情况下,女人
总体上挣的钱要比男人少。
38
Example of 0 > 0
y y = (b0 + 0) + b1x
d=1
slope = b1
{0
d=0
b0
y = b0 + b1x
x
39
wage b0 b1male b2 female b2educ u
28
例6.7 对CEO薪水的预测
对样本中的每一个观测都求出mˆ exp lsalˆary ;
将salary对mˆ 进行回归(没有常数项)得ˆ0 1.117。
lsalˆary 4.504 0.163 log 5000 0.109 log 10000 0.0117 10 7.013 salˆary 1.117 exp 7.013 1240.967或1240967美元。
n 526, R2 0.364 是否存在性别歧视?
waˆge 7.10 2.51 female (0.21) (0.30)
n 526, R2 0.116
均值比较检验
注意t值检验,同时,通常的对一个常数和一个虚拟变量进行简单回归时, 是比较两组均值的直接方法,要通常的t统计量生效,我们还必须假定同 方差性,这就意味着,对男人和女人而言,工资的总体方程式相同的。
18
Atndrte对stndfnl的偏效应:
0.0067 0.00562.59 0.0078
其含义是:在priGPA的平均水平(2.59)上,atndrte 提高10个百分点,使stndfnl比期末考试平均分数高出 0.078倍。
1 bˆ1 bˆ6 2.59, bˆ1 1 bˆ6 2.59
E( yi | di2 0) 1
E( yi | di2 1) 1 2
36
举例:多虚拟变量
举例:季节变量有四个状态
1 春天 di1 0 其他季节
1 夏天 di2 0 其他季节
1 秋天 di3 0 其他季节
1 冬天 di4 0 其他季节
yi 1+2di2 3di3 4di4+ui
37
虚拟变量系数分析
通过例子的形式介绍虚拟变量系数的含义:
例子:
wage b0 0 female b1educ u
虚拟变量 0 E(wage female 1,educ) E(wage female 0,educ)
y x1
b1
b3 x2
一般,采用x2测度来衡量影响效应的大小
17
例6.3: 出勤率对期末考成绩的影响
atndrte系数为负,是否意味着听课对期末考试分数具有负 面影响? b1仅考虑了priGPA=0时的影响。
atndrte和priGPA•atndrte系数估计值t值不显著,是否意味 着两者对期末考试分数无影响? F检验的p值为0.014.
差值更困难,而且对于不含截距项的回归R2计算
方法没有一致同意的方法。
40
例7.1 是否存在性别歧视
waˆge 1.571.81 female 0.572educ 0.025exp er 0.141tenure
(0.72) (0.26)
(0.049) (0.012)
(0.021)
R2 0.061, R2 0.03 R2 0.148, R2 0.09
22
SSTsalary 391732982
SSTlsalary 66.72
23
§ 4 回归中控制过多的因素
在回归中会遗漏一个与自变量可能相关的重要 因素。
而且还有一种可能是,我们在一个回归分析中 控制了过多变量。
如果过分强调拟合优度,我们会在模型中无所 顾忌地控制一些不应该控制的因素,由此可能 导致回归错误。
24
在研究啤酒税对交通死亡率影响的回归模型中, 是否应该将人均啤酒消费量变量包括在模型之中?
在保持beercons不变的情况下,死亡率因tax提高 1个百分点而导致的差异。这一说法是否有意义?
由于female male 1, 模型同时引入male和female 将产生完全共线性,产生所谓的虚拟变量陷阱。
wage b1male b2 female b2educ u
将总截距去掉,将每一组的虚拟变量包括进来,
男人的截距是b1,女人的截距是b
,因为没有总
2
截距,所以不存在虚拟变量陷阱。但检验截距的
作为一个结论有: 在回归中增加一个新变量,当且仅当新变量的t 统计量在绝对值上大于1,调整R方才会有所 提高; 在回归中增加一组变量时,当且仅当这组新变 量联合显著性的F统计量大于1,调整R方才会 有所提高。
21
调整R2 在崁套模型选择中的应用
例6.4 CEO的酬金与企业业绩
R2 0.6211 R2 0.6226
j 1,..., k,有bˆ j (ˆ j / ˆ y )bˆ j 被称为
Beta系数
8
例 6.1 :污染对房价的影响
9
§ 2 函数形式:(1)对数模型
ln(y) = b0 + b1ln(x) + u b1 表示弹性
ln(y) = b0 + b1x + u b1 表示半弹性
y = b0 + b1ln(x) + u b1表示半弹性
的存在,使得这样的解释是错误的。
因为我们还必须考虑b2因素,主要原因在于
yˆ bˆ1 2bˆ2x x, so
yˆ x
bˆ1
2bˆ2 x
当
yˆ 0, x
有 x bˆ1
2bˆ2 ,
yˆ 达到最大值或最小值
对于 bˆ1 0 和 bˆ2 0 则 x * bˆ1 2bˆ2
32
前言
其中,如果我们把上述定性变量作为自变量 , 就是本章要讲的虚拟变量设置,并估计的问题。
如果我们把上述定性变量作为因变量,则为线 性概率模型,这些在微观计量经济学中用的比 较多,教材也阐述一些,但是本章不讲解该部 分的内容,因为如果讲清楚需要很足够时间, 如果提到当讲不清楚,不如不讲,等后面以后 再学之。
30
虚拟变量专题
31
前言
前面有关多元回归模型的因变量和自变量都具 有定量的 含义,如小时工资率、受教育年数, 大学平均成绩、企业销售水平等等。在经验分 析中,每个变量的大小都传递了有用的信息,
然而,经验分析还常常碰到定性的问题,如, 一个人的性别、种族、企业所属行业以及城市 所处的地理位置等等,当考虑这些因素作为变 量时,则必须采用虚拟变量设置。
第五讲 模型设定和虚拟变量专题
y = b0 + b1x1 + b2x2 + . . . bkxk + u
1
模型设定专题
2
§ 1 标准化Beta 系数
模型设定:
3
4
因变量或自变量以对数形式出现,改变度量单 位不会影响斜率系数,只会改变截距项。
logc1yi logc1 log yi
12
函数形式:(2)怎么描述下降效应?
13
14
函数形式:(2)怎么描述增长效应?
15
16
函数形式:(3)含交叉项模型
对于模型y = b0 + b1x1 + b2x2 + b3x1x2 + u b1单单表示x变化对y的影响,但事实上,含交叉项模
型的存在,使得这样的解释是错误的。
因为我们还必须考虑b3因素,主要原因在于
stndˆfnl b0 1 b6 2.59 atndrte b6 priGPA atndrte u b0 1 atndrte b6 priGPA 2.59 atndrte u
t1 0.0078 0.0026 3
19
§ 3 调整R2
41
例7.2 拥有计算机 与大学GPA
函数形式:(1)为什么采用对数模型?
对数模型测度的是百分比的变化
同时可以测度弹性关系
ln(y) 的分布比较狭窄,可以减少异常值。
缺点:(1)必须满足y > 0,;
(2)对y的预测变得很困难
11
函数形式:(2)二次型模型
对于模型:y = b0 + b1x + b2x2 + u b1单单表示x变化对y的影响,但事实上,二次型模型
33
问题
定性问题经常以二值信息形式出现:一个人是 男还是女,结婚与否,一个人有还没有一台电 脑等等。该问题可通过定义一个二值变量 (binary variable)或一个0-1变量来刻画,此 变量即为虚拟变量(dummy variable)
那么如何引入虚拟变量呢?
34
举例:一个虚拟变量设置
在该例中Βιβλιοθήκη Baiduy的预测值为
yˆ exp ˆ 2 2 exp lnˆ y
bk xk
E y | x 0 exp b0 b1x1 bk xk yˆ ˆ0 exp logˆ y
27
当因变量为log y时对y的预测:
(1)从logy对x1 ,x2 , ,xk的回归中得到拟合值logˆyi .
R2 1 SSR SST
n n
1
2 u
2 y
R2 1 SSR n k 1 SST n 1
ˆ 2
1
SST n 1
1 1 R2 n 1 n k 1
20
调整R方的作用:为在一个模型中另外增加自 变量施加了惩罚。 随着一个新的自变量加入回归方程,SSR下降, 但回归中的自由度df=n-k-1也下降。因此, SSR/(n-k-1)可能上升,也可能下降。
设置原理如下:
虚拟变量的取值
d
1 0
虚拟变量的作用:
举例,如类别变量
性别变量
某种因素起作用 该因素不起作用
35
设置方式
两种设置方式:
(1) yi 1di1 2 di2 ui
保留常数项和其中一个虚拟变量 (2) yi 1 2 di2 ui
log y b0 b1x1 bk xk u
y exp b0 b1x1 bk xk u exp u exp b0 b1x1 bk xk
E y | x E exp u exp b0 b1x1
E exp(u) exp( 2) if u ~ N 0, 2
logc1xj logc1 log xj
5
Beta 系数
标准化系数,只有标准化后才有大小比较的价 值
其基本原理是y,x均是去均值并除以各自的标 准差
则回归系数表示,x一个标准化变化对y一个标 准化变化的影响效应
6
7
Beta 系数
zy bˆ1z1 bˆ2 z2 ... bˆk zk error 其中,zy 表示 y的z-得分, z1 表示x1 的 z 得分,以此类推。而对于
(2)对每个观测i,都求出mˆ i = exp logˆy .
(3)在不设截距的情况下求y对mˆ i的回归,mˆ i的系数
(惟一的系数)就是0的估计值。
(4)对于给定的x1 ,x2 , ,xk的值,求出logˆyi :
logˆ y bˆ0 bˆ1x1 bˆ2 x2 bˆk xk
(5)利用yˆ ˆ0 exp logˆ y直接得到预测值yˆ.
25
通过增加回归变量来减少方差的误差
在回归中增加一个新的自变量会加剧多重共线 性问题;另一方面,从误差项中取出一些因素 作为解释变量可以减少误差方差。
应该将那些影响y而又与所有我们关心的自变 量都无关的自变量包括进来。
26
§ 5 对数模型中对y 的预测
如果是简单从exp(ln(y))来计算预测值y,则会出现低估
29
例6.8 对CEO薪水的预测
salˆary ˆ0 exp log salˆary
, 0.493, 0.243 salˆary,salary
2
salˆary ,salary
salary b0 b1sales b2mktval b3ceoten u R2 0.201
0 0,那么在其他条件相同的情况下,女人
总体上挣的钱要比男人少。
38
Example of 0 > 0
y y = (b0 + 0) + b1x
d=1
slope = b1
{0
d=0
b0
y = b0 + b1x
x
39
wage b0 b1male b2 female b2educ u
28
例6.7 对CEO薪水的预测
对样本中的每一个观测都求出mˆ exp lsalˆary ;
将salary对mˆ 进行回归(没有常数项)得ˆ0 1.117。
lsalˆary 4.504 0.163 log 5000 0.109 log 10000 0.0117 10 7.013 salˆary 1.117 exp 7.013 1240.967或1240967美元。
n 526, R2 0.364 是否存在性别歧视?
waˆge 7.10 2.51 female (0.21) (0.30)
n 526, R2 0.116
均值比较检验
注意t值检验,同时,通常的对一个常数和一个虚拟变量进行简单回归时, 是比较两组均值的直接方法,要通常的t统计量生效,我们还必须假定同 方差性,这就意味着,对男人和女人而言,工资的总体方程式相同的。
18
Atndrte对stndfnl的偏效应:
0.0067 0.00562.59 0.0078
其含义是:在priGPA的平均水平(2.59)上,atndrte 提高10个百分点,使stndfnl比期末考试平均分数高出 0.078倍。
1 bˆ1 bˆ6 2.59, bˆ1 1 bˆ6 2.59
E( yi | di2 0) 1
E( yi | di2 1) 1 2
36
举例:多虚拟变量
举例:季节变量有四个状态
1 春天 di1 0 其他季节
1 夏天 di2 0 其他季节
1 秋天 di3 0 其他季节
1 冬天 di4 0 其他季节
yi 1+2di2 3di3 4di4+ui
37
虚拟变量系数分析
通过例子的形式介绍虚拟变量系数的含义:
例子:
wage b0 0 female b1educ u
虚拟变量 0 E(wage female 1,educ) E(wage female 0,educ)
y x1
b1
b3 x2
一般,采用x2测度来衡量影响效应的大小
17
例6.3: 出勤率对期末考成绩的影响
atndrte系数为负,是否意味着听课对期末考试分数具有负 面影响? b1仅考虑了priGPA=0时的影响。
atndrte和priGPA•atndrte系数估计值t值不显著,是否意味 着两者对期末考试分数无影响? F检验的p值为0.014.
差值更困难,而且对于不含截距项的回归R2计算
方法没有一致同意的方法。
40
例7.1 是否存在性别歧视
waˆge 1.571.81 female 0.572educ 0.025exp er 0.141tenure
(0.72) (0.26)
(0.049) (0.012)
(0.021)
R2 0.061, R2 0.03 R2 0.148, R2 0.09
22
SSTsalary 391732982
SSTlsalary 66.72
23
§ 4 回归中控制过多的因素
在回归中会遗漏一个与自变量可能相关的重要 因素。
而且还有一种可能是,我们在一个回归分析中 控制了过多变量。
如果过分强调拟合优度,我们会在模型中无所 顾忌地控制一些不应该控制的因素,由此可能 导致回归错误。
24
在研究啤酒税对交通死亡率影响的回归模型中, 是否应该将人均啤酒消费量变量包括在模型之中?
在保持beercons不变的情况下,死亡率因tax提高 1个百分点而导致的差异。这一说法是否有意义?
由于female male 1, 模型同时引入male和female 将产生完全共线性,产生所谓的虚拟变量陷阱。
wage b1male b2 female b2educ u
将总截距去掉,将每一组的虚拟变量包括进来,
男人的截距是b1,女人的截距是b
,因为没有总
2
截距,所以不存在虚拟变量陷阱。但检验截距的
作为一个结论有: 在回归中增加一个新变量,当且仅当新变量的t 统计量在绝对值上大于1,调整R方才会有所 提高; 在回归中增加一组变量时,当且仅当这组新变 量联合显著性的F统计量大于1,调整R方才会 有所提高。
21
调整R2 在崁套模型选择中的应用
例6.4 CEO的酬金与企业业绩
R2 0.6211 R2 0.6226
j 1,..., k,有bˆ j (ˆ j / ˆ y )bˆ j 被称为
Beta系数
8
例 6.1 :污染对房价的影响
9
§ 2 函数形式:(1)对数模型
ln(y) = b0 + b1ln(x) + u b1 表示弹性
ln(y) = b0 + b1x + u b1 表示半弹性
y = b0 + b1ln(x) + u b1表示半弹性
的存在,使得这样的解释是错误的。
因为我们还必须考虑b2因素,主要原因在于
yˆ bˆ1 2bˆ2x x, so
yˆ x
bˆ1
2bˆ2 x
当
yˆ 0, x
有 x bˆ1
2bˆ2 ,
yˆ 达到最大值或最小值
对于 bˆ1 0 和 bˆ2 0 则 x * bˆ1 2bˆ2
32
前言
其中,如果我们把上述定性变量作为自变量 , 就是本章要讲的虚拟变量设置,并估计的问题。
如果我们把上述定性变量作为因变量,则为线 性概率模型,这些在微观计量经济学中用的比 较多,教材也阐述一些,但是本章不讲解该部 分的内容,因为如果讲清楚需要很足够时间, 如果提到当讲不清楚,不如不讲,等后面以后 再学之。
30
虚拟变量专题
31
前言
前面有关多元回归模型的因变量和自变量都具 有定量的 含义,如小时工资率、受教育年数, 大学平均成绩、企业销售水平等等。在经验分 析中,每个变量的大小都传递了有用的信息,
然而,经验分析还常常碰到定性的问题,如, 一个人的性别、种族、企业所属行业以及城市 所处的地理位置等等,当考虑这些因素作为变 量时,则必须采用虚拟变量设置。
第五讲 模型设定和虚拟变量专题
y = b0 + b1x1 + b2x2 + . . . bkxk + u
1
模型设定专题
2
§ 1 标准化Beta 系数
模型设定:
3
4
因变量或自变量以对数形式出现,改变度量单 位不会影响斜率系数,只会改变截距项。
logc1yi logc1 log yi
12
函数形式:(2)怎么描述下降效应?
13
14
函数形式:(2)怎么描述增长效应?
15
16
函数形式:(3)含交叉项模型
对于模型y = b0 + b1x1 + b2x2 + b3x1x2 + u b1单单表示x变化对y的影响,但事实上,含交叉项模
型的存在,使得这样的解释是错误的。
因为我们还必须考虑b3因素,主要原因在于
stndˆfnl b0 1 b6 2.59 atndrte b6 priGPA atndrte u b0 1 atndrte b6 priGPA 2.59 atndrte u
t1 0.0078 0.0026 3
19
§ 3 调整R2
41
例7.2 拥有计算机 与大学GPA