计量经济学导论:ch07 多元回归分析:虚拟变量
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
MBR b0 d1CR1 d2CR2 d3CR3 d4CR4 其他因素
d j系数含义可解释为:保持其他因素不变,信用等级为j
级的城市和信用等级为零级的城市之间在MBR上的差异。 其中,j 1, 2,3, 4。
问题:两种估计方法中,哪种方法更优?
16
例7.7 相貌吸引力对工资的影响
在劳动力市场中,除了存在性别歧视之外,还 可能存在相貌、身高等歧视。如果将样本相貌 分为三类:一般水平、低于一般水平、高于一 般水平,并以一般水平组作为基组,分别对男 人、女人估计方程得:
y = b0 + d0d + b1x + u
This can be interpreted as an intercept shift
If d = 0, then y = b0 + b1x + u If d = 1, then y = (b0 + d0) + b1x + u
The case of d = 0 is the base/benchmark group
虚拟变量与非虚拟变量之间也有交互作用,使 得出现不同的斜率。
female 0,男性组截距是b0,受教育的斜率是b1; female 1,女性组的截距是b0 d0,受教育的斜率是b1 d1。
24
25
我们关心的两个假设: ➢ 男性和女性受教育的回报是相同的。
H0:d1 0
➢ 受教育水平相同的男性和女性的平均工资相同。
将式7.13中的调整R 平方与把排名作为一个单独变量得到
的调整R 平方比较,前者是0.905,后者是0.836。所以,式
7.13 增加了回归的灵活性。 另外,式 7.13中所有其他变量都变得不显著了,联合显著性
检验给出P值为0.055;当 rank以其原有形式被包括在模型中时, 联合显著性检验的P值在小数点后四位数都是零。
女人组的情况如何? 通过这两个回归方程,你得到什么启示?
18
例7.8 法学院排名对起薪的影响
定义虚拟变量top10, r11 ~ 25, r26 ~ 40, r41 ~ 60, r61 ~ 100, 并让这些变量在排名落在相应的区间时取值1。以排名在 100名以后的法学院为基组,所估计的方程是:
19
如何检约束模型,R2 0.352
F
Ru2r 1 Ru2r
Rr2 / q / n k 1
0.406 0.352 / 4 1 0.406 / 366 7 1
8
30
如何解释男女运动员GPA的差异? 如果只看变量female,结论是:保持其他因素不变, 女性的GPA将比男性少约0.353.但这只是假设sat, hsperc,tothrs都等于零时所得到的估计差异,这 种情况并不是很有意义。
colˆGPA 1.26 0.157 PC 0.447hsGPA 0.008ACT
(0.33) (0.057)
(0.094) (0.0105)
n 141, R2 0.219 tPC 0.157 / 0.57 2.75
7
例7.3 培训津贴对培训小时数的影响
hrseˆmp 46.67 26.25grant 0.98 log sales 6.071log employ
Dummy variables are also called binary variables, for obvious reasons
2
A Dummy Independent Variable
Consider a simple model with one continuous variable (x) and one dummy (d)
3 可以考虑在样本的平均受教育水平(12.5)上估计性别 工资差异,即以female edu - 12.5取代female edu重新进行
回归。这只会改变female的系数及其标准误。
28
检验不同组之间回归函数上的差别
现在,我们考察的虚拟假设是:两个总体或两 组具有同一个回归函数;对立假设是,各组间 有一个或多个斜率是不同的。
wage b1male b2 female b2educ u
将总截距去掉,将每一组的虚拟变量包括进来,
男人的截距是b1,女人的截距是b
,因为没有总
2
截距,所以不存在虚拟变量陷阱。但检验截距的
差值更困难,而且对于不含截距项的回归R2计算
方法没有一致同意的方法。
5
例7.1 是否存在性别歧视
waˆge 1.571.81 female 0.572educ 0.025exp er 0.141tenure
27
1男性的教育回报约为8.2%;
女性的教育回报是0.082-0.0056=0.0764(7.64%).
2 female和female edu之间存在多重共线性,导致参数
估计值标准误增大,t统计量显著性下降。实际上,female 的参数值衡量的是当edu 0时男性与女性的工资差异, 但样本中没有一个人具有甚至是接近于零年的受教育水平。
17
如何解释两方程中相貌因素对工资的作用: 对于男人组,那些相貌低于平均水平的人,在其他方面相同
的情况下,预计比相貌处于平均水平的男人约少挣16.4%,且 t统计量为-3.57,表明这个影响在统计上是显著异于零的;类 似地,相貌高于平均水平的男人预计要多挣约1.6%,尽管这种 影响在统计上并不显著(t<0.5)。
1 模型的基组是? 2已婚男性组的截距是? 3已婚女性组的截距是? 4 未婚女性组的截距是?
单身男性,截距为0.321. 0.321+0.213=0.534 0.321-0.110+0.213-0.301=0.123 0.321-0.110=0.211
22
例7.9 计算机使用对工资的影响
1 模型的基组是? 2 相对于基组,工作中使用计算机(但在家里不使用)者估计回报差值是? 3 相对于基组,在家里使用(但在工作中不使用)计算机者估计回报差值是? 4 相对于基组,在工作中和家里都使用计算机者估计回报差值是?
在sat 1100, hsperc 10和tothrs=50时,女性与男性之间的
差异为-0.353+0.000751100 0.0005510 0.0001250 0.461
31
一般的检验方法:邹至庄统计量
在含有k个解释变量和一个截距项的一般模型中,假设有两组, 称为g=1和g=2。我们想检验这两组的截距和所有的斜率都相同。
13
如果要比较特定两组之间工资的差异,可以重 新设定基组进行回归分析。例如,为检验单身 女人和已婚女人之间的估计差异是否显著,以 已婚女人组作为基组重新估计得到:
tsingfem 0.088 / 0.052 1.69
在方程中包括虚拟变量来象征不同组的一般原 则:如果回归模型有g组或g类不同的截距,在 模型中则包含g-1个虚拟变量和一个1截距。
20
涉及虚拟变量的交互作用
虚拟变量之间的交互作用 例7.6根据婚姻状况和性别定义了四个类别,在模 型中引入三个虚拟变量,以单身男性为基组研究 了不同类别之间的工资差异。除此之外,还有什 么方法?
21
此外,我们还可以在female和married分别出 现的模型中,增加一个female和married的交 互项,同样可以进行组别工资差异比较。
H0:d0 0,d1 0
26
例7.10 对数小时工资方程
1 方程中男性与女性的教育回报分别是多少?统计显著性如何? 2 方程中female及其交互项系数t统计量分别为1.64、0.42,可以
由此断定没有统计显著的证据拒绝女人在相同的edu,exper和tenure 时得到较低的回报吗?
3 如何解决可能存在的多重共线性问题?
多元回归分析:虚拟变量
y = b0 + b1x1 + b2x2 + . . . bkxk + u
1
Dummy Variables
A dummy variable is a variable that takes on the value 1 or 0
Examples: male (= 1 if are male, 0otherwise), south (= 1 if in the south, 0 otherwise), etc.
级面板数据中,甚至会引入n-1个地区虚拟变 量。 ➢ 虚拟变量可以描述包含序数的信息:信用等级
12
例7.6 工资方程
估计一个工资对如下四组都不同的模型:已婚男人、已婚女人、单身男人、单 身女人。首先选择基组:单身男人,对剩下的每一组定义一个虚拟变量,并称 之为marrmal,marrfem,和singfem。因此,三个虚拟变量的估计量度量的都是与 单身男人相比,工资的比例差异。
本模型以在家里和工作中都不使用计算机者为基组
约等于17.7%;更精确的估计值是exp0.177 -1=19.4% 约等于7%;更精确的估计值是exp0.07 -1= 7.25% 约等于26.4%;更精确的估计值是exp0.264 -1= 30.2%
23
容许出现不同的斜率
虚拟变量之间的交互项反映的是截距之间的差 异,斜率并未发生变化。含义是:样本回归曲 线是平行的。
不受约束模型除了截距项和变量本身外,还有一组虚拟变量和交互项,
其自由度为n-2 k+1。不受约束模型的残差平方和可通过两个分离的回
归得到。令SSR1、SSR
表示第一组、第二组估计所得到的残差平方和,
2
SSR为受约束模型的残差平方和(将两组混合并估计一个方程所得到)。
(0.72) (0.26)
(0.049) (0.012)
(0.021)
n 526, R2 0.364 是否存在性别歧视?
waˆge 7.10 2.51 female (0.21) (0.30)
n 526, R2 0.116
均值比较检验
6
例7.2 拥有计算机 与大学GPA
colGPA b0 d0PC b1hsGPA b2 ACT u
在保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计高出约5.4%。
9
当y有较大比例变化时,如何更准确估 计y变化的百分比?
logˆ wageF logˆ wageM 0.297 1 wageF wageM wageM exp 0.297 1 0.257
这表明,一个女人的工资比一个与他相当的男人 的工资大致低25.7%。
10
log y log y1 log y0 b2x2
log
y1 y0
log
y1
y0 y0
y0
b2x2
log
y y0
y0
b2x2
log
y y0
1
b2x2
y y0
exp b2x2
1
11
Dummies for Multiple Categories
在应用研究中,我们需要使用多个虚拟变量。 ➢ 在控制性别的基础上,研究婚姻状态的影响; ➢ 在区域研究中,往往区分东、中、西部;在省
3
Example of d0 > 0
y y = (b0 + d0) + b1x
d= 1
slope = b1
{d0
d= 0
b0
y = b0 + b1x
x
4
wage b0 b1male b2 female b2educ u
由于female male 1, 模型同时引入male和female 将产生完全共线性,产生所谓的虚拟变量陷阱。
14
通过虚拟变量来包含序数信息
序数变量:穆迪或标准普尔对地方政府债券的 质量进行了级别评定,假设等级范围从零到四, 零为最低的信用等级,四位最高的信用等级, 记为CR。然而,很难有意义地解释CR变化一 个单位对MBR的影响。
MBR b0 b1CR 其他因素
15
可以考虑如下模型,其中,如果CR 1,则CR1 1,否则CR1 0; 如果CR 2,则CR2 1,否则CR2 0;如此等等。即以等于零的 信用等级作为基组,得到如下方程:
43.41 5.59 3.54
3.88
n 105, R2 0.237 t grant 4.7
问题的关键是:定性变量所度量的影响是否为因果性? 办法之一是,尽可能控制与虚拟变量及因变量相关的因素。
8
当因变量为log(y)时对虚拟变量系数的解释
当自变量中有一个或多个虚拟变量时,因变量 以对数形式出现,虚拟变量的系数具有一种百 分比解释。
d j系数含义可解释为:保持其他因素不变,信用等级为j
级的城市和信用等级为零级的城市之间在MBR上的差异。 其中,j 1, 2,3, 4。
问题:两种估计方法中,哪种方法更优?
16
例7.7 相貌吸引力对工资的影响
在劳动力市场中,除了存在性别歧视之外,还 可能存在相貌、身高等歧视。如果将样本相貌 分为三类:一般水平、低于一般水平、高于一 般水平,并以一般水平组作为基组,分别对男 人、女人估计方程得:
y = b0 + d0d + b1x + u
This can be interpreted as an intercept shift
If d = 0, then y = b0 + b1x + u If d = 1, then y = (b0 + d0) + b1x + u
The case of d = 0 is the base/benchmark group
虚拟变量与非虚拟变量之间也有交互作用,使 得出现不同的斜率。
female 0,男性组截距是b0,受教育的斜率是b1; female 1,女性组的截距是b0 d0,受教育的斜率是b1 d1。
24
25
我们关心的两个假设: ➢ 男性和女性受教育的回报是相同的。
H0:d1 0
➢ 受教育水平相同的男性和女性的平均工资相同。
将式7.13中的调整R 平方与把排名作为一个单独变量得到
的调整R 平方比较,前者是0.905,后者是0.836。所以,式
7.13 增加了回归的灵活性。 另外,式 7.13中所有其他变量都变得不显著了,联合显著性
检验给出P值为0.055;当 rank以其原有形式被包括在模型中时, 联合显著性检验的P值在小数点后四位数都是零。
女人组的情况如何? 通过这两个回归方程,你得到什么启示?
18
例7.8 法学院排名对起薪的影响
定义虚拟变量top10, r11 ~ 25, r26 ~ 40, r41 ~ 60, r61 ~ 100, 并让这些变量在排名落在相应的区间时取值1。以排名在 100名以后的法学院为基组,所估计的方程是:
19
如何检约束模型,R2 0.352
F
Ru2r 1 Ru2r
Rr2 / q / n k 1
0.406 0.352 / 4 1 0.406 / 366 7 1
8
30
如何解释男女运动员GPA的差异? 如果只看变量female,结论是:保持其他因素不变, 女性的GPA将比男性少约0.353.但这只是假设sat, hsperc,tothrs都等于零时所得到的估计差异,这 种情况并不是很有意义。
colˆGPA 1.26 0.157 PC 0.447hsGPA 0.008ACT
(0.33) (0.057)
(0.094) (0.0105)
n 141, R2 0.219 tPC 0.157 / 0.57 2.75
7
例7.3 培训津贴对培训小时数的影响
hrseˆmp 46.67 26.25grant 0.98 log sales 6.071log employ
Dummy variables are also called binary variables, for obvious reasons
2
A Dummy Independent Variable
Consider a simple model with one continuous variable (x) and one dummy (d)
3 可以考虑在样本的平均受教育水平(12.5)上估计性别 工资差异,即以female edu - 12.5取代female edu重新进行
回归。这只会改变female的系数及其标准误。
28
检验不同组之间回归函数上的差别
现在,我们考察的虚拟假设是:两个总体或两 组具有同一个回归函数;对立假设是,各组间 有一个或多个斜率是不同的。
wage b1male b2 female b2educ u
将总截距去掉,将每一组的虚拟变量包括进来,
男人的截距是b1,女人的截距是b
,因为没有总
2
截距,所以不存在虚拟变量陷阱。但检验截距的
差值更困难,而且对于不含截距项的回归R2计算
方法没有一致同意的方法。
5
例7.1 是否存在性别歧视
waˆge 1.571.81 female 0.572educ 0.025exp er 0.141tenure
27
1男性的教育回报约为8.2%;
女性的教育回报是0.082-0.0056=0.0764(7.64%).
2 female和female edu之间存在多重共线性,导致参数
估计值标准误增大,t统计量显著性下降。实际上,female 的参数值衡量的是当edu 0时男性与女性的工资差异, 但样本中没有一个人具有甚至是接近于零年的受教育水平。
17
如何解释两方程中相貌因素对工资的作用: 对于男人组,那些相貌低于平均水平的人,在其他方面相同
的情况下,预计比相貌处于平均水平的男人约少挣16.4%,且 t统计量为-3.57,表明这个影响在统计上是显著异于零的;类 似地,相貌高于平均水平的男人预计要多挣约1.6%,尽管这种 影响在统计上并不显著(t<0.5)。
1 模型的基组是? 2已婚男性组的截距是? 3已婚女性组的截距是? 4 未婚女性组的截距是?
单身男性,截距为0.321. 0.321+0.213=0.534 0.321-0.110+0.213-0.301=0.123 0.321-0.110=0.211
22
例7.9 计算机使用对工资的影响
1 模型的基组是? 2 相对于基组,工作中使用计算机(但在家里不使用)者估计回报差值是? 3 相对于基组,在家里使用(但在工作中不使用)计算机者估计回报差值是? 4 相对于基组,在工作中和家里都使用计算机者估计回报差值是?
在sat 1100, hsperc 10和tothrs=50时,女性与男性之间的
差异为-0.353+0.000751100 0.0005510 0.0001250 0.461
31
一般的检验方法:邹至庄统计量
在含有k个解释变量和一个截距项的一般模型中,假设有两组, 称为g=1和g=2。我们想检验这两组的截距和所有的斜率都相同。
13
如果要比较特定两组之间工资的差异,可以重 新设定基组进行回归分析。例如,为检验单身 女人和已婚女人之间的估计差异是否显著,以 已婚女人组作为基组重新估计得到:
tsingfem 0.088 / 0.052 1.69
在方程中包括虚拟变量来象征不同组的一般原 则:如果回归模型有g组或g类不同的截距,在 模型中则包含g-1个虚拟变量和一个1截距。
20
涉及虚拟变量的交互作用
虚拟变量之间的交互作用 例7.6根据婚姻状况和性别定义了四个类别,在模 型中引入三个虚拟变量,以单身男性为基组研究 了不同类别之间的工资差异。除此之外,还有什 么方法?
21
此外,我们还可以在female和married分别出 现的模型中,增加一个female和married的交 互项,同样可以进行组别工资差异比较。
H0:d0 0,d1 0
26
例7.10 对数小时工资方程
1 方程中男性与女性的教育回报分别是多少?统计显著性如何? 2 方程中female及其交互项系数t统计量分别为1.64、0.42,可以
由此断定没有统计显著的证据拒绝女人在相同的edu,exper和tenure 时得到较低的回报吗?
3 如何解决可能存在的多重共线性问题?
多元回归分析:虚拟变量
y = b0 + b1x1 + b2x2 + . . . bkxk + u
1
Dummy Variables
A dummy variable is a variable that takes on the value 1 or 0
Examples: male (= 1 if are male, 0otherwise), south (= 1 if in the south, 0 otherwise), etc.
级面板数据中,甚至会引入n-1个地区虚拟变 量。 ➢ 虚拟变量可以描述包含序数的信息:信用等级
12
例7.6 工资方程
估计一个工资对如下四组都不同的模型:已婚男人、已婚女人、单身男人、单 身女人。首先选择基组:单身男人,对剩下的每一组定义一个虚拟变量,并称 之为marrmal,marrfem,和singfem。因此,三个虚拟变量的估计量度量的都是与 单身男人相比,工资的比例差异。
本模型以在家里和工作中都不使用计算机者为基组
约等于17.7%;更精确的估计值是exp0.177 -1=19.4% 约等于7%;更精确的估计值是exp0.07 -1= 7.25% 约等于26.4%;更精确的估计值是exp0.264 -1= 30.2%
23
容许出现不同的斜率
虚拟变量之间的交互项反映的是截距之间的差 异,斜率并未发生变化。含义是:样本回归曲 线是平行的。
不受约束模型除了截距项和变量本身外,还有一组虚拟变量和交互项,
其自由度为n-2 k+1。不受约束模型的残差平方和可通过两个分离的回
归得到。令SSR1、SSR
表示第一组、第二组估计所得到的残差平方和,
2
SSR为受约束模型的残差平方和(将两组混合并估计一个方程所得到)。
(0.72) (0.26)
(0.049) (0.012)
(0.021)
n 526, R2 0.364 是否存在性别歧视?
waˆge 7.10 2.51 female (0.21) (0.30)
n 526, R2 0.116
均值比较检验
6
例7.2 拥有计算机 与大学GPA
colGPA b0 d0PC b1hsGPA b2 ACT u
在保持其他因素不变的情况下,一套殖民地建筑风格的住房的卖价预计高出约5.4%。
9
当y有较大比例变化时,如何更准确估 计y变化的百分比?
logˆ wageF logˆ wageM 0.297 1 wageF wageM wageM exp 0.297 1 0.257
这表明,一个女人的工资比一个与他相当的男人 的工资大致低25.7%。
10
log y log y1 log y0 b2x2
log
y1 y0
log
y1
y0 y0
y0
b2x2
log
y y0
y0
b2x2
log
y y0
1
b2x2
y y0
exp b2x2
1
11
Dummies for Multiple Categories
在应用研究中,我们需要使用多个虚拟变量。 ➢ 在控制性别的基础上,研究婚姻状态的影响; ➢ 在区域研究中,往往区分东、中、西部;在省
3
Example of d0 > 0
y y = (b0 + d0) + b1x
d= 1
slope = b1
{d0
d= 0
b0
y = b0 + b1x
x
4
wage b0 b1male b2 female b2educ u
由于female male 1, 模型同时引入male和female 将产生完全共线性,产生所谓的虚拟变量陷阱。
14
通过虚拟变量来包含序数信息
序数变量:穆迪或标准普尔对地方政府债券的 质量进行了级别评定,假设等级范围从零到四, 零为最低的信用等级,四位最高的信用等级, 记为CR。然而,很难有意义地解释CR变化一 个单位对MBR的影响。
MBR b0 b1CR 其他因素
15
可以考虑如下模型,其中,如果CR 1,则CR1 1,否则CR1 0; 如果CR 2,则CR2 1,否则CR2 0;如此等等。即以等于零的 信用等级作为基组,得到如下方程:
43.41 5.59 3.54
3.88
n 105, R2 0.237 t grant 4.7
问题的关键是:定性变量所度量的影响是否为因果性? 办法之一是,尽可能控制与虚拟变量及因变量相关的因素。
8
当因变量为log(y)时对虚拟变量系数的解释
当自变量中有一个或多个虚拟变量时,因变量 以对数形式出现,虚拟变量的系数具有一种百 分比解释。