第7讲包含虚拟变量的回归分析43页
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
o 对于只有两种取值的定类变量,可以用0和1表示这两种取值 。这样的变量称为虚拟变量(dummy variable)或二分变量 (binary variable)。其中,赋值为0的一组称为对照组( reference group)或基准组(benchmark group)
fem a 1 0,,女 男 le; 性 性 CC 1 0 P ,,中 非共 党 ; A 党 员 si 员 1 0 a ,,亚 非洲 亚国 洲
一、什么是虚拟变量?
什么是虚拟变量?
变量的分类
a. 定类/类别变量(nominal/categorical variable) b. 定序/有序变量(ordinal variable) c. 定距/定量变量(interval variable)
o 问题:如何在计量分析中使用定类变量和定序变量
什么是虚拟变量?
wage 4 .84 1.73 married se (0 .25 ) (0 .32 ) 未婚劳动者的平均工资 为 4 .84 美元 已婚劳动者的平均工资 为 4 .84 1.73 6 .57 美元
自变量中包含一个虚拟变量
自变量包含定距变量和一个虚拟变量
o 此时,虚拟变量的回归系数表示在控制其它自变量的情况下 ,两组之间的差异
自变量中包含多个虚拟变量
o 注意:变量名的选择
什么是虚拟变量?
o 对于有多个取值的定类变量,可构造多个虚拟变量来表示
o 用east、central、west三个虚拟变量表示不同地区
1 ,东 ea s0 ,中 t
部 部 ; c 或 en 西 t1 0 ,,中 r 东 a 部 l部 部 ; w 或 e 1 s 0 西 ,,西 东 t 部 部 部
-.3611279 -.0271456
.0657952 .0164907 -.0007603 .0178426 -.0010355 .2235557
-.2192396 .1329894 .0925143 .0374163
-.0003196 .0447499
-.0001134 .6120116
o 上述结果表明,性别对工资有显著影响,但婚姻状况没有 显著影响。这一模型可能存在问题,即假定婚姻状况的影 响对于男性和女性是相同的。进一步的分析应考虑婚姻状 况的影响存在性别差异。
o 例题7_2:课本p217,例7.2
colGPA1.260.15P7 C0.44h7sGPA0.008A7CT se (0.33)(0.05)7 (0.09)4 (0.010)5 如 果 两 个 学 hs生 GP的 和 AAC相 T 同 , 拥 有 计 算 机 的 学 生 的 成 绩 平 比均 没而 有言 计 算 机 的 0.1学 5分 7生 高
o 年收入(定距变量,但通过划分收入区间将之转换为虚拟变量) i1 1 0 ,,1 其 万他 元 ; i2 1 0 以 ,,1 其 5 万 下 ; 他 i3 元 1 0 ,,5 其 1万 0 他 ; i4 元 1 0 ,,1 其 万 0 他 元
二、自变量中包含虚拟变量
若D是 统 计 显 著 的 , 类说 的明 均两 值 存 在 显 著 差 异
自变量中包含一个虚拟变量
例题7_1:工资差异
wage 7 .10 2 .51 female se (0 .21 ) (0 .30 ) 男性的平均工资为 7 .10 美元 女性的平均工资为 7 .10 2 .51 4 .59 美元
1. 自变量中包含一个虚拟变量 2. 自变量中包含多个虚拟变量 3. 交互项
自变量中包含一个虚拟变量
自变量仅为一个虚拟变量
o 如果自变量仅为一个虚拟变量,实际上是以自变量为分类依 据,分析因变量的均值差异
对于 Y0 1Du, 当虚拟变 D量 0时, Y的均值为 E(Y: | D0)0 当虚拟变 D量 1时, Y的均值为 E(Y: | D1)0 1
或
o 用sx、jy、qt三个虚拟变量表示本科生毕业后的状态 sx 1 0,,升 未学 升 ; jy 学 1 0,,就 未业 就 ; q业 t 1 0,,其 升他 学情 或况 就 业
什么是虚拟变量?
o 对于定序变量和定距变量,也可以用虚拟变量表示
o 学习成绩(定序变量) g 1 1 0 ,,优 其 ; g 秀 他 2 1 0 ,,良 其 ; g 好 他 3 1 0 ,,及 其 ; g 格 他 4 1 0 ,,不 其及 他格
lwage
Coef. Std.Err.
t P>|t| [95%Conf.Interval]
female married
educ exper expersq tenure tenursq _cons
-.2901838 .0529219 .0791547 .0269535
-.0005399 .0312962
-.0005744 .4177837
.0361121 .0407561 .0068003 .0053258 .0001122 .0068482 .0002347 .0988662
-8.04 1.30
11.64 5.06
-4.81 4.57
-2.45 4.23
0.000 0.195 0.000 0.000 0.000 0.000 0.015 0.000
自变量中包含一个虚拟变量
自变量包含定距变量和一个虚拟变量
o 虚拟变量可用于政策分析,虚拟变量取值为0的一组称为控制 组或对照组(control group),取值为1的一组称为实验组( experimental group)或处理组(treatment group)
o 例题7_3:课本p218,例7.3
自变量中包含多个虚拟变量ห้องสมุดไป่ตู้
o 自变量中包含多个虚拟变量可分为三种情况 a. 每个虚拟变量代表不同的分类 b. 若干个虚拟变量代表同一种分类,且这种分类是定类的 c. 若干个虚拟变量代表同一种分类,且这种分类是定序的
自变量中包含多个虚拟变量
每个虚拟变量代表不同的分类
例题7_4:性别和婚姻状况对工资的影响(课本p220,例7.6) o 引入性别和婚姻状况两个虚拟变量
fem a 1 0,,女 男 le; 性 性 CC 1 0 P ,,中 非共 党 ; A 党 员 si 员 1 0 a ,,亚 非洲 亚国 洲
一、什么是虚拟变量?
什么是虚拟变量?
变量的分类
a. 定类/类别变量(nominal/categorical variable) b. 定序/有序变量(ordinal variable) c. 定距/定量变量(interval variable)
o 问题:如何在计量分析中使用定类变量和定序变量
什么是虚拟变量?
wage 4 .84 1.73 married se (0 .25 ) (0 .32 ) 未婚劳动者的平均工资 为 4 .84 美元 已婚劳动者的平均工资 为 4 .84 1.73 6 .57 美元
自变量中包含一个虚拟变量
自变量包含定距变量和一个虚拟变量
o 此时,虚拟变量的回归系数表示在控制其它自变量的情况下 ,两组之间的差异
自变量中包含多个虚拟变量
o 注意:变量名的选择
什么是虚拟变量?
o 对于有多个取值的定类变量,可构造多个虚拟变量来表示
o 用east、central、west三个虚拟变量表示不同地区
1 ,东 ea s0 ,中 t
部 部 ; c 或 en 西 t1 0 ,,中 r 东 a 部 l部 部 ; w 或 e 1 s 0 西 ,,西 东 t 部 部 部
-.3611279 -.0271456
.0657952 .0164907 -.0007603 .0178426 -.0010355 .2235557
-.2192396 .1329894 .0925143 .0374163
-.0003196 .0447499
-.0001134 .6120116
o 上述结果表明,性别对工资有显著影响,但婚姻状况没有 显著影响。这一模型可能存在问题,即假定婚姻状况的影 响对于男性和女性是相同的。进一步的分析应考虑婚姻状 况的影响存在性别差异。
o 例题7_2:课本p217,例7.2
colGPA1.260.15P7 C0.44h7sGPA0.008A7CT se (0.33)(0.05)7 (0.09)4 (0.010)5 如 果 两 个 学 hs生 GP的 和 AAC相 T 同 , 拥 有 计 算 机 的 学 生 的 成 绩 平 比均 没而 有言 计 算 机 的 0.1学 5分 7生 高
o 年收入(定距变量,但通过划分收入区间将之转换为虚拟变量) i1 1 0 ,,1 其 万他 元 ; i2 1 0 以 ,,1 其 5 万 下 ; 他 i3 元 1 0 ,,5 其 1万 0 他 ; i4 元 1 0 ,,1 其 万 0 他 元
二、自变量中包含虚拟变量
若D是 统 计 显 著 的 , 类说 的明 均两 值 存 在 显 著 差 异
自变量中包含一个虚拟变量
例题7_1:工资差异
wage 7 .10 2 .51 female se (0 .21 ) (0 .30 ) 男性的平均工资为 7 .10 美元 女性的平均工资为 7 .10 2 .51 4 .59 美元
1. 自变量中包含一个虚拟变量 2. 自变量中包含多个虚拟变量 3. 交互项
自变量中包含一个虚拟变量
自变量仅为一个虚拟变量
o 如果自变量仅为一个虚拟变量,实际上是以自变量为分类依 据,分析因变量的均值差异
对于 Y0 1Du, 当虚拟变 D量 0时, Y的均值为 E(Y: | D0)0 当虚拟变 D量 1时, Y的均值为 E(Y: | D1)0 1
或
o 用sx、jy、qt三个虚拟变量表示本科生毕业后的状态 sx 1 0,,升 未学 升 ; jy 学 1 0,,就 未业 就 ; q业 t 1 0,,其 升他 学情 或况 就 业
什么是虚拟变量?
o 对于定序变量和定距变量,也可以用虚拟变量表示
o 学习成绩(定序变量) g 1 1 0 ,,优 其 ; g 秀 他 2 1 0 ,,良 其 ; g 好 他 3 1 0 ,,及 其 ; g 格 他 4 1 0 ,,不 其及 他格
lwage
Coef. Std.Err.
t P>|t| [95%Conf.Interval]
female married
educ exper expersq tenure tenursq _cons
-.2901838 .0529219 .0791547 .0269535
-.0005399 .0312962
-.0005744 .4177837
.0361121 .0407561 .0068003 .0053258 .0001122 .0068482 .0002347 .0988662
-8.04 1.30
11.64 5.06
-4.81 4.57
-2.45 4.23
0.000 0.195 0.000 0.000 0.000 0.000 0.015 0.000
自变量中包含一个虚拟变量
自变量包含定距变量和一个虚拟变量
o 虚拟变量可用于政策分析,虚拟变量取值为0的一组称为控制 组或对照组(control group),取值为1的一组称为实验组( experimental group)或处理组(treatment group)
o 例题7_3:课本p218,例7.3
自变量中包含多个虚拟变量ห้องสมุดไป่ตู้
o 自变量中包含多个虚拟变量可分为三种情况 a. 每个虚拟变量代表不同的分类 b. 若干个虚拟变量代表同一种分类,且这种分类是定类的 c. 若干个虚拟变量代表同一种分类,且这种分类是定序的
自变量中包含多个虚拟变量
每个虚拟变量代表不同的分类
例题7_4:性别和婚姻状况对工资的影响(课本p220,例7.6) o 引入性别和婚姻状况两个虚拟变量