虚拟变量的转换与回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Model 1
(Constant) j3 IN2 IN3
t 3.354 10.925 2.820 4.190
Sig. .002 .000 .007 .000
a. Dependent Variable: s1
回归分析
回归方程为:
ANOVAb Model 1 Sum of Squares 5001.195 1808.805 6810.000 df 3 46 49 Mean Square 1667.065 39.322 F 42.395 Sig . .000a
Reg ression Residual Total
a. Predictors: (Constant), IN3, j3, IN2 b. Dependent Variable: s1
但是,必须现将定性变量转换为哑变量(也称虚拟
变量),然后再将它们引入方程,所得的回归结果 才有明确的解释意义。
哑变量的建立
对于具有k类的定性变量来说,设哑变量时,我们只
设k-1个哑变量。 例7.4 分析某地区妇女的年龄、文化程度、及居住地 状况对其曾生子女数的影响。 定量变量: 年龄 定性变量:文化程度、地区
Model 1
(Constant) 年龄 ED2 ED3 ED4 ED5 AREA
t 2.066 5.183 -3.820 -3.723 -4.127 -4.240 -2.989
Sig . .069 .001 .004 .005 .003 .002 .015
a. Dep endent Variable: 生 子女 数
应用SPSS建立回归方程
回归结果:
SPSS输出结果
Model Summary Model 1 R .978a R Sq uare .956 Adjusted R Sq uare .927 Std. Error of the Estimate .30751
a. Predi c t o rs: (Cons t a nt), AREA, ED3, 年 龄 , ED2, ED4, ED5
回归分析的类型
因变量与自变量都是定量变量的回归分析——即我们
常做的回归分析
因变量是定量变量,自变量中有定性变量的回归分
析—即含有虚拟变量的回归分析
因变量是定性变量的回归分析—Logistic回归分析
自变量中有定性变量的回归
在社会经济研究中,由许多定性变量,比如地区、
民族、性别、文化程度、职业和居住地等。 可以应用它们的信息进行线性回归。
SPSS输出结果
Coefficientsa Unstandardized Coefficients B Std. Error 1.409 .682 .068 .013 -1.127 .295 -1.309 .352 -1.576 .382 -1.569 .370 -.486 .162 Standardized Coefficients Beta .569 -.399 -.514 -.558 -.616 -.220
1.41,年龄每上升1岁,参照类妇女的平均曾生子女 数上升0.068个。 城市妇女比农村妇女的平均曾生子女数少0.49个。 小学、初中、高中和大学文化程度妇女的平均曾生 子女数分别比文盲妇女少1.13、1.31、1.58、1.57个 (在年龄和居住地相同时)。
回归方程的解释
文化程度在实际中是一个序次变量。可以用
SPSS输出结果
Coefficientsa Unstandardized Coefficients B Std. Error 17.642 5.261 .688 .063 6.387 2.265 11.066 2.641 Standardized Coefficients Beta .840 .273 .405
妇女比文盲妇女曾生子女数多出b2个部分,即少生 1.13个子女。
回归方程的解释
当教育程度为文盲、居住地为城市时,
表明,对于相同年龄和文化程度而言,城 市妇女比农村妇女曾生子女数多出b6个部 分,即少生0.49个子女。
回归方程的解释
总之,该回归方程表示: 参照类妇女曾生子女数对年龄的回归直线的截据为
回归方程的解释
当案例在两个分类变量都等于0时,即文化程度为文
盲,居住地在农村时,此种情况称为参照类(其他情 况将于此进行比较),其回归方程为:
表明所有参照类妇女年龄每上升1岁,其曾生子女数的
平均变化量为0.068个。
回归方程的解释
当文化程度为小学,居住地为农村时:
表明,对于相同年龄和居住地而言,小学文化程度
ANOVAb Model 1 Sum of Squares 18.586 .851 19.438 df 6 9 15 Mean Square 3.098 .095 F 32.759 Sig . .000a
Reg ression Residual Total
a. Predic to rs: (Constant), AREA, ED3, 年 龄 , ED2, ED4, ED5 b. Dep endent Variable: 生 子女 数
表示序次变量个相邻分类的实际效应,如初中的边际 效应为:
类似,可以计算下面的边际效应: 小学= -1.13 初中= -0.18 高中= -0.27 大学= 0.01
回归分析
利用同样的方法我们可以对例7.2进行回归分析。 例7.2的数据中,还有一个自变量是定性变量“收入”,
以虚拟变量或哑元(dummy variable)的方式出现。
SPSS输出结果
Model Summary Model 1 R .857a R Sq uare .734 Adjusted R Sq uare .717 Std. Error of the Estimate 6.27071
a. Predictors: (Constant), IN3, j3, IN2
哑变量的建立
wenku.baidu.com原变量编码值
哑变量赋值的操作
文化程度=1(文盲) 文化程度=2(小学) 文化程度=3(初中) 文化程度=4(高中)
文化程度=5(大学)
地区=1(城市) 地区=2(农村)
所有EDU=0 EDU2=1,其他EDU=0 EDU3=1,其他EDU=0 EDU4=1,其他EDU=0 EDU5=1,其他EDU=0 AREA=1 AREA=0