第9章-含定性变量的回归模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

x2
2.3
0
3.2
1
2.8
0
3.5
1
2.6
0
3.2
1
2.6
0
3.9
0
4.8
0
4.6
0
4.8
wk.baidu.com
0
4.2
0
建立y对x1、x2的线性回归
Model Summary
Model 1
Adjusted R
R R Square Square
.938a
.879
.869
a. Predict ors: (C ons tant), X2, X1
Standardized Coef f icients
Bet a
.921 -. 529
t -7.295 12.562 -7.207
Sig. .000 .000 .000
两个自变量x1与x2的系数都是显著的,判定系数 R2=0.879,回归方程为:
yˆ =-7976+3826x1-3700x2
这个结果表明,中等收入的家庭每增加1万元收入,平 均拿出3826元作为储蓄。高学历家庭每年的平均储蓄额少 于低学历的家庭,平均少3700元。
其它
x4
x4
1, 0,
冬季 其它
可是这样做却产生了一个新的问题,即 x1+x2+x3+x4=1,构成完全多重共线性。
解决这个问题的方法很简单,我们只需去掉一个 0-1型变量,只保留3个0-1型自变量即可。例如去掉 x4,只保留x1、x2、x3。
对一般情况,一个定性变量有k类可能的取值 时,需要引入k-1个0-1型自变量。当k=2时,只需要引 入一个0-1型自变量即可。
§9.2 自变量定性变量回归模型的应用
一、分段回归
在实际问题中,我们会碰到某些变量在不同的影响因素 范围内变化趋势截然不同。对这种问题,有时用多种曲线 拟合效果仍不能令人满意。如果做残差分析,会发现残差 不是随机的,而具有一定的系统性,对这类问题,自然考 虑用分段回归的方法做处理。
例9.2 表9.3给出某工厂生产批量xi与单位成本yi(美元)的 数据。试用分段回归建立回归模型。
其中干旱年份的粮食平均产量为: E(yi|Di=0)=β0+β1xi
正常年份的粮食平均产量为: E(yi|Di=1)=(β0+β2)+β1xi
例9.1 某经济学家想调查文化程度对家庭储蓄的 影响,在一个中等收入的样本框中,随机调查了13户 高学历家庭与14户中低学历的家庭,
因变量y为上一年家庭储蓄增加额,
24
1660693.321
26
Sig. .000
Coeffi ci ents
(C onstant ) X1 X2
Unst andardized Coef f icients
B
Std. Error
-7976.809 1093.445
3826.129 304. 591
-3700.330 513. 445
用回归法算出的高学历家庭每年的平均储蓄额比低学 历的家庭平均少3824元,这是在假设两者的家庭年收入相 等的基础上的储蓄差值,或者说是消除了家庭年收入的影 响后的差值,因而反映了两者储蓄额的真实差异。而直接 由样本计算的差值2050.05元是包含有家庭年收入影响在 内的差值,是虚假的差值。所调查的13户高学历家庭的平 均年收入额为3.8385万元,14户低学历家庭的平均年收入 额为3.4071万元,两者并不相等。
本章主要介绍自变量含定性变量的回归模型 和因变量是定性变量的回归 模型。
§9.1 自变量中含有定性变量的回归模型
在回归分析中,对一些自变量是定性变量的情形先给 予数量比处理,处理方法是引进0和1两个值的虚拟自变量 将定性变量数量化。当某一属性出现时,虚拟变量值为1, 否则取值为0。虚拟变量也称哑变量。
自变量x1为上一年家庭总收入, 自变量x2表示家庭学历, 高学历家庭x2=1,低学历家庭x2=0, 调查数据见表9.1:
表9.1 序号
1 2 3 4 5 6 7
y(元) 235 346 365 468 658 867 1085
23
8950
24
9865
25
9866
26
10235
27
10140
x1(万元)
第九章 含定性变量的回归模型
9.1 自变量中含有定性变量的回归模型 9.2 自变量定性变量回归模型的应用 9.3 因变量是定性变量的回归模型 9.4 Logistic(逻辑斯蒂)回归 9.5 多类别Logistic回归 9.6 因变量是顺序变量的回归 9.7 本章小结与评注
在实际问题研究中,常常遇见一些非数量型变量, 如:性别,民族,正常年份,干旱年份,战争与和 平,改革前,改革后等,在建立一个经济问题的回 归方程时,常常考虑这些定性变量,如建立粮食产 量预测方程就应考虑到正常年份与受灾年份的不同 影响。
一、简单情况
首先讨论定性变量只取两类可能值的情况,例如研究 粮食产量问题,y为粮食产量,x为施肥量,另外再考虑气 候问题,分为正常年份和干旱年份两种情况,对这个问题 的数量化方法是引入一个0-1型变量D,令:
Di=1
表示正常年份
Di=0
表示干旱年份
粮食产量的回归模型为: yi=β0+β1xi+β2Di+εi
二、复杂情况
某些场合定性自变量可能取多类值,例如某商厦策划营销
方案,需要考虑销售额的季节性影响,季节因素分为春、
夏、秋、冬4种情况。为了用定性自变量反应春、夏、秋、
冬四季,我们初步设想引入如下4个0-1自变量:
x1
1,
x1 0,
春季 其它
x2 1, 夏 季
x2
0,
其它
x3 1, 秋 季
x3 0,
Std. Error of the
Est imate
1288. 68
Model 1
AN OVA
Regress ion Residual Total
Sum of Squares 290372875. 924
39856639.705 330229515. 630
df
Mean Square
F
2 145186437. 962 87.425
如果不引入家庭学历定性变量x2,仅用y对家庭年收入 x1做一元线性回归,得判定系数R2=0.618,拟合效果不好。
家庭年收入x1是连续型变量,它对回归的贡献也是 不可缺少的。如果不考虑家庭年收入这个自变量,13户 高学历家庭的平均年储蓄增加额为3009.31元,14户低 学历家庭的平均年储蓄增加额为5059.36元,这样会认 为高学历家庭每年的储蓄额比低学历的家庭平均少 5059.36-3009.31=2050.05元,而用回归法算出的数值 是3824元,两者并不相等。
相关文档
最新文档