第3章线性回归问题与非线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0
x
(a)满意模式
残差图(形态及判别)
残 差
当回归模型满足所有假定时,残差图上 的散点应该是随机的,无任何规律。 如果回归模型存在异方差时,残差图上 的散点呈现出相应的趋势。
图b的情况表明,残差图上的散点随着 x的增加而增加。 当然,如果存在异方差,也可能随着x 的增加而减少。
2.条件指数
m ki , i 0,1, 2, p i
条件指数(condition index)可以用来判断多重共线性是否存在 以及多重共线性的严重程度,通常认为:
0 k 10, 没有多重共线性 10 k 100, 存在较强的多重共线性 k 100,存在严重的多重共线性
量的多个自变量中,有部分自变量呈高度相关,也
就是说,这些变量被用来解释因变量时导致所提供 的信息出现“重叠”。例如、模型中如果有多个自 变量有共同的上升趋势,它们之间很可能有高度的 相关关系导致共线性。
实际经济问题中的多重共线性
(1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业都小。
3309
3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529
NA
588 587 1088 1628 1341 1651 2920 1762 1854 2960 4584 8637 12610 12294
3.方差扩大因子法
与特征根法比较,方差扩大因子法可以较准确地说明哪些变量 与其他变量有严重的共线性,严重程度如何
例3.2 承接例3.1,用方差扩大因子法检验 多重共线性检验SPSS 除PMG外,其他变量都与别的变量存在程度不同的 共线性问题,其中MOB的共线性最严重。
Coefficientsa Unstandardized Coefficients B Std. Error 2E+007 3E+007 1.419 .267 -3E+007 5027085 -59.875 198.552 -30540.9 9557.981 Standardized Coefficients Beta 2.484 -.415 -.071 -1.099 Collinearity Statistics Tolerance VIF .005 .180 .018 .008 218.079 5.548 55.074 118.205
0
x
(b)非常数方差
例2.1 GNP与残差散点图,存在异方差。
12,000,000 8,000,000
4,000,000
RESID
0
-4,000,000
-8,000,000
-12,000,000 1,000
2,000 GNP
3,000
4,000
从残差图可以看出,误差项具有明显的异方差性, 误差随着自变量的增加而增加
对于模型 Yi 0 1 X 1i 2 X 2i k X ki i 同方差假设为 Var( i ) 2 如果出现Var( i ) i2
即对于不同的样本点,随机误差项的方差不再是常数,则 认为出现了异方差性。
为什么会产生这种异方差性呢? 一方面是因为随机误差项包括了测量误差和模型 中被省略的一些因素对因变量的影响,另一方面 来自不同抽样单元的因变量观察值之间可能差别
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性(Multicollinearity)。
如果存在 c1X1i+c2X2i+…+ckXki=0
i =1,2,…,n
其中: ci 不全为0,则称为解释变量间存在完全共线性。
多重共线性在实际的多元线性回归分析尤其是
涉及经济变里的模型中很常见。即在决定一个因变
(2)White异方差性检验
怀特检验通过OLS估计求得残差的估计值,然后利用残差估 计值的平方与解释变量及其交叉项辅助回归式,得到拟合优 度 ,从而构建统计量进行检验。 怀特检验的原假设为原回归模型不存在异方差,被择假设 为原回归模型存在异方差。
方程对象窗口:
View/Residual Test/Heteroskasticity/White
333
329 383 673 1079 769 909 1909 1196 806 1784 2806 4230 7034 7313
1996
68498
40172
9093
5643
由表中的比值可以直观地看到,增量的线性关 系弱于总量之间的线性关系,可以部分克服共线性 的问题。 原模型和差分模型经过检验都具有多重共线性, 但程度不同。
命令 Ls d(y) d(x1) d(x2) ….d(xp) Ls y-y(-1) x1-x1(-1) x2-x2(-1)…xp-xp(-1)
4.重新定义方程
Biblioteka Baidu
比如可以在例2.1中考虑用人均汽油消费量、 人均机动车数量、人均国民生产总值和油 价这四个变量建模。取消原模型中的人口 数变量。由于减少了变量, 也就降低了发 生共线性的可能性。
F-statistic是辅助方程整体显著性的F统计量;Obs*R-squared 是怀特检验的统计量 。 通过比较 Obs*R-squared的概率值和 显著性水平可以对方程是否存在异方差进行判断。
例3.3 对例2.1进行怀特检验 回归方程的 White 异方差检验的结果:
White Heteroskedasticity Test: F-statistic Obs*R-squared 12.04670 33.43969 Probability Probability 0.000000 0.002489
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反 映真实的经济关系。 例如,消费=f(当期收入, 前期收入)
显然,两期收入间有较强的线性相关性。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集,特 定样本可能存在某种程度的多重共线性 一般经验:
诊断方法
1.一些经验方法
第3章 线性回归问题与非线性回 归分析
应用普通最小二乘法时要求模型的随机误差项必须满足 :
(1)无偏性假定。即所有随机误差项的期望为0 (2)同方差性假定。即所有随机误差项的方差相等 (3)无序列相关性假定。即随机误差项之间无序列相关性 (4)解释变量与随机误差项相互独立。即解释变量为非随机变 量 (5)正态性假定。即随机误差项服从均值为0的正态分布。 在此基础上估计的参数才是最优线性无偏估计量。 但在实际操作处理过程中,这些基本的假定条件不一定满足,这 使得模型无法应用OLS方法估计或运用OLS方法得到的估计量不 具备最优线性无偏的特点。因此在建立模型后,需要检验随机误 差项是否符合OLS的假设条件。如果不符合,则需要对估计方法 进行改进和修改。
3.差分法
时间序列数据、线性模型:将原模型 变换为差分模型: Yi =1X1i+2 X2i ++k Xki+ i 可以相对有效地消除原模型中的多 重共线性。
一般讲,增量之间的线性关系远比总量 之间的线性关系弱得多。
例如:
Year GDP CONS
中国GDP与居民消费C的总量与增量数据 ΔGDP ΔCONS
a Collinearity Diagnostics
Model 1
Dimension 1 2 3 4 5
Eig envalue 4.797 .175 .027 .001 .000
Condition Index 1.000 5.240 13.250 88.903 162.804
(Constant) .00 .00 .01 .08 .92
Variance Proportions MOB PMG POP .00 .00 .00 .00 .13 .00 .00 .61 .00 .26 .01 .08 .74 .25 .92
GNP .00 .00 .01 .81 .18
a. Dependent Variable: QMG
从条件指数可以看到,最大的条件数为162.804,说明自变 量间存在严重的共线性。 如果有某几个自变量的方差比例值在某一行同时较大(接 近1),则这几个自变量间就存在共线性。
例3.1 根据例2.1计算特征值及条件指数 多重共线性检验SPSS
• 打开[Linear Regression: Statistics]子对话框,选择 [Collinearity diagnostics(共线性诊断)],单击[Continue]返 回主对话框并单击[OK]按钮。这样SPSS 便可输出所有检 查多重共线性的指标。
5.回归系数的有偏估计
岭回归法 主成分法 偏最小二乘法 差分法
3.1.2 异方差性
1.异方差的含义 在一元线性回归模型中,如果 的方差是随解释变量变化 的量,则称此时随机误差序列存在异方差。 在多元线性回归模型中,如果 的方差协方差矩阵主对角 线的元素不相等,则表明存在异方差
很大。因此,异方差性多出现在横截面样本之中。
至于时间序列,则由于因变量观察值来自不同时 期的同一样本单元,通常因变量的不同观察值之 间的差别不是很大,所以异方差性一般不明显。
23
2.异方差性的后果
存在异方差问题时,利用OLS方法估计的参数仍 具有无偏一致性,但不再具有有效性,即:异方 差条件下的估计系数的方差不等于最小二乘估计 方法下的最小方差 ,所以不具备有效性。
Model 1
t .979 5.315 -5.569 -.302 -3.195
(Constant) MOB PMG POP GNP
Sig . .335 .000 .000 .765 .003
a. Dependent Variable: QMG
克服多重共线性的方法
1.排除引起共线性的变量
找出引起多重共线性的解释变量,将它排除出去, 是最为有效的克服多重共线性问题的方法。
1981
1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995
4901
5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405
3.异方差性的检验
※图示检验法 ※ White异方差性检验
(1)图示检验法(残差图形态及判别)
残 差
一般认为,如果回归方程满足所给出 的基本假设,所有残差应该在e=0的 附近随机变化,并在变化不大的一条 带子内。 图a中的残差都落在变化不大的一条 带子内,也就可以说明回归模型满足 基本假设。
3.1 线性回归的常见问题
3.1.1 多重共线性 3.1.2 异方差性 3.1.3 自相关性
3.1.1 多重共线性 1.概念
对于模型 Yi 0 1 X 1i 2 X 2i k X ki i
i=1,2,…,n
其基本假设之一是解释变量之间不存在完全共线 性。
该结果F 统计量和 Obs*R2 统计量的P值均很小,
表明拒绝原假设,即残差存在异方差性。
注意: 剩余解释变量参数的经济含义和数值都发生了变化。
例2.1 删去POP,再进行回归
2.增大样本容量
由于多重共线性是一样本特征,故有可能 在关于同样变量的另一样本中共线性没有第一个 样本那么严重。一般认为:解释变量之间的相关 程度与样本容量成反比,即样本容量越小,相关 程度越高;样本容量越大,相关程度越小。因此, 收集更多观测值,增加样本容量,就可以避免或 减轻多重共线性的危害。 在实践中,当我们所选的变量个数接近样 本容量时,自变量间就容易产生共线性。所以, 我们在运用回归分析研究经济问题时,要尽可能 使样本容量远大于自变量个数。