第八章(多重共线性)

合集下载

多重共线性PPT课件

多重共线性PPT课件

协方差同理。
方差膨胀因子(variance-inflating factor, VIF)
1 VIF 1 r223
所以 var b2
2
x22i VIF
2-21
8.5 多重共线性的诊断
在任一给定的情况下,特别是在涉及多于两 个解释变量的模型中,我们怎么知道有没有 共线性?
2-22
1.多重共线性是一个程度问题而不是有无问 题。有意义的区分不在于有无之间,而在于 程度大小。
因为 数。
b2 b3 是一个方程,却有两个未知
对给定的alpha和lamda值,有无穷多个解。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X3i X 2i vi ,其中 vi x2i 0
回归系数估计:
b2
yi x2i 2 x22i vi2
yi x2i
第8章 多重共线性:解释变量
相关会有什么后果?
McGraw-Hill/Irwin
Copyright © 2006 The McGraw-Hill Companies, Inc. All rights reserved.
问题
多重共线性的性质是什么? 多重共线性是否是一个严重的问题? 多重共线性的理论后果是什么? 多重共线性的实际后果是什么? 实践中如何诊断多重共线性? 消除多重共线性的补救措施有哪些?
但在应用计量经济学中,我们的宗旨就是区 分每个变量的单独影响。
2-13
把 X3i yi
X 2i 代入回归方程: b2 x2i b3 x2i ei b2 b3 x2i ei
x2i ei
利用OLS公式得:
b2 b3
x2i yi x22i

多重共线性的检验方法

多重共线性的检验方法

多重共线性的检验方法
多重共线性(multicollinearity)是指在回归模型中,自变量之间存在高度相关或线性相关的情况。

由于存在多重共线性,导致模型的解释能力降低,预测结果不可靠。

因此,需要对回归模型中自变量之间的关系进行检验和分析。

下面介绍几种多重共线性的检验方法。

1. 相关系数矩阵法。

计算自变量之间的相关系数矩阵,判断是否存在较高的相关系数。

相关系数矩阵主要分为Pearson 相关系数和Spearman 相关系数,其中Pearson 相关系数适用于连续变量之间的关系,Spearman 相关系数适用于序数类或等距类别的变量之间的关系。

2. 变量膨胀因子(VIF)法。

VIF 是判断某个自变量对其他自变量的回归系数影响的程度。

如果某个自变量的VIF 值超过10,就表示需要对其进行检验和分析。

3. 特征值检验法。

通过计算相关系数矩阵的特征值和特征向量,判断模型是否存在多重共线性。

如果某个特征值较小,就表示存在多重共线性。

4. 条件数检验法。

条件数是相邻特征值之比的平方根。

如果条件数大于30,就表示模型存在多重共线性。

综上所述,多重共线性的检验方法有多种,不同的检验方法可以互相验证,得到更加准确的判断结果。

在实际应用中,可以根据具体情况选择合适的方法进行多重共线性的检验。

多重共线性

多重共线性

多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。

● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。

共线性部分可用两圆圈的重叠部分来衡量。

重叠部分越大,共线性程度越高。

● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。

多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。

- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。

第八章多重共线性PPT学习教案

第八章多重共线性PPT学习教案
第13页/共38页
完全多重共线性是由于在模型设定时把 严格联系的变量引进同一个模型,或者是由 于虚拟变量设置不当引起的。
因此对完全共线性的处理比较简单,只 需要针对性的修改模型,放弃和调整引起完 全共线性的部分变量即可。注意,不能放弃 形成线性关系的所有解释变量,否则造成解 释变量缺落,使模型失去研究意义。
第17页/共38页
三、多重共线性的诊断
(一)多重共线性问题的诊断原则:
❖ 多重共线性是一个样本问题,即使在总体中诸 X变量没有逻辑和理论上的线性关系,但在具
体的样本仍可能有线性关系。
❖ 多重共线性的根源是解释变量之间的样本相关 性,因此分析解释变量之间的样本相关性,进 行单相关或多元相关性的分析检验,是发现和 判断多重共线性问题的基本方法
数据样本时期1978年-2003年(资料来源:《中国统计年鉴
2004》,中国统计出版社2004年版)
第1页/共38页
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ 总人口TPOP 最终消费CUM 受灾面积SZM
截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
性(approximate multicollinearity)或交互相关 (intercorrelated)。
第6页/共38页
注意:
完全共线性的情况并不多见, 一般出现的是在一定程度上的 共线性,即近似共线性。
但无论是解释变量之间严格 的线性关系还是较严重的近似 线性关系,都会给多元线性回 归分析造成严重的不利影响, 甚至导致回归模型完全失效。

第二单元 统计学高级篇

第二单元   统计学高级篇

逐步回归法实例(第一步)
模型 Y与X4 Y与X1 Y与X2 Y与X3
SS回
SS残
SS总
82.7144 139.8375 222.5519 69.4251 153.1267 222.5519 46.7873 175.7645 222.5519 57.9133 164.6386 222.5519
逐步回归法实例(第二步)

二、多重线性回归模型与方程
多重线性回归模型用于研究一个被解释变量(因变量)与 多个解释变量(自变量)的线性关系分析。多重线性回归模 型与一元线性回归模型基本类似,只不过解释变量由一个增 加到两个以上,被解释变量y与多个解释变量x1,x2·· ·xk之间 存在线性关系。 假定被解释变量y与多个解释变量x1,x2· xm之间具有线性 · · 关系,建立多重线性回归模型为:
S
1.5934 2.5748 3.6706 1.8234 2.9257
第三节 自变量的选择(筛选)



多重线性回归分析中,常常通过专业知识或实践经 验,去挑选那些对因变量影响较大的自变量与因变 量Y建立回归方程。 如从为数众多因素中,选择的自变量对反应变量无 影响或影响甚微,把它们引入方程后,不但计算量 大,信息成本高,而且会使回归系数的估计和预测 的精度降低。 选择对因变量影响较大的自变量引入方程,将对反 应变量无影响或影响甚微的自变量排除方程,这种 统计方法称为自变量选择(筛选),统计中常用方 法之一是逐步选择法。
SY,1,2,
与R2 …M
3.校正决定系数RC2(Radj2)=0.5282
R2与RC2关系:



R2表示总变差中已由多元回归方程“解释”的比 例,R2可解释模型的拟合优度,残差平方和越小, 决定系数越接近1,回归方程的拟合程度越好。 RC2当给模型增加自变量时,决定系数也随之逐步 增大,然而决定系数的增大代价是自由度的减少。 自由度小意味着估计和预测的可靠性低。为了克 服样本决定系数的这一缺点,我们设法把R2给予 适当的修正,这就是校正决定系数。 R2或RC2只能说明在给定的样本条件下回归方程与 样本观测值拟合优度,并不能做出对总体模型的 推测,因此不能单凭它们来选择模型。

8第八章:多重共线性及其改进方法

8第八章:多重共线性及其改进方法

( X ' X kI ) X ' Y
1
^
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
共线性
Ridge Regression Syntax
岭回归程序路径
INCLUDE 'C:\Users\Administrator\Desktop\Ridge regression.sps'. ridgereg enter=x1 x2 x3 x4 x5 解释变量 被解释变量 /dep=y /inc=0.01.
统计方法
Y 0 1Z1 2 Z2
因子分析
岭回归
岭回归是一种专门用于共线性数据分析的有偏估计 回归方法,它实际上是一种改良的最小二乘法,以放
弃最小二乘的无偏性,损失部分信息,放弃部分精确
度为代价来寻求效果稍差但更符合实际的回归方程。
^
( X ' X ) X 'Y
1
事实上,并没有度量多重共线性的单一方法,这是因为对 于非实验数据,无法确定共线性的性质和程度。
判断存在多重共线性的经验法则:
典型特征
1.R2较高但解释变量t值统计显著的不多;
2.解释变量两两高度相关;
3.检查偏相关系数; 4.方差膨胀因子; 5.条件指数; 6.从属回归或辅助回归。
超过0.8
多解释变量
产生影响。同样地,被解释变量当前的变化也可能受其 自身过去水平的影响,这种被解释变量受到自身或另一 种解释变量的前几期值影响的现象称为滞后效应。
(2)滞后变量模型 以滞后变量作为解释变量的模型即为滞后变量模型。
Yt 0 1Yt 1 2Yt 2 qYt q 0 X t 1 X t 1 s X t s t

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

多重共线性(统计累赘)的概念、特征及其测量方式和处理方式

试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。

1、概念多重共线性是指自变量之间存在线性相关关。

倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。

2、特征3、产生原因产生多重相关性的原因主要包括四方面。

一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。

但多数研究者认为共线性本质上是由于样本数据不足引起的。

4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。

①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。

②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。

③对重要自变量的回归系数进行t 检验,其结果不显著。

特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。

④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。

⑤重要自变量的回归系数置信区别明显过大。

⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。

⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。

(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。

共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。

方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。

对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。

8第八章 多重共线性:解释变量相关会有什么后果

8第八章 多重共线性:解释变量相关会有什么后果

H0 : B4 B5 0
作业 做在书上:8.1~8.12; 自行思考、上机操作:8.14~8.18、
P95:4.18
Variable C GPA GMAT EMPGRAD TUITION RECRUITER R-squared Adjusted Rsquared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
418通常物流需求是指一定时期内社会经济活动对生产流通消费领域的原材料成品和半成品商品以及废旧物品废旧材料等的配置作用而产生的对物品在空间时间作业量和费用方面的要求涉及运输库存包装装卸搬运流通加工以及与之相关的信息需求等物流活动的诸方面
第二部分
实践中的回归分析
基本假定违背:不满足基本假定的情况。
(1)模型设定有偏误;所选模型是正确设定的 基本假定 所选模型是正确设定的
5、OLS估计量及其标准误对数据的微小变化非常敏感。 6、回归系数的符号有误。 不能通过经济意义的检验。 7、难以评估各个解释变量对ESS或R2的贡献。
5、OLS估计量及其标准误对数据的微小变化非常敏感。
7、难以评估各个解释变量对ESS或R2的贡献。
补充:产生多重共线性的主要原因(了解)
(1)经济变量相关的共同趋势
Y:饰品需求 X2:价格 X3:消费者收入 X4:消费者工资
Yi A1 A2 X 2i A3 X 3i ui Yi B1 B2 X 2i B4 X 4i ui
Yi A1 A2 X 2i A3 X 3i ui X 3i 300 2 X 2i ; R2 1
Rj•2:第j个解释变量对其他解释变量的回归方程的判定系数

多重共线性

多重共线性

多重共线性基本概念(1)多重共线性; (2)完全多重共线性;(3)不完全多重共线性;练习题1、什么是变量之间的多重共线性?举例说明。

2、判断题:(1)存在完全多重共线性时,模型参数无法估计;(2)存在多重共线性时,一定会使参数估计值的方差增大,从而造成估计效率的损失; 3、完全多重共线性和不完全多重共线性之间的区别是什么? 4、产生多重共线性的经济背景是什么?5、多重共线性的危害是什么?为什么会造成这些危害?检验多重共线性的方法思路是什么?有哪些克服方法?6、考虑下列一组数据Y-10 -8 -6 -4 -2 0 2 4 6 8 10 2X 1 2 3 4 5 6 7 8 9 10 11 3X13579111315171921现在我们进行如下的回归分析:12233i i Y X X u βββ=+++请回答如下问题:(1)你能估计出该模型的参数吗?为什么? (2)如果不能,你能估计哪一参数或参数组合? 7、将下列函数用适当的方法消除多重共线性: (1)消费函数为012C W P u βββ=+++其中C 、W 、P 分别表示消费、工资收入和非工资收入,W 和P 可能高度相关,但研究表明122ββ=。

(2)需求函数为0123s Q Y P P u ββββ=++++其中Q 、Y 、P 和s P 分别为需求量、收入水平、该商品价格水平及其替代品价格水平,P 和s P可能高度相关。

基本概念解释(1)多重共线性指两个或两个以上解释变量之间存在某种线性相关关系。

(2)完全多重共线性指,在有多个解释变量模型中,解释变量之间的线性关系是准确的。

在此情况下,不能估计解释变量各自对被解释变量的影响。

(3)不完全多重共线性指,在实际经济活动中,多个解释变量之间存在多重共线性问题,但解释变量之间的线性关系是近似的,而不是完全的。

练习题答案1、如果在经典回归模型Y X U β=+中,如果基本假定6遭到破坏,则有()1k r x k <+,此时称解释变量之间存在完全多重共线性。

多重共线性解决方法

多重共线性解决方法

多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。

以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。

2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。

可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。

3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。

可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。

4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。

岭回归可以通过交叉验证选择合适的正则化参数。

5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。

6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。

以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。

回归分析中的多重共线性问题及解决方法(Ⅰ)

回归分析中的多重共线性问题及解决方法(Ⅰ)

回归分析中的多重共线性问题及解决方法回归分析是统计学中常用的一种方法,用于研究自变量和因变量之间的关系。

然而,在实际应用中,我们经常会遇到多重共线性的问题,这会对回归系数的估计和模型的解释产生不良影响。

本文将就多重共线性问题及其解决方法展开探讨。

多重共线性指的是在回归模型中,自变量之间存在高度相关性的情况。

当自变量之间存在共线性时,回归系数的估计会变得不稳定,标准误差会增大,系数的显著性检验结果可能出现错误,同时模型的解释性也会受到影响。

因此,多重共线性是需要引起我们高度关注的问题。

多重共线性的存在主要有两个方面的原因。

一方面是样本误差的影响,当样本容量较小或者存在异常值时,容易导致自变量之间的相关性增强。

另一方面是自变量之间本身存在的相关性,这可能是由于自变量的选择不当或者研究对象的特性所致。

无论是哪一种原因,我们都需要采取相应的方法来解决多重共线性问题。

解决多重共线性问题的方法有多种途径,下面将分别从数据清洗、变量选择、正则化方法和主成分回归等方面进行探讨。

首先,对于数据清洗来说,我们需要对样本中的异常值进行识别和处理。

异常值的存在会扰乱自变量之间的关系,导致多重共线性的加剧。

因此,在进行回归分析之前,我们需要对数据进行严格的清洗,排除掉异常值对模型的影响。

其次,变量选择也是解决多重共线性问题的有效手段。

在回归分析中,不是所有的自变量都对因变量有显著的解释作用,因此我们可以通过逐步回归、岭回归等方法来筛选出对模型影响较大的自变量,从而减少多重共线性的影响。

另外,正则化方法也是解决多重共线性问题的重要途径。

岭回归、Lasso回归等方法可以通过对回归系数进行惩罚,来减少自变量之间的相关性对模型的影响。

这些方法在实际应用中得到了广泛的应用。

最后,主成分回归是另一种解决多重共线性的有效方法。

主成分回归通过将自变量进行主成分分解,从而减少自变量之间的相关性,提高回归模型的稳定性。

综上所述,回归分析中的多重共线性问题是一个不容忽视的难题,但是我们可以通过数据清洗、变量选择、正则化方法和主成分回归等多种手段来解决这一问题。

多重共线性

多重共线性


比如对于两个解释变量的模型
Yi 1 X 1i 2 X 2i ui

根据我们前面的讨论,参数的最小二乘估计为:
ˆ 1
2 ( yi x1i )( x2 i ) ( yi x2 i )( x1i x2 i ) 2 2 ( x12i )( x2 ) ( x x ) 1i 2i i
R 2 0.8101 ˆ , ˆ ) 0.00868 cov( 1 2

12 0.5523
df 2
ˆ 在单侧t检验的显著水平10%是显著的(1.886)。 1
第二组数据的回归结果
ˆ 1.2108 Y i se (0.7480) t (1.6187) 0.4014 X 1i (0.2721) (1.4752) 0.0270 X 2i (0.1252) (0.2158)
多重共线性
南开大学数学科学学院 白晓棠
多重共线性

在经典的线性回归模型中,我们假定回归模型中诸回归元 之间无多重共线性。

在本节中我们将放松此要求从而来研究: 1、什么是多重共线性? 2、它会引起什么样的后果? 3、怎样去发现它? 4、我们可以采取哪些补救措施来缓解多重共线性的问 题?
第一组数据
Y 1 2 3 4 5
X1 2 0 4 6 8
X2 4 2 12 0 16
第二组数据
Y 1 2 3 4 5
X1 2 0 4 6 8Leabharlann X2 4 2 0 12 16
第一组数据的回归结果
ˆ 1.1939 Y i se (0.7737) t (1.5431) 0.4463 X 1i (0.1848) (2.4151) 0.0030 X 2i (0.0851) (0.0358)

多重共线性问题的几种解决方法【最新】

多重共线性问题的几种解决方法【最新】

多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。

如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。

多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。

这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。

逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。

具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。

2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。

3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。

不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。

何晓群:《应用回归分析》第四版-第八章主成分回归与偏最小二乘

何晓群:《应用回归分析》第四版-第八章主成分回归与偏最小二乘

返 回 前一页 后一页
为什么会产生多重共线性??
返 回 前一页 后一页
6.1 多重共线性产生的背景和原因
经济变量随时间变化往往存在共同的变化趋势。如我国国名消 费情况研究中,其影响因素有职工平均工资、农名平均收入、 全国零售物价总数等等,但这些因素之间存在很强的相关性。
如:影响某地区粮食产量的因素有很多,如:化肥用量,水浇 地面积、农业资金投入等,这些因素之间也有很强的相关性。 影响
X1:国民收入
X2:消费额
X3:铁路客运量
X4:民航航线里程
Coefficientsa X5:来华旅游入境人数
原因???U?nsta?ndar多diz重ed 共线S性tandardized
Co effi ci e nts
Co effi ci e nts
M od e l
B
Std. Error
1
(Constant) 450.909 178.078
Beta
x1
.354
.085
2.447
x2
-.561
.125
-2.485
x3
-.007
.002
-.083
x4
21.578
4.030
.531
x5
.435
.052
.564
a. Dependent Variable: y
t 2.532 4.152 -4.478 -3.510 5.354 8.440
Si g. .030 .002 .001 .006 .000 .000
23.27 792.43
ห้องสมุดไป่ตู้
22.91
947.7
26.02 1285.22

回归分析中的多重共线性问题及解决方法(八)

回归分析中的多重共线性问题及解决方法(八)

回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。

然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。

多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。

本文将探讨回归分析中的多重共线性问题及解决方法。

1. 多重共线性问题的影响多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。

此外,多重共线性还会导致回归系数的符号与理论预期相悖,使得模型的解释能力大大减弱。

2. 多重共线性问题的诊断为了解决回归分析中的多重共线性问题,首先需要进行诊断。

常用的诊断方法包括:方差膨胀因子(VIF)、特征根分析、条件数等。

其中,VIF是应用最为广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。

一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。

3. 解决多重共线性的方法一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。

常用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。

其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。

合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。

主成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。

这些方法各有优劣,需要根据具体情况来选择合适的方法。

4. 实例分析为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。

假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。

通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。

为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。

多重共线性(Multi-Collinearity)

多重共线性(Multi-Collinearity)

i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2

1

x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1

ˆ 2

(X X
)1
22

(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x

多重共线性

多重共线性
收入(Y:GDP)与消费 C 的总量与增量数据
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041
y ( 1 2 ) x1
只能确定综合参数 1 2 的估计值:
ˆ ˆ 1 2 x1i y i x12i
4.2.2 不完全多重共线性下的 后果
(1)参数估计仍是无偏估计,但不稳定;估计量 及其标准差非常敏感,观测值稍微变化,估计 量就会产生较大的变动。 (2)参数估计式的方差随着共线性程度的增大而 增大。 (3)t检验失效,区间估计失去意义;估计量的 方差很大,相应标准差增大,进行t检验时,接 受零假设的可能性增大 (4)严重多重共线性时,甚至参数估计式的符号 与其经济意义相反。得出完全错误的结论。
2i

2i
2 2i
x y x y x x
1i i 1i 2 1i 2 1i
i
x12i 2 x12i
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第八章
多重共线性
一、多重共线性及其产生原因 定义:对于多元线性回归模型:
01122...i i i k ki i y x x x u ββββ=+++++
如果模型的解释变量之间存在着较强的线性相关关系,或者说,存在一组不全为零的常数12,,....,k λλλ,使得: 1122...0i i k ki i x x x v λλλ+++=,i v 是随机误差项。

则称模型存在着多重..共线性,如果0i v =,则称存在完全的多重共线性。

?直观地看,多重共线性是不是造成了冗余变量,这里的冗余的含义是什么? 思考:只有一个解释变量会出现多重共线性吗?
产生原因:
1.经济变量的内在联系,这是根本原因,这导致多重共线性无法克服。

2.经济变量变化趋势的“共向性”。

3.解释变量中含有滞后变量。

二、多重共线性的影响
古典回归模型要求模型不存在完全的多重共线性。

所以,即使存在严重的多重共线性,OLS 估计仍然是最佳线性无偏估计(BLUE )。

但会产生以下问题:
(一) 增大OLS 估计的方差 设模型为二元线性,
01122i i i i y x x u βββ=+++
可以证明,
2
12
21112
1
()()1i
D x
x r σβ=

--∑
VIF 被称为方差膨胀因子。

分别计算12r 分别等于0,0.5,0.9时的方差膨胀因子。

?方差变得过大,有什么不好??
(二) 难以区分每个解释变量的独立影响 对于多元线性回归模型,回归系数为
i i
y
x β∂=
∂,根据偏导数的概念,i β的经济含义是什么?
(三) T 检验的可靠性降低
可能使T 检验失效,原来显著的T 值变成不显著的,从而将有重要影响的变量剔除出模型。

思考:比较一下和模型存在异方差及自相关时对T 检验的影响有何不同?
(四) 回归模型缺乏稳定性
参数估计值对样本的变化比较敏感,这实际上也是OLS 估计方差较大的另一个表现。

例子来说明: 见表一
如果改成:
再重新进行回归,看会发生什么情况?
一个理念:多重共线性不可避免。

三、多重共线性的检验
外在症兆:R-平方很高,但只有极个别或少数几个解释变量前的系数显著(T 值偏小)。

1.相关系数检验
利用相关系数可以分析解释变量之间的两两相关情况。

例:服装需求函数。

根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X ,流动资产拥有量K ,服装类价格指数P1和总物价指数P0。

下表给出了有关统计资料。

表 服装需求函数有关统计资料
2.方差膨胀因子检验(辅助方程) VIF 大于10时,或者是容许度。

仍以上例为例。

四、多重共线性的解决方法
明确两点
1 如果建立模型的目的是为了预测,只要模型的拟合优度较高,可以忽略多重共线性的问题;但是,如果目的是进行结构分析或政策评价,即利用系数分析,比较各个解释变量的单独影响,则需要消除多重共线性的影响。

2 引起多重共线性的原因是模型中存在相关的解释变量,消除多重共线性的根本方法只能是从模型中剔除这些变量。

但直接剔除变量可能会带来以下问题: 模型的经济意义不合理,可能会使模型出现异方差性或自相关性。

可以考虑增加样本容量。

(一)直接剔除次要或可替代的变量 (二)间接剔除重要的解释变量 1.利用附加信息
以规模报酬不变的C-D 生产函数为例。

以工业能源需求函数为例。

01122y x x βββε=+++ 2.变换模型的形式 如投资函数,
0121t t t t I Y Y u βββ-=+++
可以变换成: 0121
t t t t I Y Y u
βββ-=++∆+ 又比如,需求函数是:012031Q Y P P u ββββ=++++ 为了反映自价格与互价格对需求量的影响,将需求函数设成:
0121
(
)P Q Y u P βββ=+++
3.综合使用时序数据与横截面数据
如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。

例如,
设某类商品的需求函数为,
012ln ln ln y x p u βββ=+++,其中,时序数据中X 与P 高度相关。

为此,
(1) 收集最近一年该商品的销售量和居民收入的统计资料,将需求函数取成: 01ln ln y a a x u =++, 可以得到需求的收入弹性1a 。

(2) 将原模型变换成:
01ln t t t y P u ββ*=++,其中,1ln ln t t t y y a x *
=-
, 可以用时序数据估计模型,得
到0β 和1β
,从而在消除多重共线性的情况下,估计出了各参数值。

(四)逐步回归 具体步骤为:
1. 利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。

2. 在一元回归模型中分别引入第二个变量,共建立K-1个二元回归模型,从这些模型
中再选取一个较优的模型。

选择时要求:模型中每个解释变量影响显著,参数符号正确,调整后的R-平方有所提高或下降极小。

3. 在选取的二元回归模型中以同样方式引入第三个变量,如此下去,直至无法引入新
的变量时为止。

以上例来说明逐步回归的过程。

作业:
1. 古典回归模型是否要求模型不存在多重共线性?多重共线性是否会影响OLS 估计的无
偏性和有效性?具体产生哪些不利影响?
2. 试述产生多重共线性的原因和解决多重共线性的基本思路。

3. 建立生产函数
Y AL K αβ=时,
(1) 若K ,L 高度相关,用OLS 方法估计模型时会出现什么问题?
(2) 若已知该生产过程的规模报酬不变(即1αβ+=),应该如何估计模型?写出具体步骤。

4. 表3是1978——1997年我国钢材产量Y (万吨)、生铁产量X1(万吨),发电量X2(亿
千瓦小时),固定资产投资X3(亿元),国内生产总值X4(亿元),铁路运输量X5(万吨)的统计资料。

(1) 计算各个变量之间的相关系数,分析多重共线性的可能类型。

(2) 根据逐步回归原理,建立我国钢产量预测模型。

相关文档
最新文档