最新多重共线性的解决之法
多元回归分析中的多重共线性及其解决方法
![多元回归分析中的多重共线性及其解决方法](https://img.taocdn.com/s3/m/d7b29d6a905f804d2b160b4e767f5acfa1c783e2.png)
多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
§74消除多重共线性的方法
![§74消除多重共线性的方法](https://img.taocdn.com/s3/m/2d2a7a5132687e21af45b307e87101f69e31fb2d.png)
二、对如下一些情况,多重共线性可不作处理
1、当所有参数估计量皆显著或者t值皆远大于2时。
2、当因变量对所有自变量回归的拟合优度值大于缺
任何一个自变量对其余自变量回归的拟合优度
R
2 j
时,可对多重共线性不作处理。
3、如果样本回归方程仅用于预测的目的,那么只要 存在于给定样本中的共线现象在预测期保持不变 ,多重共线性不会影响预测结果。
九、逐步回归法(Frisch综合分析法)
步骤如下: 第一步 用被解释变量对每一个所考虑的解释变量做
简单回归。然后,根据统计检验的结果,选出最优 简单回归方程,称为基本回归方程。 第二步 将其余的解释变量逐步加入到基本回归方程 中,建立一系列回归方程,然后按下列标准来判断 加入的变量。
(1)若新加入的变量提高了可决系数,且回归参 数在经济理论上和统计检验上也合理,便认为此 变量是有利变量,予以接纳。
4、如果多重共线性并不严重影响参数估计值,以至 于我们不需要改进它时。
三. 利用非样本先验信息
通过经济理论分析能够得到某些参数之间 的关系,可以将这种关系作为约束条件, 将此约束条件和样本信息结合起来进行约 束最小二乘估计。
例如:生产函数中劳力和资本的弹性系数之 和为1.
四、 变换模型形式
有些经济模型并不要分析每个解释变量对 被解释变量的影响,因此可根据经济理论 或实际经验将原模型作某些变换会改变定 量形式,从而避免或减少共线性。
来估计β,这种估计参数的方法,称为岭回
归估计法,为岭回归系数。
• 在岭回归分析中关键问题是如何选择λ值, 迄今为止,已有十余种选择λ值的方法,但 没有一种方法被证明显著地优于其它方法。
• 岭回归方法是70年代以后发展起来的,在计 量经济学中还是新方法,无论方法本身还是 实际应用都还很不完善。
4.4 多重共线性的补救措施
![4.4 多重共线性的补救措施](https://img.taocdn.com/s3/m/e6ffd8a2fd0a79563c1e7250.png)
• 如果模型出现了严重的多重共线性,就应采取 必要的措施进行补救。然而,由于经济系统的 复杂性,要将多重共线性消除干净几乎是不可 能的,只能选择合适的方法减弱多重共线性对 模型的影响。目前,常用的方法有以下几种: • 一、增加样本容量
• 在计量经济模型中,如果变量样本数据太少,很 容易产生多重共线性。在这种情况下,增加样本容量, 将有助于减弱,甚至消除多重共线性。
• 本章实例参见教材P85~P88.
8
3
三、逐步回归法
• 1.目的:寻找最优回归方程——使R2较 大,F显著;每个回归系数显著 • 2.种类 • (1)逐个剔除法 • (2)逐个引入法 • (3)有进有出法 • 3.准则:一次只能引入或剔除一个自变 量,直至模型中所有自变量均显著 4
• 4、基本做法:
将应变量 Y 的每一个解释变量Xi (i=1,2, …,k)分别进行回归,对每一个回归方程根据 经济理论和统计检验进行综合分析判断,从中挑出一 个最优的基本回归方程,在此基础上,再逐一引入其 它解释变量,重新作回归,逐步扩大模型的规模,直 至从综合情况看,出现最好的模型估计形式。 5、变量取舍标准:在引进新解释变量的回归方程中: (1)如果新解释变量在符合经济意义的前提下,能使 拟合优度R2有所提高,并且,每个参数统计检验显著, 则采纳改变量。 (2)如果新解释变量不能改善拟合优度,同时,对 其它参数无明显影响,则可舍弃该变量。 (3)如果新解释变量能使拟合优度有所改善, R2 有所提高,但对其它参数的符号和数值有明显影响, 统计检验也不显著,则可以断定新解两个变量中,舍去 对应变量影响较小,经济意义相对次要的一个,保留 影响较大,经济意义相对重要的一个。 5
五、将时间序列数据与界面数据相结合
回归分析中的多重共线性问题及解决方法(七)
![回归分析中的多重共线性问题及解决方法(七)](https://img.taocdn.com/s3/m/09ea80806037ee06eff9aef8941ea76e59fa4a7d.png)
回归分析是统计学中常用的一种方法,它用于研究自变量和因变量之间的关系。
然而,在实际应用中,经常会遇到多重共线性的问题,这给回归分析带来了一定的困难。
本文将讨论回归分析中的多重共线性问题及解决方法。
多重共线性是指独立自变量之间存在高度相关性的情况。
在回归分析中,当自变量之间存在多重共线性时,会导致回归系数估计不准确,标准误差增大,对因变量的预测能力降低,模型的解释能力受到影响。
因此,多重共线性是回归分析中需要重点关注和解决的问题之一。
解决多重共线性问题的方法有很多种,下面将介绍几种常用的方法。
一、增加样本量增加样本量是解决多重共线性问题的一种方法。
当样本量足够大时,即使自变量之间存在一定的相关性,也能够得到较为稳健的回归系数估计。
因此,可以通过增加样本量来减轻多重共线性对回归分析的影响。
二、使用主成分回归分析主成分回归分析是一种常用的处理多重共线性问题的方法。
主成分回归分析通过将原始自变量进行线性变换,得到一组新的主成分变量,这些主成分变量之间不存在相关性,从而避免了多重共线性问题。
然后,利用这些主成分变量进行回归分析,可以得到更为准确稳健的回归系数估计。
三、岭回归岭回归是一种经典的解决多重共线性问题的方法。
岭回归通过对回归系数施加惩罚项,从而减小回归系数的估计值,进而降低多重共线性对回归分析的影响。
岭回归的思想是在最小二乘估计的基础上加上一个惩罚项,通过调节惩罚项的系数来平衡拟合优度和模型的复杂度,从而得到更为稳健的回归系数估计。
四、逐步回归逐步回归是一种逐步选择自变量的方法,可以用来解决多重共线性问题。
逐步回归可以通过逐步引入或剔除自变量的方式,来得到一组最优的自变量组合,从而避免了多重共线性对回归系数估计的影响。
以上所述的方法都可以用来解决回归分析中的多重共线性问题。
在实际应用中,应该根据具体的情况选择合适的方法来处理多重共线性问题,从而得到准确可靠的回归分析结果。
总之,多重共线性是回归分析中需要重点关注的问题,通过合适的方法来处理多重共线性问题,可以得到更为准确稳健的回归系数估计,从而提高回归分析的预测能力和解释能力。
多重共线性解决方法
![多重共线性解决方法](https://img.taocdn.com/s3/m/a4f3a53891c69ec3d5bbfd0a79563c1ec5dad7da.png)
多重共线性解决方法
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况,这会导致模型的解释能力下降,系数估计不准确,模型的稳定性受到影响。
以下是一些解决多重共线性问题的方法:
1.增加样本量:通过增加样本量可以减少模型中的抽样误差,从而减轻多重共线性的影响。
2.删除冗余变量:通过剔除高度相关的自变量,可以降低共线性的程度。
可以使用相关性矩阵或者变量膨胀因子(VIF)来判断哪些自变量之间存在高相关性,并选择保留一个或几个相关性较为弱的变量。
3.主成分分析(PCA):主成分分析可以将高度相关的自变量转换成一组无关的主成分,从而降低共线性的影响。
可以选择保留其中的几个主成分作为新的自变量,代替原始的自变量。
4.岭回归(Ridge Regression):岭回归是在普通最小二乘法的基础上加入一个正则化项,通过缩小系数估计的幅度,减少共线性对系数估计的影响。
岭回归可以通过交叉验证选择合适的正则化参数。
5.套索回归(Lasso Regression):套索回归也是在普通最小二乘法的基础上加入一个正则化项,不同的是套索回归使用L1范数作为正则化项,可以将一些系
数估计缩减为零,从而实现变量选择的效果。
6.弹性网回归(Elastic Net Regression):弹性网回归是岭回归和套索回归的结合,同时使用L1和L2范数作为正则化项,可以在预测准确性和变量选择之间进行权衡。
以上方法可以根据具体问题的特点和需求选择合适的方法来解决多重共线性问题。
如何进行多重共线性的剔除变量和合并变量处理
![如何进行多重共线性的剔除变量和合并变量处理](https://img.taocdn.com/s3/m/60837cb8c9d376eeaeaad1f34693daef5ef713aa.png)
如何进行多重共线性的剔除变量和合并变量处理在进行统计分析时,研究人员常常会面临多重共线性的问题。
多重共线性是指自变量之间存在高度相关性,这可能会导致回归模型的不准确性和不可靠性。
为了解决多重共线性问题,研究人员可以采取剔除变量和合并变量的处理方法。
1. 多重共线性的检测在进行多重共线性的处理之前,首先需要进行多重共线性的检测。
常用的方法包括计算变量间的相关系数矩阵、方差膨胀因子和特征值等。
当相关系数矩阵中存在高度相关的变量对,方差膨胀因子大于10或特征值接近于0时,便可以判断存在多重共线性的问题。
2. 剔除变量剔除变量是指在多重共线性问题较为严重的情况下,研究人员可以选择将相关性较高的变量从模型中剔除。
剔除变量的方法包括:(1)选择与因变量关系较弱的变量;(2)选择与其他自变量之间相关性较弱的变量;(3)通过逐步回归、岭回归等方法进行变量选择。
3. 合并变量合并变量是指将多个具有相关性的变量合并成一个新的变量。
合并变量的方法包括:(1)计算多个变量的平均值、加权平均值或标准化值作为新的变量;(2)进行主成分分析,提取主成分作为新的变量;(3)进行因子分析,提取公因子作为新的变量。
4. 多重共线性处理的注意事项在进行多重共线性处理时,还需要注意以下几点:(1)根据研究目的和背景知识选择要剔除或合并的变量;(2)确保剔除或合并后的变量仍能保持原有变量的信息;(3)在剔除或合并变量后重新评估回归模型的拟合程度和解释能力。
总结起来,解决多重共线性问题的方法包括剔除变量和合并变量。
通过合理选择要剔除或合并的变量,并进行适当的处理,可以提高回归模型的准确性和可靠性。
在实际应用中,根据研究目的和数据特点来选择合适的方法进行多重共线性处理,从而得到更可靠的统计分析结果。
第四章第四节 多重共线性的补救措施
![第四章第四节 多重共线性的补救措施](https://img.taocdn.com/s3/m/9dbe4d0525c52cc58ad6be35.png)
其中, Yt 为商品的消费量, X 2t 为商品的价格,X3t 为消费者收入,若通过抽样调查得到截面数据从而
求得消费者收入的边际消费倾向估计量 ˆ3 ,则上式
变为:
Yt ˆ3 X3t 1 2 X2t ut
令 Yt* Yt ˆ3X3t ,则 Yt* 1 2 X 2t ut
如果原模型(4.4.13)式存在严重的多重共 线性,那么一般情况下,经过差分变换后 会对减轻或消除多重共线性。但是在对一 阶差分式的估计中极有可能会出现 ut 序 列相关的问题,将不满足高斯-马尔可夫 定理(古典假设)。所以,一般情况下, 差分形式应慎用。
五、逐步回归法
基本做法:1.将被解释变量Y对每一个解 释变量 Xi (i 1,2,, k) 分别进行回归,对每一个 回归方程根据经济理论和统计检验进行综合分 析判断,从中挑选出一个最优的基本回归方程。 2.在此基础上,再逐一引入其他解释变量,重 新作回归,逐步扩大模型的规模,直至从综合 情况看出现最好的模型估计形式。
但是劳动力的增长同资本的增长随时间的变换呈高
度相关。如果已知规模报酬不变,即 1 ,则 生产函数变为:
Qt
ALt
K
1 t
从而有:
ห้องสมุดไป่ตู้
Qt Kt
A( Lt ) Kt
Qt
Lt
其中 Kt 为资本产出率, Kt 为劳动对资本的
投入率。将上式两边去对数得:
ln( Qt ) ln A ln( Lt )
1
* 2
X 3t X 2t
ut
可回避原模型的多重共线性。
多重共线性的处理
![多重共线性的处理](https://img.taocdn.com/s3/m/ad9173c94028915f804dc2b2.png)
14
主成分数学模型以及几何意义
假设我们所讨论的实际问题中,有p个指标,我们把这p个指 标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就 是要把这p个指标的问题,转变为讨论p个指标的线性组合的 问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留 主要信息量的原则充分反映原指标的信息,并且相互独立。
这样反复进行,直到再无新变量可以引入,旧变量无法提出 位置。最终建立回归方程
在变量引入后,如果有的变量不显著,则说明新引入的变量 与其他变量存在多重共线性。此时我们将最显著程度达不到 标准的变量剔除。在这个过程中,我们达到了消除多重共线 性的效果。
第二种方法:主成分分析法
主成分分析法是利用降维的思想,在保留原始变量尽可能多 的信息的前提下把多个指标转化为几个综合指标的方法。 通常把转化生成的综合指标称为主成分,每一个主成分都是 原始变量的线性组合,但是各个主成分之间没有相关性,这 就解决的多重共线性的问题。
如果第一主成分不足以代替原来的几个变量的信息,再考虑 选取第二个主成分F2。为了消除多重共线性,要求协方差 cov(F1,F2)=0 以此类推可以选取第三主成分,第四主成分…这些主成分之 间不仅互不相关,而且它们的方差依次递减。 一般来说,选取多少个主成分能够反映原始变量方差的85% 时的个数就足够了。
满足如下的条件:
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(F1) Var ( F2 ) Var ( Fp )
10
平移、旋转坐标轴
x2 F2 F1
•• • • • • • • • • • • •• • •• • 成分分析的几何解释 •• • • • •• • • • • •• • • • • • •
多重共线性问题的几种解决方法【最新】
![多重共线性问题的几种解决方法【最新】](https://img.taocdn.com/s3/m/cda3cb2482c4bb4cf7ec4afe04a1b0717fd5b375.png)
多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。
如何解决多重共线性问题
![如何解决多重共线性问题](https://img.taocdn.com/s3/m/d75827732f3f5727a5e9856a561252d380eb20fc.png)
如何解决多重共线性问题多重共线性是统计学中常见的问题,特别是在回归分析中。
它指的是自变量之间存在高度相关性,导致回归模型的稳定性和解释能力下降。
在实际应用中,解决多重共线性问题是非常重要的,下面将探讨一些常用的方法。
1. 数据收集和预处理在解决多重共线性问题之前,首先需要对数据进行收集和预处理。
数据的收集应该尽可能地多样化和全面,以避免自变量之间的相关性。
此外,还需要对数据进行清洗和转换,以确保数据的准确性和一致性。
2. 相关性分析在回归分析中,可以通过计算自变量之间的相关系数来评估它们之间的相关性。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
如果发现自变量之间存在高度相关性,就需要考虑解决多重共线性问题。
3. 方差膨胀因子(VIF)方差膨胀因子是用来评估自变量之间共线性程度的指标。
它的计算方法是将每个自变量作为因变量,其他自变量作为自变量进行回归分析,然后计算回归系数的标准误差。
VIF越大,表示自变量之间的共线性越强。
一般来说,VIF大于10就表明存在严重的多重共线性问题。
4. 特征选择特征选择是解决多重共线性问题的一种常用方法。
通过选择与因变量相关性较高,但与其他自变量相关性较低的自变量,可以减少共线性的影响。
常用的特征选择方法包括逐步回归、岭回归和Lasso回归等。
5. 主成分分析(PCA)主成分分析是一种降维技术,可以将多个相关自变量转化为一组无关的主成分。
通过保留主成分的前几个,可以减少自变量之间的相关性,从而解决多重共线性问题。
但需要注意的是,主成分分析会损失部分信息,可能会影响模型的解释能力。
6. 岭回归和Lasso回归岭回归和Lasso回归是一种通过引入惩罚项来解决多重共线性问题的方法。
岭回归通过在最小二乘估计中添加一个L2正则化项,可以减小回归系数的估计值,从而减少共线性的影响。
Lasso回归则通过在最小二乘估计中添加一个L1正则化项,可以使得一些回归系数变为零,从而实现变量选择的效果。
消除多重共线性的方法
![消除多重共线性的方法](https://img.taocdn.com/s3/m/c12e1a06ff4733687e21af45b307e87101f6f82a.png)
消除多重共线性的方法在统计学和机器学习中,多重共线性是一个常见的问题,它会影响到模型的稳定性和准确性。
多重共线性指的是自变量之间存在高度相关性,这会导致模型的系数估计不准确,增加模型的方差,降低模型的解释能力。
因此,消除多重共线性对于建立稳健的模型非常重要。
那么,如何消除多重共线性呢?下面我们将介绍一些常用的方法。
1. 增加样本量,增加样本量是消除多重共线性的有效方法之一。
当样本量足够大时,即使自变量之间存在一定的相关性,也不会对模型的稳定性造成太大影响。
因此,如果可能的话,可以通过增加样本量来减轻多重共线性带来的问题。
2. 剔除相关性较强的自变量,在建立模型时,可以通过计算自变量之间的相关系数,来判断它们之间是否存在较强的相关性。
如果存在相关性较强的自变量,可以选择剔除其中一个,以减轻多重共线性的影响。
3. 使用主成分分析(PCA),主成分分析是一种常用的降维方法,它可以将原始的自变量转换为一组线性无关的主成分,从而减少自变量之间的相关性。
通过使用主成分分析,可以有效地消除多重共线性带来的问题。
4. 正则化方法,正则化方法(如岭回归、Lasso回归)可以通过在模型的损失函数中加入正则项,来约束模型的系数估计,从而减少多重共线性的影响。
通过选择合适的正则化参数,可以有效地消除多重共线性。
5. 使用变量选择方法,变量选择方法(如逐步回归、Lasso回归)可以通过选择合适的自变量子集,来减少模型中自变量之间的相关性,从而消除多重共线性的影响。
总之,消除多重共线性是建立稳健模型的关键步骤之一。
通过增加样本量、剔除相关性较强的自变量、使用主成分分析、正则化方法和变量选择方法等方法,可以有效地消除多重共线性的影响,提高模型的稳定性和准确性。
希望本文介绍的方法能够对大家有所帮助。
解决多重共线性的方法
![解决多重共线性的方法](https://img.taocdn.com/s3/m/85b6c42fae1ffc4ffe4733687e21af45b307fe82.png)
解决多重共线性的方法多重共线性是回归分析中常见的问题之一,指的是自变量之间存在高度相关关系,导致回归分析结果不准确、稳定性差。
解决多重共线性问题的主要方法有以下几种:1. 删除相关性较高的自变量:检查自变量之间的相关性,当相关系数大于0.7或0.8时,考虑删除其中一个自变量。
通常选择与因变量相关性更强的自变量作为模型的预测变量。
2. 增加样本量:多重共线性问题的一个原因是样本量较小,数据集中存在较少的观测点。
增加样本量可以减少误差,增强回归模型的稳定性。
3. 主成分分析(Principal Component Analysis, PCA):PCA是一种常用的降维方法,可以将高维的自变量空间转化为低维空间,去除自变量之间的相关性。
首先利用相关系数矩阵进行特征值分解,然后根据特征值大小选取主成分,最后通过线性变换将原始自变量转化为主成分。
4. 岭回归(Ridge Regression):岭回归是一种正则化方法,通过增加一个正则项(L2范数)来限制模型中系数的大小,从而减小共线性的影响。
岭回归可以在一定程度上缓解多重共线性问题,但会引入一定的偏差。
5. 奇异值分解(Singular Value Decomposition, SVD):奇异值分解是一种常用的矩阵分解方法,可以将自变量矩阵分解为三个矩阵的乘积,其中一个矩阵表示主成分。
通过去除奇异值较小的主成分,可以减少共线性问题。
6. 距离相关系数(Variance Inflation Factor, VIF):VIF用于度量自变量之间的相关性程度,计算每个自变量的VIF值,若VIF值大于10,则认为存在严重的多重共线性问题。
通过删除VIF值较高的自变量,可以解决多重共线性。
除了以上方法,还需注意以下问题:1. 尽量选择“经济学意义上的变量”作为自变量,避免冗余变量的引入。
2. 如果共线性问题严重,即使通过降维方法或者删除变量,仍然无法解决,可以考虑选择其他回归模型,如岭回归、Lasso回归等,这些模型在设计时已经考虑到了多重共线性问题。
多重共线性问题的定义和影响多重共线性问题的检验和解决方法
![多重共线性问题的定义和影响多重共线性问题的检验和解决方法](https://img.taocdn.com/s3/m/1af03274b80d6c85ec3a87c24028915f814d8476.png)
多重共线性问题的定义和影响多重共线性问题的检验和解决方法多重共线性问题的定义和影响,多重共线性问题的检验和解决方法多重共线性问题是指在统计分析中,使用多个解释变量来预测一个响应变量时,这些解释变量之间存在高度相关性的情况。
共线性是指两个或多个自变量之间存在线性相关性,而多重共线性则是指两个或多个自变量之间存在高度的线性相关性。
多重共线性问题会给数据分析带来一系列影响。
首先,多重共线性会导致统计分析不准确。
在回归分析中,多重共线性会降低解释变量的显著性和稳定性,使得回归系数估计的标准误差变大,从而降低模型的准确性。
其次,多重共线性会使得解释变量的效果被混淆。
如果多个解释变量之间存在高度的线性相关性,那么无法确定每个解释变量对响应变量的独立贡献,从而使得解释变量之间的效果被混淆。
此外,多重共线性还会导致解释变量的解释力度下降。
当解释变量之间存在高度的线性相关性时,其中一个解释变量的变化可以通过其他相关的解释变量来解释,从而降低了该解释变量对响应变量的独立解释力度。
为了检验和解决多重共线性问题,有几种方法可以采用。
首先,可以通过方差膨胀因子(VIF)来判断解释变量之间的相关性。
VIF是用来度量解释变量之间线性相关性强度的指标,其计算公式为:VIFi = 1 / (1 - R2i)其中,VIFi代表第i个解释变量的方差膨胀因子,R2i代表模型中除去第i个解释变量后,其他解释变量对第i个解释变量的线性回归拟合优度。
根据VIF的大小,可以判断解释变量之间是否存在多重共线性。
通常来说,如果某个解释变量的VIF大于10或15,那么可以认为该解释变量与其他解释变量存在显著的多重共线性问题。
其次,可以通过主成分分析(PCA)来降低多重共线性的影响。
PCA是一种降维技术,可以将高维的解释变量压缩成低维的主成分,从而减少解释变量之间的相关性。
通过PCA,可以得到一组新的解释变量,这些新的解释变量之间无相关性,并且能够保留原始解释变量的主要信息。
多重共线性的解决之法
![多重共线性的解决之法](https://img.taocdn.com/s3/m/975c9c8da98271fe900ef939.png)
第七章 多重共线性教学目的及要求:1、重点理解多重共线性在经济现象中的表现及产生的原因和后果2、掌握检验和处理多重共线性问题的方法3、学会灵活运用Eviews 软件解决多重共线性的实际问题。
第一节 多重共线性的产生及后果一、多重共线性的含义1、含义在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2、类型多重共线性包含完全多重共线性和不完全多重共线性两种类型。
〔1〕完全多重共线性完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。
如对于多元线性回归模型i ki k i i i X X X Y μββββ+++++= 22110〔7-1〕存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=+++ki k i i λλλ 〔7-2〕那么可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。
从矩阵形式来看,就是0'=X X , 即1)(-<k X rank ,观测值矩阵是降秩的,说明在向量X中至少有一个列向量可以由其他列向量线性表示。
〔2〕不完全多重共线性不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。
如对于多元线性回归模型〔7-1〕存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=++++i ki k i i u λλλ 〔7-3〕其中i u 为随机误差项,那么可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。
计量经济学试题计量经济学中的多重共线性问题与解决方法
![计量经济学试题计量经济学中的多重共线性问题与解决方法](https://img.taocdn.com/s3/m/ddb4cbce8662caaedd3383c4bb4cf7ec4afeb6d4.png)
计量经济学试题计量经济学中的多重共线性问题与解决方法计量经济学试题-多重共线性问题与解决方法在计量经济学中,多重共线性是一个重要的问题。
它指的是当两个或多个自变量之间存在高度相关性时,会导致模型估计的结果不准确或者不可靠。
多重共线性问题在经济学研究中经常出现,因此探索解决方法是非常必要的。
一、多重共线性问题的原因多重共线性问题通常由于样本中的自变量之间存在强烈的线性相关性而引发。
例如,当一个自变量可以通过其他自变量的线性组合来表示时,就会出现多重共线性问题。
这种情况下,模型估计的结果会变得不稳定,标准误差会变得很大,使得对自变量的解释变得困难。
二、多重共线性问题的影响多重共线性问题对计量经济模型的影响是多方面的。
首先,它会导致模型估计结果的不稳定性。
当自变量之间存在高度相关性时,即使是微小的样本误差也会导致模型估计结果的显著变化。
其次,多重共线性问题会导致标准误差的上升,使得参数的显著性检验变得困难。
最后,多重共线性问题还会导致模型解释力的下降,使得对自变量对因变量的影响进行准确的解释变得困难。
三、解决多重共线性问题的方法1. 删除变量:当发现自变量之间存在高度相关性时,一种解决方法是删除其中一个变量。
如果某个自变量可以用其他变量线性表示,就可以考虑将其删除。
然而,删除变量的过程需要谨慎,以免造成结果的失真。
2. 采用主成分分析:主成分分析是一种常用的处理多重共线性问题的方法。
它通过对自变量进行线性组合,生成新的主成分变量,从而消除原始自变量之间的相关性。
通过采用主成分分析,可以得到一组无关的自变量,从而解决多重共线性问题。
3. 利用岭回归:岭回归是一种通过增加正则化项来减小模型参数估计标准误差的方法。
通过岭回归,可以有效地解决多重共线性问题。
岭回归对相关自变量的系数进行惩罚,从而减小系数估计的方差。
这种方法可以提高模型的准确性和稳定性。
4. 使用其他估计方法:在实际应用中,还可以采用其他估计方法来解决多重共线性问题。
回归分析中的多重共线性问题及解决方法(八)
![回归分析中的多重共线性问题及解决方法(八)](https://img.taocdn.com/s3/m/56160f4977c66137ee06eff9aef8941ea66e4b7d.png)
回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。
然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。
多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。
本文将探讨回归分析中的多重共线性问题及解决方法。
1. 多重共线性问题的影响多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。
此外,多重共线性还会导致回归系数的符号与理论预期相悖,使得模型的解释能力大大减弱。
2. 多重共线性问题的诊断为了解决回归分析中的多重共线性问题,首先需要进行诊断。
常用的诊断方法包括:方差膨胀因子(VIF)、特征根分析、条件数等。
其中,VIF是应用最为广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。
一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。
3. 解决多重共线性的方法一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。
常用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。
其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。
合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。
主成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。
这些方法各有优劣,需要根据具体情况来选择合适的方法。
4. 实例分析为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。
假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。
通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。
为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。
如何解决支持向量机算法中的多重共线性问题
![如何解决支持向量机算法中的多重共线性问题](https://img.taocdn.com/s3/m/dd048f2511a6f524ccbff121dd36a32d7275c77d.png)
如何解决支持向量机算法中的多重共线性问题支持向量机(Support Vector Machine,简称SVM)是一种常用的机器学习算法,被广泛应用于分类和回归问题。
然而,在实际应用中,我们常常会遇到多重共线性问题,这会导致SVM的性能下降甚至失效。
本文将探讨如何解决SVM中的多重共线性问题。
1. 引言多重共线性是指在数据集中存在多个自变量之间高度相关的情况。
在SVM中,多重共线性会导致模型的不稳定性和预测精度的下降。
因此,解决多重共线性问题对于提高SVM的性能至关重要。
2. 特征选择特征选择是解决多重共线性问题的一种常用方法。
通过选择与目标变量相关性较高的特征,可以减少冗余信息和共线性带来的干扰。
特征选择的方法包括过滤法、包装法和嵌入法等。
其中,嵌入法是一种基于模型的特征选择方法,可以通过正则化项来约束模型的复杂度,从而减少共线性的影响。
3. 数据标准化数据标准化是解决多重共线性问题的另一种常用方法。
通过将数据进行标准化处理,可以将不同特征的取值范围统一,避免由于尺度不同而引起的共线性问题。
常用的数据标准化方法包括Z-Score标准化和MinMax标准化等。
4. 正则化正则化是一种常用的解决多重共线性问题的方法。
在SVM中,正则化可以通过引入惩罚项来约束模型的复杂度,从而减少共线性的影响。
常用的正则化方法包括L1正则化和L2正则化等。
这些方法可以在优化目标函数中加入正则化项,从而通过调整正则化参数来平衡模型的复杂度和拟合精度。
5. 核函数选择核函数选择也是解决多重共线性问题的一种重要方法。
在SVM中,核函数可以将数据从原始空间映射到高维特征空间,从而解决非线性问题。
通过选择适当的核函数,可以将数据在特征空间中进行有效的分离,减少共线性的影响。
常用的核函数包括线性核函数、多项式核函数和高斯核函数等。
6. 交叉验证交叉验证是一种常用的评估模型性能和选择超参数的方法。
在解决多重共线性问题时,可以通过交叉验证来选择最优的正则化参数和核函数参数,从而提高模型的鲁棒性和泛化能力。
145-演示文稿-多重共线性问题的补救
![145-演示文稿-多重共线性问题的补救](https://img.taocdn.com/s3/m/b4db5a18f90f76c661371afc.png)
《计量经济学》,高教出版社,王少 平、杨继生和欧阳志刚等编著8Fra bibliotek 本章小结 :
1. 多重共线性是指解释变量 X 之间有准确或近似的线性关系。多重 共线性问题本质上是样本问题。
2. 多重共线性分为两种:完全多重共线性和不完全多重共线性,其 中不完全多重共线性比较普遍,而完全多重共线性很少出现。
3. 不完全多重共线性虽然不违反经典假定,但他会导致参数的 OLS 估计量具有较大的方差和标准误,因而统计推断不可靠。
《计量经济学》,高教出版社,王少 平、杨继生和欧阳志刚等编著
2
4. 逐步回归法 逐 步 回 归 法 是指在选择变量时,遵从“由少到多”的原则,即从所有
解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的 变量逐个地引入;每引入一个变量,就对模型中所有解释变量进行显著性 检验,并从中剔除不显著变量;逐步引入 - 剔除 - 引入,直到模型之外所有 变量均不显著。
4. 多重共线性的侦察包括相关系数矩阵法、辅助回归法、方差膨胀 因子法、回归结果的直观判断法。
5. 多重共线性的补救包括增加样本容量、去掉引起共线性的解释变 量、变换变量或者变换模型的形式、逐步回归法、无为而治等方 法。
《计量经济学》,高教出版社,王少 平、杨继生和欧阳志刚等编著
9
《计量经济学》,高教出版社,王少 平、杨继生和欧阳志刚等编著
1
2. 增大样本容量 造成多重共线性的直接原因是参数 OLS 估计量的标准误增大,因此如 何减小因多重共线性导致 OLS 估计量的标准误是解决多重共线性问题 的目的之一。我们知道,增加样本容量,可以提高回归参数的估计精 度,即可以导致回归参数的方差和标准误减小, t 检验值也随之增大 ,因此尽可能地收集足够多的数据可以改进模型参数的估计,提高参 数估计的精度和假设检验的有效性。
消除多重共线性的方法
![消除多重共线性的方法](https://img.taocdn.com/s3/m/f7dd5ee82e3f5727a4e9628a.png)
多重共线性可不作处理。
2.当因变量对所有自变量回归的拟合优度R2值大于缺
任何一个自变量对其余自变量回归的拟合优度值
R
2 j
时,对多重共线性可不作处理。
3.如果样本回归方程仅用于预测的目的,那么只 要存在于给定样本中的共线现象在预测期保持不 变,多重共性就不会影响预测结果,因此多重共 线性可不作处理。 4.如果多重共线性并不严重影响参数估计值,以 至于我们感到不需要改进它时,多重共线性可不 作处理。
七、对所有变量作滞后差分变换
设有模型
yt 0 1 x1t 2 x2t ut
(7.4.20)
假定样本为时间序列,并且x1与x2共线,其一阶滞 后差分形式为
yt yt1 1(x1t x1(t1)) 2 (x2t x2(t1)) (ut ut1) (7.4.21)
(7.4.21)简记为
九、Frisch综合分析法
Frisch(费瑞希)综合分析法也被称作逐步分析法。
这种方法的观点是多重共线性应从相关系数r、拟合优
度R2和标准误差三方面综合考虑,其具体方法可分为
二步:
第一步:将因变量y分别对自变量 x1, x2 , x3, xk
作简单回归: y f (x1)
y f (x2)
y f (xk)
但是,对于大样本有关系:
x1t x2t x1t x2(t1) x1(t1) x2t x1(t1) x2(t1)
所以有 r1*2 0 。
可见,一阶差分后模型几乎没有多重共线性,因而
减少了多重共线的影响。
应该指出这种方法的缺点是在减少了多重共线影响
的同时,却带来自相关的随机扰动项。
八、引入附加方程 对于存在严重多重共线性的解释变量,应设法找出 它们之间的因果关系,并将这种关系制成模型,将 此模型作为附加模型与原模型联立组成一个联立方 程模型。如果这个联立方程模型是可以识别的,就 可以较有效地消除多重共线性的影响。
多重共线性处理方法
![多重共线性处理方法](https://img.taocdn.com/s3/m/c8b4f4d249649b6648d74736.png)
1、岭回归:
1962年,A.E.Hoerl针对多重共线性的问题, 提出了一种叫岭回归的回归估计方法。对线 性模型
Y = β 0 + β1 X 1 + β 2 X 2 + ⋯ + β m X m + ε
定义偏回归系数β的岭估计为
ˆ β (k ) = X T X + kI
其中k称为岭参数。
(
)
−1
X TY
基本思路
首先在自变量集中提取第一潜因子t1(t1是 x1,x2,…,xm的线性组合,且尽可能多地提取原自变 量集中的变异信息);同时在因变量集中也提取第一 潜因子u1,并要求t1与u1相关程度达最大。 然后建立因变量Y与t1的回归,如果回归方程已达到 满意的精度,则算法终止。否则继续第二轮潜在因 子的提取,直到能达到满意的精度为止。 若最终对自变量集提取m个潜因子t1,t2,…,tm,偏 最小二乘回归将建立Y与t1,t2,…,tm的回归式,然 后再表示为Y与原自变量的回归方程式。
小结
以上介绍了三种解决多重共线性问题的方法, 它们各自都有其特点及适用范围:偏最小二 乘法在解决多因变量与自变量方面及预测方 面有着比其它两种方法更优越的地方,但在t 的实际意义解释方面与主成分一样比的人为 因素,使之缺乏一定的科学性,但也正因为如 此,使它能够很好地把定性分析与定量分析 两者有机地结合起来。由于这三种方法估计 出的参数值都是有偏的,所以在未出现多重 线性相关问题时最好还是用普通最小二乘法 来估计参数。从实际运用来看最小二乘法与 岭回归的模拟效果相对来说好一些。
多重共线性的处理
为了避免共线性的影响,目前多采用回归系 数有偏估计的方法,即为了减小偏回归系数 估计的方差而放弃对估计的无偏性要求。换 言之,允许估计有不大的偏度,以换取估计方 差可显著减小的结果,并在使其总均方差为 最小的原则下估计回归系数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重共线性的解决之法第七章多重共线性教学目的及要求:1、重点理解多重共线性在经济现象中的表现及产生的原因和后果2、掌握检验和处理多重共线性问题的方法3、学会灵活运用Eviews软件解决多重共线性的实际问题。
第一节多重共线性的产生及后果一、多重共线性的含义1、含义在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2、类型多重共线性包含完全多重共线性和不完全多重共线性两种类型。
(1)完全多重共线性完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。
如对于多元线性回归模型i ki k i i i X X X Y μββββ+++++= 22110 (7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=+++ki k i i λλλ (7-2)则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。
从矩阵形式来看,就是0'=X X , 即1)(-<k X rank ,观测值矩阵是降秩的,表明在向量X中至少有一个列向量可以由其他列向量线性表示。
(2)不完全多重共线性不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。
如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=++++i ki k i i u λλλ (7-3)其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。
随机误差项表明上述线性关系是一种近似的关系式,大体上反映了解释变量间的相关程度。
完全多重共线性与完全非线性都是极端情况,一般说来,统计数据中多个解释变量之间多少都存在一定程度的相关性,对多重共线性程度强弱的判断和解决方法是本章讨论的重点。
二、多重共线性产生的原因多重共线性在经济现象中具有普遍性,其产生的原因很多,一般较常见的有以下几种情况。
(一)经济变量间具有相同方向的变化趋势在同一经济发展阶段,一些因素的变化往往同时影响若干经济变量向相同方向变化,从而引起多重共线性。
如在经济上升时期,投资、收入、消费、储蓄等经济指标都趋向增长,这些经济变量在引入同一线性回归模型并作为解释变量时,往往存在较严重的多重共线性。
(二)经济变量间存在较密切关系由于组成经济系统的各要素之间是相互影响相互制约的,因而在数量关系上也会存在一定联系。
如耕地面积与施肥量都会对粮食总产量有一定影响,同时,二者本身存在密切关系。
(三)采用滞后变量作为解释变量较易产生多重共线性一般滞后变量与当期变量在经济意义上关联度比较密切,往往会产生多重共线性。
如在研究消费规律时,解释变量因素不但要考虑当期收入,还要考虑以往各期收入,而当期收入与滞后收入间存在多重共线性的可能很大。
(四)数据收集范围过窄,有时会造成变量间存在多重共线性问题。
三、多重共线性产生的后果由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模型进行最小二乘估计都会产生严重后果。
(一)完全多重共线性产生的后果以二元线性回归模型为例,i i i i u +++=22110X X Y βββ (7-4) 以离差形式表示,假设其中Y Y i i -=y ,111x X X i i -=,222x X X i i -=,i i X X 21λ=,常数0≠λ,则,i i x x 21λ= ,1β的最小二乘估计量为()∑∑∑∑∑∑∑--=22122212211221ˆiiiiiiiiiiix x x x y x x x y x x β00)x ()x (y x x y x x 22222222222222=--=∑∑∑∑∑∑i ii i i i i i λλλλ (7-5) 同理得到:0ˆ2=β (7-6)可见参数估计值1ˆβ和2ˆβ无法确定。
再考察参数估计量的方差,由前面章节可知:()()2u 22i 1i 22i21i22i1x x xx xˆvar σβ∑∑∑∑-= (7-7)将i i 21x x λ=代入上式,则22222222222^)x ()x (x )1var(∑∑∑-=i iiu λλσβ (7-8) =∞说明此种情况下1ˆβ方差为无穷大。
同理可以证明2ˆβ的方差在完全共线性下也为无穷大。
以上分析表明,在完全多重共线性条件下,普通最小二乘法估计的参数值不能确定,并且估计值的方差为无穷大。
(二)不完全多重共线性产生的后果假设上述二元线性回归模型中解释变量i X 1与i X 2的关系为 i i i v X X +=21λ (7-9)其中i v 为随机项,满足0)(=i v E ,∑=02i i v X ,代入1ˆβ估计表达得:∑∑∑∑∑∑∑+-++-+=22222222222221^])x (x [)x ]()x ([)]x (x )[x ()x )](x (y [^ii i i i i i i i i i i i i i v v v y v λλλλβ =∑∑2y ii i vv(7-10)由于∑≠02i v ,因而1ˆβ是可确定估计的,但是其数值依赖i v 的数值,而iv 的数值随样本的变化有较大变化,所以1ˆβ估计值是很不稳定的。
同理可以证明2ˆβ也是可估计的,且数值具有不稳定性。
考察估计量的方差:由(7-1)式可知λ是i X 1、i X 2的相关系数,因此221121222212212xx )x x (r r r iii i ==∑∑∑λ (7-11) 参数估计量的方差可表达为:()∑∑∑-∑=2)2x 1x (22x 21x 22x 2ˆvar i i i i iμσβ2122121xr iu -=∑σ (7-12)其中12r 为i 1X 和i 2X 之间的相关系数,从(7-12)式可见,||12r 的值越大,则共线程度越高,估计量方差()2ˆvar β越大,直至无穷。
综上所述,线性回归模型解释变量间存在多重共线性可能产生如下后果:增大最小二乘估计量的方差;参数估计值不稳定,对样本变化敏感;检验可靠性降低,产生弃真错误。
由于参数估计量方差增大,在进行显著性检验时,t 检验值将会变小,可能使某些本该参数显著的检验结果变得不显著,从而将重要变量舍弃。
第二节 多重共线性的检验多重共线性是较为普通存在的现象,从上节分析可知,较高程度的多重共线性会对最小二乘估计产生严重后果,因此,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
一、不显著系数法 情况1、2R 很大,t 小不显著系数法是利用多元线性回归模型的拟合结果进行检验。
如果拟合优度2R 的值很大(一般来说在0.8以上),然而模型中的全部或部分参数值估计值经检验却不显著,那么解释变量间有可能存在较严重的多重共线性。
情况2、理论性强,检验值弱如果从经济理论或常识来看某个解释变量对被解释变量有重要影响,但是从线性回归模型的拟合结果来看,该解释变量的参数估计值经检验却不显著,那么可能是解释变量间存在多重共线性所导致的。
情况3、新引入变量后,方差增大在多元线性回归模型中新引入一个变量后,发现模型中原有参数估计值的方差明显增大,则说明解释变量间可能存在多重共线性。
二、拟合优度2j R 检验对多元线性回归模型中各个解释变量相互建立回归方程,分别求出各回归方程的拟和优度,如果其中最大的一个接近1,i F 显著大于临界值,该变量可以被其他变量线性解释,则其所对应的解释变量与其余解释变量间存在多重共线性。
如设某多元线性回归模型中原有k 个解释变量k X ,,X ,X 21 ,将每个解释变量对其他解释变量进行回归,得到k 个回归方程:)X ,X ,X (X 321k f = )X ,X ,X (X 312k f =)X ,,X ,X (X 121-=k k f分别求出上述各个方程的拟合优度2K 2221R ,,, R R ,如果其中最大的一个2i R 接近于1,则它所对应的解释变量i X 与其余解释变量间存在多重共线性。
三、相关矩阵法考察多元线性回归模型k k Y X X 110βββ+++= (7-13)其解释变量之间的相关系数矩阵为:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=11121221112212222111211 k k k k kk k k k k r r r r r r r r r r rr r r r R (7-14)因为ji ij r r =,,所以上面相关阵为对称阵,1=jj r ,只需考察主对角线元素上方(或下方)某个元素绝对值是否很大(一般在0.8以上),就可以判断两个解释变量间是否存在多重共线性。
结论:另外需要特别注意的是,如果相关系数很大,则一定存在多重共线性,如果相关系数很小,不一定没有多重共线性。
四、Frisch 综合分析法 1、方法及分析标准Frisch 综合分析法也叫逐步分析估计法,其基本思想是先将被解释变量对每个解释变量作简单回归方程,称为基本回归方程。
再对每一个基本回归方程进行统计检验,并根据经济理论分析选出最优基本方程,然后再将其他解释变量逐一引入,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使2R 得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对2R 改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了2R ,而且对其他回归系数的数值或符号具有明显影响,则可认为引进新变量后,回归模型解释变量间存在严重多重共线性。
这个新引进的变量如果从理论上分析是十分重要的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。
如果通过检验证明存在明显线性相关的两个解释变量中的一个可以被另一个解释,则可略去其中对被解释变量影响较小的那个变量,模型中保留影响较大的那个变量。
2、具体实例例7-1 设某地10年间有关服装消费、可支配收入、流动资产、服装类物价指数、总物价指数的调查数据如表7-1,请建立需求函数模型。