多重共线性处理方法

合集下载

如何处理逻辑回归模型中的多重共线性

如何处理逻辑回归模型中的多重共线性

逻辑回归模型是一种常用的数据分析方法,它被广泛应用于分类问题的解决。然而,在使用逻辑回归模型时,研究者常常面临一个问题,那就是多重共线性。多重共线性是指自变量之间存在高度相关性的情况,这会导致模型的不稳定性和系数估计的不准确性。因此,如何处理逻辑回归模型中的多重共线性成为了一个重要的问题。

首先,我们需要了解多重共线性对逻辑回归模型的影响。多重共线性会导致

模型的系数估计不准确,使得模型的解释能力下降。此外,多重共线性还会增加模型的方差,使得模型的预测能力变差。因此,处理逻辑回归模型中的多重共线性是至关重要的。

一种常用的处理多重共线性的方法是使用正则化技术。正则化技术通过在目

标函数中引入正则化项,对模型进行惩罚,从而减小模型的系数估计值。常见的正则化方法包括L1正则化和L2正则化。L1正则化通过在目标函数中加入自变量的

绝对值之和,使得一些系数变为零,从而实现特征选择的作用。L2正则化通过在

目标函数中加入自变量的平方和,惩罚系数的绝对值,从而减小系数的估计值。这两种方法可以有效地处理多重共线性问题,提高模型的稳定性和预测能力。

除了正则化技术,还可以使用主成分分析(PCA)等降维方法来处理多重共

线性。主成分分析是一种常用的数据降维技术,它通过线性变换将原始变量转换为一组新的主成分变量,从而减小变量之间的相关性。通过主成分分析,我们可以将高度相关的自变量转换为一组新的无关的主成分变量,从而减小多重共线性的影响。

然后,我们可以使用这些主成分变量来构建逻辑回归模型,从而提高模型的稳定性和预测能力。

共线性的处理方法

共线性的处理方法

共线性的处理方法

共线性指的是数据中存在较高的线性相关性,即自变量之间存在很强的线性关系。共线性问题会对回归分析的结果产生负面影响,使得模型的解释力下降,参数估计不准确,模型结果不可靠。因此,为了解决共线性问题,我们可以采用以下方法:

1. 增加样本容量:共线性问题通常在数据集较小的情况下出现,因此增加样本容量可以降低共线性的影响。收集更多的样本数据,可以提高模型的解释力和拟合程度,更准确地估计参数。

2. 删除多余的自变量:当多个自变量之间存在较强的线性关系时,可以考虑删除其中一个或多个自变量。可以使用相关系数分析或VIF(方差膨胀因子)进行判断,如VIF大于10,则说明存在较强的共线性。删除自变量后重新建立模型,可以降低共线性的影响。

3. 主成分分析(PCA):主成分分析是一种经典的降维方法,可以通过线性变换将原始的自变量转化为一组新的不相关主成分。通过保留解释变量方差的累积贡献率,选择合适的主成分个数,可以降低共线性的问题。PCA可以提高模型的解释力,减少自变量的维度。

4. 岭回归(Ridge Regression):岭回归是一种常见的处理共线性的方法。岭回归通过在最小化残差平方和的同时,加入一个对系数的惩罚项,限制系数的绝对

值。这可以减小相关自变量的系数,降低多重共线性带来的估计误差。岭回归通过牺牲一定的拟合程度来解决共线性问题,适用于较大的回归模型。

5. LASSO回归(Least Absolute Shrinkage and Selection Operator):与岭回归类似,LASSO回归也是通过加入一个对系数的惩罚项来处理共线性问题。与岭回归不同的是,LASSO回归使用的是L1正则化项,可以使得部分系数为零,从而实现变量的选择和降维。LASSO回归适用于自变量之间存在较强相关性的情况。

多重共线性检验方法

多重共线性检验方法

多重共线性检验方法

多重共线性是指自变量之间存在高度相关性,导致回归模型估计的不稳定性和不准确性。在实际的数据分析中,多重共线性经常会对回归分析结果产生严重影响,因此需要采用适当的方法来检验和解决多重共线性问题。本文将介绍几种常用的多重共线性检验方法,帮助读者更好地理解和处理多重共线性问题。

1. 方差膨胀因子(VIF)。

方差膨胀因子是一种常用的多重共线性检验方法,它通过计算自变量的方差膨胀因子来判断自变量之间是否存在多重共线性。方差膨胀因子的计算公式为,VIF = 1 / (1 R^2),其中R^2是自变量对其他自变量的线性相关性的度量,VIF越大表示自变量之间的共线性越严重。一般来说,如果自变量的VIF大于10,就可以认为存在严重的多重共线性问题。

2. 特征值和条件指数。

特征值和条件指数是另一种常用的多重共线性检验方法,它们是通过对自变量之间的相关矩阵进行特征值分解得到的。特征值表

示了自变量之间的共线性程度,而条件指数则可以用来判断自变量

之间的共线性是否严重。一般来说,特征值大于1或条件指数大于

30就表示存在严重的多重共线性问题。

3. Tolerance(容忍度)。

容忍度是一种用来判断自变量之间共线性的指标,它是方差膨

胀因子的倒数。一般来说,如果自变量的容忍度小于0.1,就可以

认为存在严重的多重共线性问题。

4. 相关系数和散点图。

除了上述的定量方法,我们还可以通过观察自变量之间的相关

系数和绘制散点图来判断是否存在多重共线性。如果自变量之间的

相关系数接近1或-1,或者在散点图中存在明显的线性关系,就可

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法

多重共线性问题的几种解决方法

在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。

这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:

1、保留重要解释变量,去掉次要或可替代解释变量

2、用相对数变量替代绝对数变量

3、差分法

4、逐步回归分析

5、主成份分析

6、偏最小二乘回归

7、岭回归

8、增加样本容量

这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。

逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。具体方法分为两步:

第一步,先将被解释变量y对每个解释变量作简单回归:

对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。

第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:

1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上

和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。

多重共线性检验方法

多重共线性检验方法

多重共线性检验方法

多重共线性是多元回归分析中常见的问题,指的是自变量之间

存在高度相关性,导致回归系数估计不准确甚至失真。在实际应用中,多重共线性可能会对模型的解释能力和预测能力造成严重影响,因此需要采取相应的检验方法来识别和应对多重共线性问题。

一、多重共线性的影响。

多重共线性会导致回归系数估计不准确,增大回归系数的标准误,降低统计推断的准确性。此外,多重共线性还会使得模型的解

释能力下降,使得模型对自变量的解释变得模糊不清,降低模型的

预测能力。因此,识别和解决多重共线性问题对于保证模型的准确

性和稳定性至关重要。

二、多重共线性的检验方法。

1. 方差膨胀因子(VIF)。

方差膨胀因子是一种常用的多重共线性检验方法,它通过计算

每个自变量的方差膨胀因子来判断自变量之间是否存在多重共线性。

通常情况下,方差膨胀因子大于10时,就表明存在严重的多重共线性问题。

2. 特征值检验。

特征值检验是通过计算自变量矩阵的特征值来判断自变量之间是否存在多重共线性。当特征值接近0或者为0时,就表明存在多重共线性问题。

3. 条件数(Condition Number)。

条件数是通过计算自变量矩阵的条件数来判断自变量之间是否存在多重共线性。通常情况下,条件数大于30就表明存在多重共线性问题。

4. 相关系数和散点图。

通过计算自变量之间的相关系数和绘制散点图来初步判断自变量之间是否存在多重共线性。当自变量之间存在高度相关性时,就可能存在多重共线性问题。

三、处理多重共线性的方法。

1. 剔除相关性较强的自变量。

当自变量之间存在高度相关性时,可以考虑剔除其中一个或者几个相关性较强的自变量,以减轻多重共线性的影响。

回归分析中的多重共线性问题及解决方法(七)

回归分析中的多重共线性问题及解决方法(七)

回归分析是统计学中常用的一种方法,它用于研究自变量和因变量之间的关系。然而,在实际应用中,经常会遇到多重共线性的问题,这给回归分析带来了一定的困难。本文将讨论回归分析中的多重共线性问题及解决方法。

多重共线性是指独立自变量之间存在高度相关性的情况。在回归分析中,当自变量之间存在多重共线性时,会导致回归系数估计不准确,标准误差增大,对因变量的预测能力降低,模型的解释能力受到影响。因此,多重共线性是回归分析中需要重点关注和解决的问题之一。

解决多重共线性问题的方法有很多种,下面将介绍几种常用的方法。

一、增加样本量

增加样本量是解决多重共线性问题的一种方法。当样本量足够大时,即使自变量之间存在一定的相关性,也能够得到较为稳健的回归系数估计。因此,可以通过增加样本量来减轻多重共线性对回归分析的影响。

二、使用主成分回归分析

主成分回归分析是一种常用的处理多重共线性问题的方法。主成分回归分析通过将原始自变量进行线性变换,得到一组新的主成分变量,这些主成分变量之间不存在相关性,从而避免了多重共线性问题。然后,利用这些主成分变量进行回归分析,可以得到更为准确稳健的回归系数估计。

三、岭回归

岭回归是一种经典的解决多重共线性问题的方法。岭回归通过对回归系数施加惩罚项,从而减小回归系数的估计值,进而降低多重共线性对回归分析的影响。岭回归的思想是在最小二乘估计的基础上加上一个惩罚项,通过调节惩罚项的系数来平衡拟合优度和模型的复杂度,从而得到更为稳健的回归系数估计。

四、逐步回归

逐步回归是一种逐步选择自变量的方法,可以用来解决多重共线性问题。逐步回归可以通过逐步引入或剔除自变量的方式,来得到一组最优的自变量组合,从而避免了多重共线性对回归系数估计的影响。

基于多重共线性的处理方法

基于多重共线性的处理方法

基于多重共线性的处理方法

第30卷第2期2021年6月数学理论与应用

mathematicaltheoryandapplicationsvo.l30no.2

jun.2021

基于多重共线性的处理方法*

满敬銮杨薇

(中南大学数学科学与计算技术学院,长沙,410075)

全文多重共线性缩写共线性就是多元线性重回分析中一个关键问题。消解共线性的危

害一直就是重回分析的一个重点。目前处置轻微共线性的常用方法存有以下几种:岭重回、主成分重回、逐步回归、略偏最轻二乘法、lasso重回等。本文就这几种方法展开比较分析,了解它们的优缺点,通过实例分析以便于挑选最合适的方法处置共线性。关键词岭重回

lasso回归

basedonmultiplecollinearityprocessingmethod

manjingluanyangwei

partialleastsquaresregression

lassore-

线性重回模型就是处置数据的常用方法,而多重共线性缩写共线性就是多元线性重回

分析中一个非常棘手的问题。共线性问题最早就是由r.frish明确提出的。如何消解共线

性的危害,一直就是重回分析的一个重点。

1多重共线性的本质

如果存有k个自变量xi(i=1,2,,,k)满足用户下面的条件:k,则1x1+k2x2+,kkxk+e=0

它们存有共线性关系。其中k为难当声数据,且ei1k2,kk为常数,但不同时为零:k

李俊平教授推荐

数学理论与应用领域

当e=0时,就是完全共线性;ey0时,共线性越严重;ey]时,变量之间完全不相关,e的取

自变量存在多重共线性,如何通过变量筛选来解决?

自变量存在多重共线性,如何通过变量筛选来解决?

⾃变量存在多重共线性,如何通过变量筛选来解决?

多重线性回归要求各个⾃变量之间相互独⽴,不存在多重共线性。所谓多重共线性,是指⾃变量之间存在某种相关或者⾼度相关的关系,其中某个⾃变量可以被其他⾃变量组成的线性组合来解释。

医学研究中常见的⽣理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋⽩胆固醇等,这些变量之间本⾝在⼈体中就存在⼀定的关联性。

如果在构建多重线性回归模型时,把具有多重共线性的变量⼀同放在模型中进⾏拟合,就会出现⽅程估计的偏回归系数明显与常识不相符,甚⾄出现符号⽅向相反的情况,

对模型的拟合带来严重的影响。

今天我们就来讨论⼀下,如果⾃变量之间存在多重共线性,如何通过有效的变量筛选来加以解决?

⼀、多重共线性判断

回顾⼀下前期讲解多重线性回归时,介绍的判断⾃变量多重共线性的⽅法。

1. 计算⾃变量两两之间的相关系数及其对应的P值,⼀般认为相关系数>0.7,且P<0.05时可考虑⾃变量之间存在共线性,可以作为初步判断多重共线性的⼀种⽅法。

2. 共线性诊断统计量,即Tolerance(容忍度)和VIF(⽅差膨胀因⼦)。⼀般认为如果Tolerance<0.2或VIF>5(Tolerance和VIF呈倒数关系),

 则提⽰要考虑⾃变量之间存在多重共线性的问题。

⼆、多重共线性解决⽅法:变量剔除

顾名思义,当⾃变量之间存在多重共线性时,最简单的⽅法就是对共线的⾃变量进⾏⼀定的筛选,保留更为重要的变量,删除次要或可替代的变量,

从⽽减少变量之间的重复信息,避免在模型拟合时出现多重共线性的问题。

如何进行多重共线性的剔除变量和合并变量处理

如何进行多重共线性的剔除变量和合并变量处理

如何进行多重共线性的剔除变量和合并变量

处理

在进行统计分析时,研究人员常常会面临多重共线性的问题。多重共线性是指自变量之间存在高度相关性,这可能会导致回归模型的不准确性和不可靠性。为了解决多重共线性问题,研究人员可以采取剔除变量和合并变量的处理方法。

1. 多重共线性的检测

在进行多重共线性的处理之前,首先需要进行多重共线性的检测。常用的方法包括计算变量间的相关系数矩阵、方差膨胀因子和特征值等。当相关系数矩阵中存在高度相关的变量对,方差膨胀因子大于10或特征值接近于0时,便可以判断存在多重共线性的问题。

2. 剔除变量

剔除变量是指在多重共线性问题较为严重的情况下,研究人员可以选择将相关性较高的变量从模型中剔除。剔除变量的方法包括:(1)选择与因变量关系较弱的变量;(2)选择与其他自变量之间相关性较弱的变量;(3)通过逐步回归、岭回归等方法进行变量选择。

3. 合并变量

合并变量是指将多个具有相关性的变量合并成一个新的变量。合并变量的方法包括:(1)计算多个变量的平均值、加权平均值或标准化值作为新的变量;(2)进行主成分分析,提取主成分作为新的变量;(3)进行因子分析,提取公因子作为新的变量。

4. 多重共线性处理的注意事项

在进行多重共线性处理时,还需要注意以下几点:(1)根据研究目的和背景知识选择要剔除或合并的变量;(2)确保剔除或合并后的变量仍能保持原有变量的信息;(3)在剔除或合并变量后重新评估回归模型的拟合程度和解释能力。

总结起来,解决多重共线性问题的方法包括剔除变量和合并变量。通过合理选择要剔除或合并的变量,并进行适当的处理,可以提高回归模型的准确性和可靠性。在实际应用中,根据研究目的和数据特点来选择合适的方法进行多重共线性处理,从而得到更可靠的统计分析结果。

多重共线性处理方法

多重共线性处理方法

2、主成分回归
1965年,W.F.Massy提出了主成分回归 (PrincipalComponent Regression,简称PCR) 方法,首先提取自变量的主成分, 由于各主 成分之间相互正交,相关系数为0,此时即 可用最小二乘法估计偏回归系数,建立因变 量与相互独立的前几个主成分的回归模型, 然后再还原为原自变量的回归方程式。
小结
以上介绍了三种解决多重共线性问题的方法, 它们各自都有其特点及适用范围:偏最小二 乘法在解决多因变量与自变量方面及预测方 面有着比其它两种方法更优越的地方,但在t 的实际意义解释方面与主成分一样比较欠缺。
岭回归由于在其K值的确定上有很大的人为 因素,使之缺乏一定的科学性,但也正因为如 此,使它能够很好地把定性分析与定量分析 两者有机地结合起来。由于这三种方法估计 出的参数值都是有偏的,所以在未出现多重 线性相关问题时最好还是用普通最小二乘法 来估计参数。从实际运用来看最小二乘法与 岭回归的模拟效果相对来说好一些。
可见,主成分回归分析解决多重共线性问题 是通过降维的处理而克服多重共线性的影响, 正确表征变量间的关系。 然而,由于PCR提取X的主成分是独立于因变 量Y而进行的,没有考虑到X对Y的解释作用, 这就增加了所建模型的不可靠性。
3、偏最小二乘回归
针对多重共线性干扰问题,S.Wold和C.Alban 在1983年提出了偏最小二乘回归(Partia Least Squares Regression,简称PLSR)方法。 PLSR方法吸取了主成分回归分析从自变量中 提取信息的思想,同时还考虑了自变量对因 变量的解释问题。

多重共线性检验方法

多重共线性检验方法

多重共线性检验方法

多重共线性是指自变量之间存在高度相关性的情况,它会对回

归分析结果产生严重影响,降低模型的稳定性和准确性。因此,对

多重共线性进行检验并采取相应的处理方法是回归分析中非常重要

的一环。本文将介绍几种常用的多重共线性检验方法,帮助读者更

好地理解和应用这些方法。

1. 方差膨胀因子(VIF)。

方差膨胀因子是一种常用的多重共线性检验方法,它可以用来

检验自变量之间的相关性程度。VIF的计算方法是对每个自变量分

别进行回归分析,将其他自变量作为解释变量,得到每个自变量的VIF值。一般来说,VIF大于10就表明存在严重的多重共线性问题,需要对自变量进行处理。

2. 特征值和条件数。

特征值和条件数是另外两种常用的多重共线性检验方法。通过

计算自变量矩阵的特征值和条件数,可以判断自变量之间的相关性

程度。特征值越接近于0,表示自变量之间的相关性越强;而条件

数则可以用来判断矩阵的奇异性,从而间接地反映多重共线性的程度。

3. 相关系数矩阵。

相关系数矩阵是用来展示自变量之间相关性的一种有效工具。通过计算各个自变量之间的相关系数,可以直观地了解它们之间的相关程度。如果相关系数接近于1或-1,就表明存在较强的线性相关性,需要引起重视并进行相应处理。

4. 主成分分析。

主成分分析是一种通过降维的方法来解决多重共线性问题的技术。它可以将原始的自变量转化为一组新的互相正交的主成分,从而减少自变量之间的相关性。通过主成分分析,可以有效地降低多重共线性带来的影响,提高回归模型的稳定性和准确性。

5. 岭回归和套索回归。

Stata面板数据回归分析中的多重共线性问题及解决方法

Stata面板数据回归分析中的多重共线性问题及解决方法

Stata面板数据回归分析中的多重共线性问题

及解决方法

在对面板数据进行回归分析时,往往会遇到多重共线性的问题。多重共线性是指在回归模型中,自变量之间存在较高的线性相关性,导致回归结果不稳定、系数估计不准确甚至产生错误的统计推断。本文将介绍Stata面板数据回归分析中的多重共线性问题,并提供一些常用的解决方法。

一、多重共线性问题的表现

当在进行面板数据回归分析时,我们可以通过查看自变量之间的相关系数矩阵来初步判断是否存在多重共线性。相关系数矩阵可以通过Stata中的“correlate”命令或者“pwcorr”命令进行计算。

在多重共线性存在的情况下,相关系数矩阵中自变量之间的相关系数往往会接近1或者-1,这表明自变量之间存在较高的线性相关性。另外,多重共线性还会导致回归结果的方差膨胀因子(Variance Inflation Factor,VIF)较高。VIF用于判断自变量之间的共线性情况,一般认为当VIF超过10时即存在较强的多重共线性问题。

二、多重共线性问题的影响

多重共线性问题对回归结果的影响主要有以下几个方面:

1. 系数估计不稳定:多重共线性导致回归系数的估计不稳定,使得模型结果难以解释和进行经济意义上的推断。

2. 系数估计偏差:多重共线性使得自变量之间的效应难以独立估计,从而导致回归系数存在偏差。

3. 系数显著性失真:多重共线性使得回归结果的显著性水平难以准

确判断,可能导致对模型中自变量显著性的错误判定。

4. 预测能力下降:多重共线性会降低回归模型的预测能力,使得模

型对未来的预测结果不可靠。

解决多重共线性的方法

解决多重共线性的方法

解决多重共线性的方法

多重共线性是回归分析中常见的问题之一,指的是自变量之间存在高度相关关系,导致回归分析结果不准确、稳定性差。解决多重共线性问题的主要方法有以下几种:

1. 删除相关性较高的自变量:检查自变量之间的相关性,当相关系数大于0.7

或0.8时,考虑删除其中一个自变量。通常选择与因变量相关性更强的自变量作为模型的预测变量。

2. 增加样本量:多重共线性问题的一个原因是样本量较小,数据集中存在较少的观测点。增加样本量可以减少误差,增强回归模型的稳定性。

3. 主成分分析(Principal Component Analysis, PCA):PCA是一种常用的降维方法,可以将高维的自变量空间转化为低维空间,去除自变量之间的相关性。首先利用相关系数矩阵进行特征值分解,然后根据特征值大小选取主成分,最后通过线性变换将原始自变量转化为主成分。

4. 岭回归(Ridge Regression):岭回归是一种正则化方法,通过增加一个正则项(L2范数)来限制模型中系数的大小,从而减小共线性的影响。岭回归可以在一定程度上缓解多重共线性问题,但会引入一定的偏差。

5. 奇异值分解(Singular Value Decomposition, SVD):奇异值分解是一种常

用的矩阵分解方法,可以将自变量矩阵分解为三个矩阵的乘积,其中一个矩阵表示主成分。通过去除奇异值较小的主成分,可以减少共线性问题。

6. 距离相关系数(Variance Inflation Factor, VIF):VIF用于度量自变量之间的相关性程度,计算每个自变量的VIF值,若VIF值大于10,则认为存在严重的多重共线性问题。通过删除VIF值较高的自变量,可以解决多重共线性。

多重共线性和非线性回归及解决方法

多重共线性和非线性回归及解决方法

多重共线性和非线性回归的问题

(1)多重共线性问题

我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:

第一个,是最熟悉也是最方便的——逐步回归法。

逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。

第二个,通过因子分析(或主成分分析)再进行回归。

这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。

(完整版)多重共线性检验与修正

(完整版)多重共线性检验与修正

问题:

选取粮食生产为例,由经济学理论和实际可以知道,影响粮食生产y的因素有:农业化

肥施用量x1,粮食播种面积x2,成灾面积x3,农业机械总动力x4,农业劳动力x5,由此建

立以下方程:y=β0+β1x1+β2x2+β3x3+β4x4+β5x5,相关数据如下:

解:1、检验多重共线性

(1)在命令栏中输入:ls y c x1 x2 x3 x4 x5,则有;

可以看到,可决系数R2和F值都

很高,二自变量x1到x5的t值

均较小,并且x4和x5的t检验

不显著,说明方程很可能存在多

重共线性。

(2)对自变量做相关性分析:

将x1——x5作为组打开,view——covariance analysis——correlation,结果如下:

可以看到x1和x4的相关系数

为0.96,非常高,说明原模型

存在多重共线性

2、多重共线性的修正 (1)逐步回归法

第一步:首先确定一个基准的解释变量,即从x1,x2,x3,x4,x5中选择解释y 的最好的一个建立基准模型。分别用x1,x2,x3,x4,x5对y 求回归,结果如下:

在基准模型的基础上,逐步将x2,x3等加入到模型中, 加入x2,结果:

从上面5个输出结果可以知道,y 对x1的可决系数R2=0.89(最高),因此选择第一个方程作为基准回归模型。即: Y = 30867.31062 + 4.576114592* x1

再加入x3,结果:再加入x4,结果:

拟合优度R2=0.961395,显著提高;

并且参数符号符合经济常识,且均显著。

所以将模型修改为:

Y= -44174.52+ 4.576460*x1+ 0.672680*x2

回归分析中的多重共线性问题及解决方法(八)

回归分析中的多重共线性问题及解决方法(八)

回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。本文将探讨回归分析中的多重共线性问题及解决方法。

1. 多重共线性问题的影响

多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。此外,多重共线性还会导致回归

系数的符号与理论预期相悖,使得模型的解释能力大大减弱。

2. 多重共线性问题的诊断

为了解决回归分析中的多重共线性问题,首先需要进行诊断。常用的诊断方

法包括:方差膨胀因子(VIF)、特征根分析、条件数等。其中,VIF是应用最为

广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。

3. 解决多重共线性的方法

一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。常

用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。主

成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。这些方法各有优劣,需要根据具体情况来选择合适的方法。

4. 实例分析

为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

岭回归的核心思想是当出现多重共线性 时, | X T X | 0 , X X 的特征根 j 至少有 一个非常接近于0,从而使参数β的最小二 1 T ˆ 乘估计 X X X T Y 很不稳定。给X T X T | X X kI 等 | 加上一个正常数矩阵kI(k>0),则 T | X X | 的可能性要小得 于零的可能性就比 多,X T X kI 的特征根 j k 接近于0 的 程度就会得到改善。
多重共线性的处理
为了避免共线性的影响,目前多采用回归系 数有偏估计的方法,即为了减小偏回归系数 估计的方差而放弃对估计的无偏性要求。换 言之,允许估计有不大的偏度,以换取估计方 差可显著减小的结果,并在使其总均方差为 最小的原则下估计回归系数。
解决多重共线性问题的方法
1、岭回归 2、主成分回归 3、偏最小二乘回归 4、其它:神经网络、通径分析
T
ˆ k 且从理论上可以证明,存在k>0,使得的 ˆ 的均方误差小。因此,用岭 均方误差比 回归来估计偏回归系数比用普通最小二乘法 估计要稳定得多。这样就消除了多重共线性 对参数估计的危害。
在实际应用中,通常确定k值的方法有以下几 种:
①岭迹图法 ②方差膨胀因子法 ③控制残差平方和法
可见,主成分回归分析解决多重共线性问题 是通过降维的处理而克服多重共线性的影响, 正确表征变量间的关系。 然而,由于PCR提取X的主成分是独立于因变 量Y而进行的,没有考虑到X对Y的解释作用, 这就增加了所建模型的不可靠性。
3、偏最小二乘回归
针对多重共线性干扰问题,S.Wold和C.Alban 在1983年提出了偏最小二乘回归(Partia Least Squares Regression,简称PLSR)方法。 PLSR方法吸取了主成分回归分析从自变量中 提取信息的思想,同时还考虑了自变量对因 变量的解释问题。
1、岭回归:
1962年,A.E.Hoerl针对多重共线性的问题,wenku.baidu.com提出了一种叫岭回归的回归估计方法。对线 性模型
Y 0 1 X 1 2 X 2 m X m
定义偏回归系数β的岭估计为
1 T T ˆ k X X kI X Y


其中k称为岭参数。
基本思路
首先在自变量集中提取第一潜因子t1(t1是 x1,x2,…,xm的线性组合,且尽可能多地提取原自变 量集中的变异信息);同时在因变量集中也提取第一 潜因子u1,并要求t1与u1相关程度达最大。 然后建立因变量Y与t1的回归,如果回归方程已达到 满意的精度,则算法终止。否则继续第二轮潜在因 子的提取,直到能达到满意的精度为止。 若最终对自变量集提取m个潜因子t1,t2,…,tm,偏 最小二乘回归将建立Y与t1,t2,…,tm的回归式,然 后再表示为Y与原自变量的回归方程式。
小结
以上介绍了三种解决多重共线性问题的方法, 它们各自都有其特点及适用范围:偏最小二 乘法在解决多因变量与自变量方面及预测方 面有着比其它两种方法更优越的地方,但在t 的实际意义解释方面与主成分一样比较欠缺。
岭回归由于在其K值的确定上有很大的人为 因素,使之缺乏一定的科学性,但也正因为如 此,使它能够很好地把定性分析与定量分析 两者有机地结合起来。由于这三种方法估计 出的参数值都是有偏的,所以在未出现多重 线性相关问题时最好还是用普通最小二乘法 来估计参数。从实际运用来看最小二乘法与 岭回归的模拟效果相对来说好一些。
2、主成分回归
1965年,W.F.Massy提出了主成分回归 (PrincipalComponent Regression,简称PCR) 方法,首先提取自变量的主成分, 由于各主 成分之间相互正交,相关系数为0,此时即 可用最小二乘法估计偏回归系数,建立因变 量与相互独立的前几个主成分的回归模型, 然后再还原为原自变量的回归方程式。
相关文档
最新文档