PLS回归在消除多重共线性中的作用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

PL S回归在消除多重共线性中的作用

王惠文 朱韵华

(北京航空航天大学管理学院,北京,100083)

摘 要

本文详细阐述了解释变量的多重共线性在回归建模与分析中的危害作用,并指出目前常用的几种消除多重线性影响的方法,以及它们的不足之处。本文结合实证研究指出:利用一种新的建模思路 PLS回归,可以更好地消除多重共线性对建模准确性与可靠性所带来的影响。

关键词:多重共线性 PLS回归

一、引 言

在多元回归的建模与分析中,解释变量之间存在高度相关性的现象十分普遍。在这种情况下,要很好地解释模型中某个自变量对因变量的效应,是非常困难的。然而,在从事建模工作过程中,为了更完备地描述系统,尽可能不遗漏一些举足轻重的系统特征,分析人员往往倾向于尽可能周到地选取有关指标,在这样构成的多变量系统中必然经常出现变量多重相关的现象。事实上,许多社会、经济及技术指标都有同步增长的趋势,因此,在多元回归建模实施过程中,变量多重相关的现象是很难避免的。

二、多重共线性在回归建模中的危害作用

1.危害性讨论

多重共线性的现象是由Fr isch.A.K在其著名论著 完全回归体系的统计合流分析 中首次提出的,用数学语言来描述,它是指变量之间存在着线性关系。在多重共线性现象存在的情况下,对多元回归分析会产生如下影响:

(1)如果变量之间存在完全的多重共线性,那么将无法估计变量的回归系数。而由于各个自变量的回归系数无法估计,所以也就无法估计各个自变量单独对因变量的影响,自然也就无法判断自变量对因变量的效应,即使自变量之间不存在完全的多重共线性,但是当自变量有较高度的相关关系时,一个自变量的回归系数,在模型中只反映这个自变量对因变量边际的或部分的效应,因而所得到的回归模型是不准确的。

(2)回归系数的估计方差为无穷大。例如在一个简单的多元回归中,自变量X1和X2之间

收稿日期:1996年2月9日

*本文系国家自然科学基金资助项目

存在共线现象:如x i2=kx i1+v i其中v i是个随机变量,且满足v i~N(0, 2),这时,回归系数是可以估计的,但是回归系数的估计方差将随着自变量之间的共线程度的不断增强而逐渐增大。

(3)由于高度的共线性现象的存在,回归系数的方差不断增大,回归系数估计值的不稳定性不断增强,这给回归系数的统计检验造成一定困难,事实上,由于多重共线性的影响,即使自变量对因变量的解释性是很高的,但是对单独的回归系数的检验而言,很有可能没有一个是显著的。

2.多重共线性诊断

通常,可以用方差膨胀因子(VIF)K来度量自变量间的共线程度

(VIF)k=(1-R2k)-1

其中R2k是x k对模型中其他解释变量回归的复判定系数。所有X变量中最大的(VIF)k通常用来作为多重共线性严重程度的指标。如果最大的(VIF)k超过10,常常就表示多重共线性将可能严重地影响最小二乘的估计值。

3.实例

下面来看一个实例。我们对20个25 34岁的健康女性进行测量获得数据(数据表见附录)。其中Y表示身体脂肪,X1表示三头肌皮褶厚度,X2表示大腿围长,X3表示中臂围长。以下给出变量之间的相关系数矩阵:

表1相关系数矩阵

X1X2X3Y

X110.923840.457780.8432

X20.9238410.084670.878

X30.457780.0846710.142

在表中,由r12=92.384%可以看出,对这20名受实验者来说,三头肌皮褶厚度与大腿围长高度相关。从上表中还可以看出变量X1、X2对Y均有很好的解释性,相关系数分别为84. 32%、87.8%。在这种情况下,如果采用普通多元回归会得到什么样的结果呢?以下给出普通多元回归的计算结果:

变量参数估计t检验显著性概率复测定系数

X1 X2 X3

4.334092

-2.856848

-2.186060

1.437

-1.106

-1.370

0.1699

0.2849

0.1896

0.8014

从以上结果中可以看到,虽然变量X1、X2对Y均有很好的解释性,并且Y对这三个变量的复判定系数高达80.14%,但由于X1、X2之间的高度相关,使得X1、X2的统计检验均为不显著。事实上,在这个实例中,最大的方差膨胀因子为708,说明多重共线性影响非常严重。从回归系数来看,大腿围长与身体脂肪负相关,这一点也显然不符合实际情况。

三、目前常用的消除多重共线性影响的方法

既然多重共线性对多元回归造成如此严重的影响,那么如何消除多重共线性在系统分析

中的作用就变得十分重要。

1.变量筛选法

一般地,一些不十分熟悉回归分析的研究人员认为,为了消除自变量间的共线现象,可以根据自变量对模型的贡献大小,对自变量进行筛选。例如, 逐步回归法 就是其中常用的一种。然而实质上,从理论上来说,这种变量筛选的使用前提,恰恰是变量间不能存在多重相关性。在自变量高度共线的情况下,利用变量筛选法,往往会将一些对因变量具有高度解释性的变量筛除,将本应保留的系统信息舍弃,从而严重导致分析模型的解释误差,大大影响回归模型的可靠性。

2.岭回归

岭回归是通过修正最小二乘法,找到这样一个估计量,它精度高却有小的偏差。我们知道多重共线性并不影响最小二乘估计量的无偏性和最小方差性,也就是说在所有的线性无偏估计量中,最小二乘量仍具有最小方差,尽管这个方差不一定小。而岭回归中的估计量就是使得偏差和抽样变差的组合效应达到最好。标准化岭回归估计量是通过最小二乘正规方程中引入有偏常数(c 0),它的正规方程如下:

(r XX+cI)b R=r YX

其中b R是标准化岭回归估计量,c是偏倚常数,I是单位矩阵。

可以证明,总存在着一些c值使得岭回归估计量b R的总均方误差(抽样加变差的组合效应)小于普通最小二乘估计量。困难在于c是最优值对不同的应用而有所不同,并且是未知的。就身体脂肪的例子而言,通过大量的计算我们发现在c=0.020时VIF接近于1,估计回归系数适当稳定,这时结果模型为:

Y^=-7.3978+0.5553X1+0.3681X2-0.1917X3

从方程中可以看出,自变量X2的估计回归系数的不正常符号消失了,估计回归系数更符合实际情况。

当自变量具有高度多重共线性时,岭回归这种方法可以说是比较有效的,它在一定程度上消除了多重共线性的某些不良影响。但是,岭回归的一个很大局限性就是无法使用普通的统计推断,而且精确的分布性质是未知的。另外,偏倚常数c的选择是凭人为判断的。因此,岭回归在应用起来就十分困难。

3.主成分分析法

目前,一些研究文献提出,利用主成分分析消除多重共线性的作用,这实际上是一种错误观念。事实上,无论是从数量上还是从方向上,主成分分析都无法消除变量的多重共线性,更何况主成分分析只是对自变量系统进行主成分提取,而这种提取仅考虑到能尽可能多地保留自变量自身系统的数据变异信息,而完全忽略了自变量对因变量系统的解释性。但是,这种思想却是值得借鉴的。即怎样找出一组互不相关的变量,使它们在对因变量具有最大解释性的前提下,又最能代表自变量系统的数据信息。PL S回归正实现了这种思想上的突破。

四、PL S回归在消除多重共线性中的应用

1.基本原理

当自变量之间存在完全或不完全的多重共线性,也就是说,当自变量间有相关关系时,任何自变量的回归系数依赖于模型包含哪些自变量和遗漏哪些自变量。在这种情况下,一个自

相关文档
最新文档