多元线性回归中多重共线问题的解决方法综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元线性回归中多重共线问题的解决方法综述
摘 要
在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。
现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression )、主成分回归(Principal Component Regression 简记为PCR)和偏最小二乘回归(Partial Least Square Regression 简记为PLS)。
关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归
引言
在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。
1、 多元线性回归模型
1.1 回归模型的建立
设Y 是一个可观测的随机变量,它受m 个非随机因素X 1,X 2,…,X p-1和随机因素ε的影响, 若有如下线性关系
我们对变量进行了n 次观察,得到n 组观察数据(如下),对回归系数 进行估计
一般要求n>P 。
于是回归关系可写为
采用矩阵形式来表示
0112211p p Y X X X ββββε--=+++++n i X X X Y p i i i i ,,1,,,,)1(2,1⋅⋅⋅=⋅⋅⋅-1011121211(1)1
2012122212(1)2
011221(1)p p p p n n n p n p n Y X X X Y X X X Y X X X ββββεββββεββββε------=+++++⎧⎪=+++++⎪⎨
⎪
⎪=+++++⎩11121,(1)121222,(1)212,(1)111, 1 p p n n n n p n n p
X X X Y X X X Y Y X Y X X X ---⨯⨯⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦)1(10,,,p -⋅⋅⋅βββ
Y 称为观测向量,X 称为设计矩阵,ε称为误差向量,β称为回归参数。
则误差的平方和
求参数β的估计
使得
用最小二乘法估计
得正规方程:
由于X 为列满秩,所以 X TX 可逆,由此解得
1.2 多重共线性的产生
当 时,表明在数据矩阵X中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。
即()1
0-=X X X X T T ,不存在,而Y X X X T T 1ˆ-=)(β
导致β无法估计。
1.3多重共线性的产生的原因
(1)经济变量之间往往存在同方向的变化趋势。
当他们被引入同一个模型成为解释变量时,会出现多重共线性。
(2)模型中包含滞后变量,变量各期值之间有可能高度相关。
(3)利用截面数据建立模型也可能出现多重共线性。
(4)经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。
(5)样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。
(6)在建模过程中由于解释变量选择不当,引起变量之间的多重共线性。
2 处理多重共线性的方法
2. 1处理多重共线性的经验式方法
0112111
, p n n p βεβεβεβε-⨯⨯⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦βββββββεβX T X T X T Y Y T X T Y T Y X Y T X Y X Y s +--=--=-==)()(2)(2)ˆ,,ˆ,ˆ(ˆ)1(10p -⋅⋅⋅=ββββ
)(min )ˆ(ββ
S S =02)2()2()]()[()(=+-=+-∂∂=+-∂∂
=--∂∂=∂∂βββββββββ
βββββX X X Y X X X Y X X X Y Y Y X Y X Y T T T T T T T T T T s
Y
X X X T T =β)(Y X X X T T 1)(ˆ-=βP X Rank <)(
2. 1.1 删除不重要的共线性变量
最常见的一种思路是设法去掉不太重要的共线性变量。
有些应用人员认为,可以采用多元回归分析中的向前选择变量、向后删除变量法或逐步回归法来进行变量的筛选。
然而,在理论上,这些变量筛选方法都是针对无共线性的数据而言的。
在多重共线性十分严重的情况下,结论的可靠性都要受到一定的影响。
由于变量间多重共线性的形式十分复杂,而且还缺乏十分可靠的检验方法,所以,删除部分多重共线性变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增大。
另外,在一些模型中,从理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重共线性。
这时采用删除部分共线性变量的做法就不符合实际工作的要求。
2.1.2 增加样本容量
增加样本的容量在某种程度上会减轻多重共线性对模型估计的影响,而且对某些样本数据来说,变量间的多重共线性可能正是由于样本容量过小而造成的。
然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。
2.1.3 变量转换的方式
在少数情况下,当基于理论背景认为所有的变量都极其重要,但相互之间存在严重的多重共线性时,对方程的变量进行变换有时至少能在一定程度上消除共线性。
两种最常用的变换方法为:
(1) 构造一个多重共线性变量的组合。
此方法就是构造一个新的变量,这一新变量是多重共线性变量的函数,进而以这一新变量来替代回归方程中的具有多重共线性的那些旧变量。
但要注意的是,只有当新变量本身有意义时,才可以考虑采用组合变量这一方法。
(2) 把方程的函数形式转换为一阶差分形式。
若把一个方程(或一个方程中的几个变量)从它的常规设定形式转换为一阶差分的设定形式,就很有可能会大大降低多重共线性的程度。
由于一阶差分方法损失了一个观测值(即样本数据少了一个),这在小样本的情况下是极不可取的。
2.2岭回归
根据高斯-马尔科夫定理,在线性回归模型的基本假设满足时,用最小二乘法得到的回归系数估计量是无偏的且具有最小方差。
可以证明,即使在高度多重相关的情况下,最小二乘法的回归系数估计量依然是线性无偏的,且具有最小方差。
也就是说,多重共线性并不影响最小二乘估计量的无偏性和最小方差性。
因此在所有的线性无偏估计中,最小二乘估计仍具有比较小的方差,这并不意味着最小二乘估计量的方差一定是最小的,因为,虽然它在所有的线性无偏估计量中是方差较小,但是这个方差却不一定小。
于是就启发我们,是否可以找到某一个有偏估计,这个有偏估计虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。
在许多情况下,我们更愿意选用这个估计量,因为它接近真实参数值的可能性更大。
岭回归就是一种基于放弃回归系数一般最小二乘估计的无偏估计性要求的方法。
基本思想:当出现多重共线性时,0≈X X T
,从而使参数的 Y X X X T
T
1
)(-=β很不稳
定,出现不符合含义的估计值,给X X T
加上一个正常数矩阵0)>(K I K ,则 I
+K X X T
等于0的可能性就比X X T 的可能性要小得多,再用Y X X X T T 1ˆ-=)(β
来估计, 比用普通最
小二乘估计的要稳定得多。
2.3主成分回归
基本思想:如果观察了n 个样本点,得到因变量y 和p 个自变量x1,x2, …,xp 为后续分析方便起见,并且不失一般性,可假设它们都是标准化变量(均值为零方差为1)自变量x 0=(x 1,x 2,… ,x p )间的相关数矩阵记为R 。
用主成分回归方法的第1步,是完全撇开因变量y ,单独考虑对自变量集合做主成分提取。
其过程是:
(1)求R 的前m 个非零特征值0m 21>>⋅⋅⋅>>λλλ ,以及相应的特征向量u 1,u 2,… ,u m 。
(2)求m 个主成分:F h =X 0u h h=1,2, … ,m 。
可以证明,这m 个主成分有如下性质: ①均值为零:E(F h )=0,h=1,2, … ,m ; ②若方差算子用var(⋅)表示,var(F h )=
h
λ h=1,2,…,m 所以有) var(F )var(F )var(F m
2
1
≥⋅⋅⋅≥≥。
从这个性质可知,F1之所以被称为第1主成分,是由于它携带了原自变量系统中最多的变异信息也就是说,如果要以一个综合变量来概括原来所有的自变量,并希望数据变异信息损失最小,则第1主成分是最好的选择它对原变异信息的反映精度为P
X Q P j j
1
1
1
)
var(λ
λ
=
=
∑=
③第1主成分与所有原变量的相关度可达到最大。
即最优化问题:
∑=∈p
j j
x u x r P
R
u 1
2
),(max 其中r (⋅ ,⋅)为相关系数算子 它的解是1*u u =,而x 0u 1=F 1。
因此,若要寻找一个综合变量,它能和原来所有的自变量最相关,这个变量就是第1主成分F1。
④主成分F 1,F 2, … ,F m 是彼此无关的变量,即协方差为cov(F j ,F k )=0 j ≠k 。
由于主成分之间不再存在自相关现象,这就对解决多重相关性下的回归建模问题给出了某种希望。
这种成分提取的思路是十分可取的 问题在于,在上述成分提取过程中,完全没有考虑与因变量y 的联系。
这样所得到的第1 (或前几个)主成分可能会对自变量系统有很强的概括能力,而对y 的解释能力却变得十分微弱。
2.4偏最小二乘回归
基本思想:
(1)若记t 1=X 0w 1,则上述的数学原则可表达成优化问题:∑=⋅∈p
j W X W X y r P
R
u 1
2
)var(),(max (2)分别施行X 0和y 在t 1上的回归:X 0=t 1p 1'+X 1 其中p 1为回归系数,p 1=
;'21
1
0t t X X 1是残差矩阵。
而y=r 1t 1+y 1,其中r1=
21
1
't t y ;y 1是残差向量 (3)以残差矩阵X 1和y 1替代X 0和y ,采用类似于提取t 1的方法,可以进行第2个综合变量t2的提取,然后施以回归:X 1=t 2p 2'+x 2,y 1=r 2t 2+y 2
如此循环往复,直到提取了A 个综合变量t 1,t 2, … ,t A (阶数A 的确定目前流行采用“交差有效性”)。
做y 对成分t 1,t 2, ,t A 的普通多元线性回归,得到*++⋅⋅⋅++=A A A y t t t y ααα2211
而由于每一个t h 均为x 1,x 2, ,x p 的线性组合(X 0=x 1,x 2, … ,x p ),因此可以最终写出PLS1回归模型:A P P y X X X y ++⋅⋅⋅++=βββ2211
从PLSR 回归的工作过程看,它采取的是一种循环式的信息分解与提取方法它在多变量集合中逐次提取成分t 1,t 2, ,t A ,它们对y 的解释能力最强,同时又最能概括X 0中的信息而同时,对y 没有解释意义的信息则自动地被排除掉了。
3.结论
岭回归估计量的质量取决于k 值的选取,但是k 值的确定存在一定的人为因素,所以在确定k 值的时候要把定性分析和定量分析有机的结合起来一般认为:在通过岭迹图和方差膨胀因子来选择k 值时,其判断方法是选择一个尽可能小的k 值,在这个较小的k 值上,岭迹图中回归系数已变得比较稳定,并且方差膨胀因子也变得足够小 利用主成分进行的回归结果往往不够理想,原因是在对系统中的信息做综合提取的时候,只注重尽可能多地概括自变量系统中的信息而对因变量的解释性不加考虑 偏最小二乘回归也
采用成分提取的方式进行回归建模,但其思路却有很大的不同 它在对自变量进行信息综合时,不但考虑要最好的概括自变量系统中的信息,而且要求所提取的成分必须对因变量有一定的解释性 因此,与主成分回归相比,偏最小
二乘回归更具有先进性,其计算结果更为可靠偏最小二乘回归法尤其适用于变量数目巨大的情况下,实例分析中变量的个数不多,偏最小二乘回归的优点在这里没有充分的显示出来。
参考文献
[1]C.R.Rao,H.Toutenburg.Linear Models: Least Squares and Alternatives[M].Springer Verlag New York Inc.1995
[2]C.R.Rao.Estimation of parameters in a linear model [J].Annual Statistics,1976,4:1021-1030
[3]Birkes,D,and Dodge.Y(1993),Alternative Methods of Regression, New York,wiley:191-193 [4] Draper NR,Smith H.(1996).Applied Regression Analysis. John wiley&sons inc:71-83 [5]Cheng Bo,Wu Xizhi.Assessing Local Influence in PLS Regression by the Second Order Approach[J].Statistics and Probablity,2001,53:113-121
[6]I.G.Chong,C.H.Jun.Performance of some variable selection methods whenmulticollinearity is present[J].Chemometrics and Intelligent Laboratory Systems,2005,78:103-112
[7]S.L.T.Lima,C.Mello,R.J.Poppi.PLS pruning: a new approach to variable selection for multivariate calibration based on Hessian matrix of errors[J].Chemometrics and Intelligent Laboratory Systems,2005,76:73-78
[8] J.P.Gauchi,parison of selection methods of explanatory variables in PLS regression with application to manufacturing process data[J]. Chemometrics and Intelligent Laboratory Systems,2001,58:171-193
[9]B.Cheng,X.Wu.A Modification of the PLS Method[J],Advances in Mathematics,1999,28(4):375
[10]Sorenson H W. Parameter Estimation: Principle and Problems. Marcel Dekker, 1980
[11] 肖琳,何大卫.PLS回归在消除多元共线性中的作用[J].山西医科大学学报,2002,33(3)
[12] 陈希儒,王松桂.近代实用回归分析[M].广西人民出版社,1984
[13] 高惠璇.处理多元线性回归中自变量共线性的几种方法[J].数理统计与管理,2000,20(5):50
[14] 游华.论多元线性模型回归系数有偏估计的实现.福州大学,1999
[15] 许凤华,偏最小二乘回归分析中若干问题的研究.山东科技大学硕士论文,2006,6
[16] 王松桂.线性模型的理论及其应用[M].合肥:安徽教育出版社,1987
[17] 张恒喜.小样本多元数据分析及应用[M].西安:西安工业大学出版社,2002
[18] 任若恩,王惠文.多元统计数据分析——理论、方法、实例[M].北京:国防工业出版社,1997
[19] 张金槐.线性模型参数估计及其改进.长沙:国防科技大学出版社,1999
[20] 王惠文,吴载斌,孟洁.偏最小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006。