多重共线性处理方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

岭回归的核心思想是当出现多重共线性 时, | X T X | 0 , X X 的特征根 j 至少有 一个非常接近于0,从而使参数β的最小二 1 T ˆ 乘估计 X X X T Y 很不稳定。给X T X T | X X kI 等 | 加上一个正常数矩阵kI(k>0),则 T | X X | 的可能性要小得 于零的可能性就比 多,X T X kI 的特征根 j k 接近于0 的 程度就会得到改善。
多重共线性的处理
为了避免共线性的影响,目前多采用回归系 数有偏估计的方法,即为了减小偏回归系数 估计的方差而放弃对估计的无偏性要求。换 言之,允许估计有不大的偏度,以换取估计方 差可显著减小的结果,并在使其总均方差为 最小的原则下估计回归系数。
解决多重共线性问题的方法
1、岭回归 2、主成分回归 3、偏最小二乘回归 4、其它:神经网络、通径分析
T
ˆ k 且从理论上可以证明,存在k>0,使得的 ˆ 的均方误差小。因此,用岭 均方误差比 回归来估计偏回归系数比用普通最小二乘法 估计要稳定得多。这样就消除了多重共线性 对参数估计的危害。
在实际应用中,通常确定k值的方法有以下几 种:
①岭迹图法 ②方差膨胀因子法 ③控制残差平方和法
可见,主成分回归分析解决多重共线性问题 是通过降维的处理而克服多重共线性的影响, 正确表征变量间的关系。 然而,由于PCR提取X的主成分是独立于因变 量Y而进行的,没有考虑到X对Y的解释作用, 这就增加了所建模型的不可靠性。
3、偏最小二乘回归
针对多重共线性干扰问题,S.Wold和C.Alban 在1983年提出了偏最小二乘回归(Partia Least Squares Regression,简称PLSR)方法。 PLSR方法吸取了主成分回归分析从自变量中 提取信息的思想,同时还考虑了自变量对因 变量的解释问题。
1、岭回归:
1962年,A.E.Hoerl针对多重共线性的问题,wenku.baidu.com提出了一种叫岭回归的回归估计方法。对线 性模型
Y 0 1 X 1 2 X 2 m X m
定义偏回归系数β的岭估计为
1 T T ˆ k X X kI X Y


其中k称为岭参数。
基本思路
首先在自变量集中提取第一潜因子t1(t1是 x1,x2,…,xm的线性组合,且尽可能多地提取原自变 量集中的变异信息);同时在因变量集中也提取第一 潜因子u1,并要求t1与u1相关程度达最大。 然后建立因变量Y与t1的回归,如果回归方程已达到 满意的精度,则算法终止。否则继续第二轮潜在因 子的提取,直到能达到满意的精度为止。 若最终对自变量集提取m个潜因子t1,t2,…,tm,偏 最小二乘回归将建立Y与t1,t2,…,tm的回归式,然 后再表示为Y与原自变量的回归方程式。
小结
以上介绍了三种解决多重共线性问题的方法, 它们各自都有其特点及适用范围:偏最小二 乘法在解决多因变量与自变量方面及预测方 面有着比其它两种方法更优越的地方,但在t 的实际意义解释方面与主成分一样比较欠缺。
岭回归由于在其K值的确定上有很大的人为 因素,使之缺乏一定的科学性,但也正因为如 此,使它能够很好地把定性分析与定量分析 两者有机地结合起来。由于这三种方法估计 出的参数值都是有偏的,所以在未出现多重 线性相关问题时最好还是用普通最小二乘法 来估计参数。从实际运用来看最小二乘法与 岭回归的模拟效果相对来说好一些。
2、主成分回归
1965年,W.F.Massy提出了主成分回归 (PrincipalComponent Regression,简称PCR) 方法,首先提取自变量的主成分, 由于各主 成分之间相互正交,相关系数为0,此时即 可用最小二乘法估计偏回归系数,建立因变 量与相互独立的前几个主成分的回归模型, 然后再还原为原自变量的回归方程式。
相关文档
最新文档