基于多重共线性的处理方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
归的一步 ,每步都要进行显著性检验 ,以便保证每次引入变量前回归方程中只包括显著性检
验 ,这个过程反复进行 ,直到既无不显著变量从方程中剔除 ,又无显著性变量需要引入回归方
程为止 。
2. 4 偏最小二乘回归
偏最小二乘回归的方法是基于因子的提取 ,使新的因子变量相互独立 ,满足 G - M 条件 ,
先建立因变量对因子的回归 ,在还原成与自变量的回归模型 。它是建立在主成分分析和主成
线性回归模型是处理数据的常用方法 ,而多重共线性简称共线性是多元线性回归分析中 一个非常棘手的问题 。共线性问题最早是由 R. Frish提出的 。如何消除共线性的危害 ,一直 是回归分析的一个重点 。
1 多重共线性的本质
如果有 k个自变量 X i ( i = 1, 2, …, k) 满足下面的条件 :λ1 X1 +λ2 X2 + …λk Xk +ε = 0, 则
表1
ID
X1
X2
X3
X4
X5
y
1
1
32
95. 5
14. 0
53. 5
49. 64
2
1
35
92. 0
13. 0
52. 0
41. 46
3
1
33
89. 0
12. 5
53. 5
35. 81
4
1
176
168. 0
53. 5
82. 0
100. 14
5
1
96
117. 0
19. 7
56. 0
67. 20
6
1
96
113. 0
18. 1
55. 0
60. 00
7
1
96
122. 0
21. 6
57. 3
58. 00
wk.baidu.com
8
2
30
91. 0
11. 0
48. 0
35. 39
9
2
33
91. 0
11. 5
47. 0
44. 98
10
2
33
91. 0
12. 5
50. 0
29. 51
11
2
176
156. 0
55. 0
83. 0
94. 66
12
2
178
数矩阵 k I k > 0 , I为单位阵 ,构造 X ′X + k I - 1 使得 X ′X + k I ≈ 0的可能性比 X ′X ≈ 0
^
^
的可能性 大 , 从 而 避 免 了 因 X ′X ≈ 0 造 成 β的 方 差 变 大 , 故 岭 回 归 的 估 计 量 为 β =
X ′X + k I - 1 X ′Y,其中 k为岭回归参数 , k > 0且为常数 。
163. 0
54. 0
79. 0
87. 42
13
2
84
130. 0
25. 0
58. 0
62. 00
108
数学理论与应用
3. 1 主成分回归的建模 (1)采用多重回归分析 ,进行共线性诊断 。 (2)进行主成分分析确定所需主成分数 。 (3)主成分回归分析 。
表 2 主成分回归分析模型结果 ANOVA ( b)
β j
,
t ≤ t0 就会使一些回
j
归系数缩小并趋于 0,一些系数甚至就等于 0。
3 实例验证
本文中的数据是研究儿童心象面积与性别 、年龄 、身高 、体重 、和胸围之间的关系 。性别 ( x1:男 = 1,女 = 2) ,年龄 ( x2:月 ) 、身高 ( x3: cm ) 、体重 ( x4: kg) 、胸围 ( x5: cm )和心象面积 ( y: cm ^2) 。数据如下 :
得到因变量 y与 x1 x2 x3 x4 x5的标准线性回归方程为 :
^
y = 58. 951 - 2. 683x′1 + 5. 877x′2 + 5. 741x′3 + 5. 505x′4 + 5. 784x′5 用主成分回归分析可以处理共线性 ,但它没有给出因变量的信息 ,较岭回归与 Lasso回归 解释模型效果不是很好 。 3. 2 岭回归的建模 从岭回归运行结果 (略 ) ,可以看出变量 x5 的岭回归系数从负值迅速变为正值 , x1 , x2 , x3 , x4 的回归系数则相对稳定 。剔除 x5 后作岭回归 ,由于岭参数 k在 0. 04 - 0. 20之间基本稳定 , 选择 k = 0. 08重新作岭回归 。得到标准化的岭回归方程为 :
2. 2 主成分回归
主成分回归是根据多元统计分析中的主成分分析原理 ,来处理多重共线性模型的一种参
数估计方法 。其基本思想 :利用主成分分析将解释变量转换成若干个主成分 ,这些主成分从不
同的侧面反映了解释变量的综合影响 ,并且互不相关 ,因此 ,可以将被解释变量关于这些主成
分进行回归 ,再根据主成分与解释变量之间的对应关系 ,求得原回归模型的估计方程 。
第 30卷 第 2期 2010年 6月
数学理论与应用 MATHEMATICAL THEORY AND APPL ICATIONS
Vol. 30 No. 2 Jun. 2010
基于多重共线性的处理方法 3
满敬銮 杨 薇 (中南大学数学科学与计算技术学院 ,长沙 , 410075)
摘 要 多重共线性简称共线性是多元线性回归分析中一个重要问题 。消除共线性的危害一直是回归分析 的一个重点 。目前处理严重共线性的常用方法有以下几种 :岭回归 、主成分回归 、逐步回归 、偏最小二乘法 、 Lasso回归等 。本文就这几种方法进行比较分析 ,介绍它们的优缺点 ,通过实例分析以便于选择合适的方法处 理共线性 。 关键词 岭回归 主成分回归 逐步回归 偏最小二乘法 Lasso回归
基于多重共线性的处理方法
Ba sed on M ultiple Collinear ity Processing M ethod
M an J ingluan Yang W ei
( School of M athematics Science and Computing Technology, CSU , Changsha, 410075)
模型 。假设数据 xi , yi , i = 1, 2, …, N , xi = xi1 , xi2 , …xip T 为自变量 , yi 为第 i个观测值对
∑ ∑ 应的响应变量 ,假设响应变量
yi 在观测值给定的情况下独立 ,即
1 N
j
xij = 0,
1 N
x2ij = 1, 令
j
β^ = β^1 ,β^2 , …β^p , Lasso估计为 :
2 处理多重共线性问题的方法
目前国内外文献中处理严重共线性的方法常用的有以下几种 :岭回归 、主成分回归 、逐步
回归 、偏最小二乘法 、Lasso回归等 。
2. 1 岭回归
^
岭回归其基本思想为 : 设线性回归模型为 : Y = Xβ +ε, 参数的最小二乘估计为 : β =
X ′X - 1 X ′Y。如果自变量之间存在较强的多重共线性 ,即 X ′X ≈ 0, 给 X ′X 加上一个正的常
它们存在共线性关系
。其中
λλ 12
…λk
为常数
,但不同时为零
:
λ为躁声数据
,且
ε
∈
0, ∞ 。
3 李俊平 教授推荐 收稿日期 : 2009年 8月 27日
106
数学理论与应用
当 ε = 0时 ,就是完全共线性 ; ε→ 0时 ,共线性越严重 ; ε→ ∞时 ,变量之间完全不相关 , ε的 取值范围如此之大 ,克制共线性是普遍存在的 。如果出现完全共线性 , β回归分析的参数 β将 无法确定 。而对于高度共线性 ,参数尽管可以估计 ,但可能招致以下后果 :不改变参数估计的 无偏性 ;使参数的最小二乘估计的方差很大 ,从而使得对模型难以取舍 ;各个回归系数的值很 难精确估计 ,甚至可能出现符号错误的现象 ;回归系数对样本数据的微小变化可能变得非常敏 感。
基于多重共线性的处理方法
107
分回归基础上的一种多元数据分析方法 ,是一种将降维空间的每个元素组成的预测矩阵与被
预测矩阵间的协方差最大化的降维技术 。
2. 5 La sso回归
Lasso回归是一种收缩估计方法 ,基本思想是在回归系数的绝对值之和小于一个常数的约
束条件下 ,使残差平方和最小化 ,从而能够产生某些严格等于 0的回归系数 ,得到可以解释的
2. 3 逐步回归分析
逐步回归分析方法是综合了逐步剔除法和逐步引入法的特点产生的方法 。其基本原理
为 :从一个自变量出发 ,视自变量对因变量的影响显著性大小 ,从大到小引入回归方程 ,同时 ,
在逐个自变量选入回归方程中 ,如果发现先前被引入的自变量在其后由于某些自变量的引入
而失去其重要性 ,可以从回归方程中随时予以剔除 。引入一个变量或剔除一个变量 ,为逐步回
oode l
Sumof Squares
df
Regressi on
6108. 187
5
R e sidua l
298. 526
7
To ta l
6406. 713
12
M ean Square 1221. 637 42. 647
F 28. 646
Sig. 0. 000 ( a)
a Predictors: (Constant) , x5, x1, x2, x3, x4 b Dependent Variable: y
y^ = - 0. 1068x1 + 0. 3410x2 + 0. 3579x3 + 0. 2658x4 从上面的建模过程可以看出岭回归可以处理共线性 ,但参数 k的选择主观性太强 。
4 几种回归分析的比较
4. 1 主成分回归 、岭回归 、逐步回归和偏最小二乘法的比较 主成分回归具有降维的作用 ,核心思想就是通过降维把多个指标化为少数几个综合指标 , 而尽量不改变指标体系对因变量的解释程度 ,在一定程度上消除了共线性的危害 ,其偏差由保 留主成分的个数决定 。主成分回归成分或因子的提取来自于相关系数矩阵 X ′X, 它追求的是 自身方差的最大化 ,第一主成分反映的是自变量系统变异的最大方向 ,但它没有考虑因变量的 信息 。岭回归参数的选取原则和方法存在主观性 ,没有明确的含义 ,它的参数估计量始终是有 偏估计 ;由于岭回归要保留所有变量 ,因此对变量的选择要特别谨慎 ,但灵活运用岭回归方法 , 可以对分析各变量之间的作用和关系带来独特而有效的帮助 。逐步回归优于岭回归和主成分 回归 。偏最小二乘法与主成分回归法 、岭回归法一样能达到消除共线性的目的 ,但它又与其它 的有区别 。偏最小二乘法集中了最小二乘法与主成分分析法的优点 ,克服了两种方法的缺点 。 偏最小二乘法吸取了主成分回归提取主成分的思想 ,但不同的是主成分回归只是从自变量中
N
p
∑ ∑ ∑ α^,β^ = arg m in
yi
-
α i
-
β2
j xij
满足于
β j
≤t
(1)
i =1
j =1
j
这里 t ≥ 0是调节参数 ,此时对一切的 t,有α的估计 α^ = y, 不失一般性 ,假定 y = 0, 这样就可
∑ 以省略了 α, 调和参数 t的控制使得回归系数总体变小 ,若令 t0 =
Abstract M ulticollinearity referred to as collinearity is a multi - linear regression analysis in a very difficult issue. How to elim inate the collinearity hazards regression analysis has been a p riority. The literature at home and abroad to deal w ith serious collinearity methods commonly used are the following: R idge regression, p rincipal component regres2 sion, stepw ise regression, partial least squares method, Lasso regression. In this paper, a comparative analysis of these methods and describe their advantages and disadvantages, easy to select the app rop riate ways to deal w ith col2 linearity through the examp le analysis. Keywords R idge regression Principal component regression method Partial least squares regression Lasso re2 gre ssion