岭回归解决多重共线性
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、引言
回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。
二、认识多重共线性
(一)多重共线性的定义
设回归模型01122p p y x x x ββββε=+++⋯++如果矩阵X 的列向量存在一组不全
为零的数012,,p k k k k ⋯使得011220i i p i p k k x k x k x +++⋯+=, i =1,2,…n ,则称其存在完全共线性,如果022110≈+⋯+++p i p i i x k x k x k k , i =1,2,…n ,则称其存在
近似的多重共线性。
(二)多重共线性的后果
1.理论后果
对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可
能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n 很小的时候,多重共线性才是非常严重的。
多重共线性的理论后果有以下几点:
(1)保持OLS 估计量的BLUE 性质;
(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的
情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。
(3)近似的多重共线性中,OLS 估计仍然是无偏估计。无偏性是一种多维样本或重复抽样
的性质;如果X 变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS 估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。
(4)多重共线性是由于样本引起的。即使总体中每一个X 之间都没有线性关系,但在具体
取样时仍存在样本间的共线性。 2.现实后果
(1)虽然存在多重共线性的情况下,得到的OLS 估计是BLUE 的,但有较大的方差和协方差,
估计精度不高;
(2)置信区间比原本宽,使得接受0H 假设的概率更大;
(3)t 统计量不显著;
(4)拟合优度2
R 的平方会很大;
(5)OLS 估计量及其标准误对数据微小的变化也会很敏感。
(三)多重共线性产生的原因
1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。
2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长
3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
(四) 多重共线性的识别
1.直观的判断方法
(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。 (2)回归系数的符号与专业知识或一般经验相反
(3)对重要的自变量的回归系数进行t 检验,其结果不显著,但是F 检验确得到了显著的
通过
(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化 (5)重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF )
定义j VIF =1
2)1(--j R 其中2j R 是以j X 为因变量时对其他自变量的复测定系数。一般认为如果最大的j VIF 超过10,常常表示存在多重共线性。事实上j VIF =1
2)1(--j R >10这说明
21j R -<0.1即2j R >0.9。
3.特征根判定法
根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|X X '
|≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X 的列向量必存在多重共线性,同样也可证明X X '
有多少个特征根近似为零矩阵,X
就有多少个多重共线性。根据条件数, 其中m λ为最大的特征根,i λ为其他的特征根,通常认为0
(五)多重共线性的处理方法
1.增加样本容量
当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体
i
K m i
λλ=
时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。
2.剔除法
对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。
3.主成分法
当自变量间有较强的线性相关性时,利用p 个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m 个主成12,,m Z Z Z ⋯来建立回归模型。
由原始变量的观测数据计算前m 个主成分的得分值,将其作为主成分的观测值,建立Y 与主成分的回归模型即得回归方程。这时p 元降为m 元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响
4.PLS (偏最小二乘法)
H.Wold 在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。
5.岭回归法.
岭回归分析是1962年由Heer 首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式Y X βε=+,参数β的普通最小二乘估计为
β=1')(-X X 'X Y , 岭回归当自变量存在多重共线性|X X '|≈0时,给矩阵加上一个正常
系数矩阵kI ,那么β=1
'
)(-+kI X X 'X Y ,当时就是普通最小二乘估计。
三、实际的应用
我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。
设模型为εβββββ+++++=443322110X X X X Y (3.1)
(一) 普通的最小二乘法