岭回归和lasso
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、普通最小二乘估计带来的问题
当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。 例1 假设已知x 1,x 2与y 的关系服从线性回归模型
y =10+2x 1+3x 2+ε
给定x 1,x 2的10个值,如下表:
现在我们假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计值得:
βˆ=11.292,1βˆ=11.307,2βˆ=-6.591 而原模型的参数
β0=10, β1=2,β2=3
看来相差太大。计算x 1,x 2的样本相关系数得r 12=0.986,表明x 1与x 2之间高度相关。
二、岭回归提出的背景
岭回归是1970年由Hoerl 和Kennard 提出的, 它是一种有偏估计,是对最小二乘估计的改进。
假定自变量数据矩阵X ={x ij }为n ×p 的,通常最小二乘回归(ols )寻求那些使得残差平方和最小的系数β,即
2
1
1
(ols)
(ols)(,)
ˆˆ(,)arg min (y )n p
i ij j i j
x αβα
β
αβ===--∑∑
岭回归则需要一个惩罚项来约束系数的大小,其惩罚项就是在上面的公式中增加
一项λ∑βj 2p j=1,即岭回归的系数既要使得残差平方和小,又不能使得系数太膨
胀:
2
2111
+(ridge)
(ridge)
ˆˆ(,)arg min {(y )}n p p
i ij j j i j j x β
α
β
αβλβ====--∑∑∑
这等价于在约束条件∑βj 2
p j=1
≤s 下,满足 21
1
(ridge)
(ridge)
ˆˆ(,)arg min (y )n p
i ij j i j x β
α
β
αβ===--∑∑
设有多重线性回归模型εβ+=X y
,参数β的最小二乘估计为
y
)(ˆ1X X X ''=-β 则 122)()ˆ(-'=-X X tr E σββ
242)(2)ˆ(-'=-X X tr D σββ
当自变量出现多重共线性时,普通最小二乘估计明显变坏。当0≈'X
X 时,i
λ1
就会变得很大,这时,尽管β
ˆ是β的无偏估计,但βˆ很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。
设想给X X '加上一个正常数矩阵kI (0>k ),那么kI X
X +'接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X 表示。
称 为岭回归估计。这里的k 成为岭参数。当0=k 时的岭回归估计就是普通的最小二乘估计。
因为岭参数k 不是唯一确定的,所以我们得到的岭回归估计)(ˆk β实际是回归参数β的一个估计族,取不同的k 值时)(ˆk β的取值不同。以k 为横坐标,)(ˆk β为纵坐标的直角坐标系,可分析β估计族的稳定性。
优点:比最小二乘估计更稳定
三、岭迹分析
当岭参数k 在(0,∞)内变化时,(k)βj
ˆ是k 的函数,在平面坐标系上把函数(k)βj
ˆ描画出来。画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k 值和进行自变量的选择。
y
)()(ˆ1
X kI X X k '+'=-β
在岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下图所反映的几种有代表性的情况来说明岭迹分析的作用。
图1.岭迹图
四、岭参数的选择
(一)方法
1. 岭迹法
岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以及
正负号不符合经济意义,则希望能通过采用适当的)(ˆk 来加以一定程度的改善,
k 值得选择就显得尤为重要。选择k 值得一般原则是:
(1)各回归系数的岭估计基本稳定;
(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理; (3)回归系数没有不合乎经济意义的绝对值;
(4)残差平方和增大不太多。
图2
如上图,当k 取0k 时,各回归系数的估计值基本上都能达到相对稳定。
缺点:用岭迹法来确定k 值缺少严格的令人信服的理论依据,存在一定的主观人为性.
优点:恰好发挥定性分析与定量分析有机结合。 2. GCV 方法
由岭回归的系数估计:
1ˆ()()y
k X X kI X β-''=+ 则相应的对Y 的估计为:1
()()y
y k X X X kI X ∧
-''=+ 记矩阵()
1
()M
k X X X
kI X -''=+,将岭回归写成()()y k M k y ∧
=的形式,那么由GCV 方法的定义,有
211
2
()
()(1())
n y y k GCV k n trM k ---=
-
展开得到:
2
1
22
11
12
1
()()(())
n
i i
p
i i
n
k k y GCV k n
k λλ--=--=+=
+∑∑
使得该式得到最小值的K 的值即可被认为是最佳岭回归参数。
优点: 岭回归的最优参数由于依赖于被估计问题的系数,不能作出显示的表达,这造成了参数确定的困难。而广义交叉验证方法作模型评估依靠的主要是已知的数据,而不必对模型的结构和未知参数作过多的假设。
(二)岭回归选择变量的原则:
(1)在岭回归中设计矩阵X 已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
(2)随着k 的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 (3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。
五、lasso 提出的背景
在建模过程中,影响模型中因变量的因素往往有很多种,而在建模之初,在掌握的资料不够全面的情况下,并不知道哪些因素对结果的实际影响大小,建模者往往会从全面考虑各种影响因子的角度出发,全面地搜集可能有用的数据。在这种情况下,如何从许多个因素中选择最适合的,能保留在模型中的解释变量就显得十分重要,自变量太多,可能会削弱估计以及预测的稳定性,相反,自变量太少,那么所拟合的模型与实际情况又会有太大的偏差。在回归方程中,面对较多备选择变量时,传统的变量选择方法一般都是利用逐步回归,再结合AIC ,BIC 准则等来选择最优的模型,许多实践也证明以上方法具有一定的实用性,但同时也有一些不足之处。
六、lasso 的基本原理:
Lasso 算法是一种带有惩罚因子的线性模型估计方法,该方法的本质是约束