岭回归和lasso

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、普通最小二乘估计带来的问题

当自变量间存在多重共线性时,回归系数估计的方差就很大,估计值就很不稳定。此时模型或数据的微小变化有可能造成系数估计的较大变化,对预测值产生较大影响。下面进一步用一个模拟的例子来说明这一点。 例1 假设已知x 1,x 2与y 的关系服从线性回归模型

y =10+2x 1+3x 2+ε

给定x 1,x 2的10个值,如下表:

现在我们假设回归系数与误差项是未知的,用普通最小二乘法求回归系数的估计值得:

βˆ=11.292,1βˆ=11.307,2βˆ=-6.591 而原模型的参数

β0=10, β1=2,β2=3

看来相差太大。计算x 1,x 2的样本相关系数得r 12=0.986,表明x 1与x 2之间高度相关。

二、岭回归提出的背景

岭回归是1970年由Hoerl 和Kennard 提出的, 它是一种有偏估计,是对最小二乘估计的改进。

假定自变量数据矩阵X ={x ij }为n ×p 的,通常最小二乘回归(ols )寻求那些使得残差平方和最小的系数β,即

2

1

1

(ols)

(ols)(,)

ˆˆ(,)arg min (y )n p

i ij j i j

x αβα

β

αβ===--∑∑

岭回归则需要一个惩罚项来约束系数的大小,其惩罚项就是在上面的公式中增加

一项λ∑βj 2p j=1,即岭回归的系数既要使得残差平方和小,又不能使得系数太膨

胀:

2

2111

+(ridge)

(ridge)

ˆˆ(,)arg min {(y )}n p p

i ij j j i j j x β

α

β

αβλβ====--∑∑∑

这等价于在约束条件∑βj 2

p j=1

≤s 下,满足 21

1

(ridge)

(ridge)

ˆˆ(,)arg min (y )n p

i ij j i j x β

α

β

αβ===--∑∑

设有多重线性回归模型εβ+=X y

,参数β的最小二乘估计为

y

)(ˆ1X X X ''=-β 则 122)()ˆ(-'=-X X tr E σββ

242)(2)ˆ(-'=-X X tr D σββ

当自变量出现多重共线性时,普通最小二乘估计明显变坏。当0≈'X

X 时,i

λ1

就会变得很大,这时,尽管β

ˆ是β的无偏估计,但βˆ很不稳定,在具体取值上与真值有较大的偏差,甚至会出现与实际意义不符的正负号。

设想给X X '加上一个正常数矩阵kI (0>k ),那么kI X

X +'接近奇异的程度就会变小。先对数据作标准化,标准化后的设计阵仍用X 表示。

称 为岭回归估计。这里的k 成为岭参数。当0=k 时的岭回归估计就是普通的最小二乘估计。

因为岭参数k 不是唯一确定的,所以我们得到的岭回归估计)(ˆk β实际是回归参数β的一个估计族,取不同的k 值时)(ˆk β的取值不同。以k 为横坐标,)(ˆk β为纵坐标的直角坐标系,可分析β估计族的稳定性。

优点:比最小二乘估计更稳定

三、岭迹分析

当岭参数k 在(0,∞)内变化时,(k)βj

ˆ是k 的函数,在平面坐标系上把函数(k)βj

ˆ描画出来。画出的曲线称为岭迹。在实际应用中,可以根据岭迹曲线的变化形状来确定适当的k 值和进行自变量的选择。

y

)()(ˆ1

X kI X X k '+'=-β

在岭回归中,岭迹分析可用来了解各自变量的作用及自变量之间的相互关系。下图所反映的几种有代表性的情况来说明岭迹分析的作用。

图1.岭迹图

四、岭参数的选择

(一)方法

1. 岭迹法

岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以及

正负号不符合经济意义,则希望能通过采用适当的)(ˆk 来加以一定程度的改善,

k 值得选择就显得尤为重要。选择k 值得一般原则是:

(1)各回归系数的岭估计基本稳定;

(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理; (3)回归系数没有不合乎经济意义的绝对值;

(4)残差平方和增大不太多。

图2

如上图,当k 取0k 时,各回归系数的估计值基本上都能达到相对稳定。

缺点:用岭迹法来确定k 值缺少严格的令人信服的理论依据,存在一定的主观人为性.

优点:恰好发挥定性分析与定量分析有机结合。 2. GCV 方法

由岭回归的系数估计:

1ˆ()()y

k X X kI X β-''=+ 则相应的对Y 的估计为:1

()()y

y k X X X kI X ∧

-''=+ 记矩阵()

1

()M

k X X X

kI X -''=+,将岭回归写成()()y k M k y ∧

=的形式,那么由GCV 方法的定义,有

211

2

()

()(1())

n y y k GCV k n trM k ---=

-

展开得到:

2

1

22

11

12

1

()()(())

n

i i

p

i i

n

k k y GCV k n

k λλ--=--=+=

+∑∑

使得该式得到最小值的K 的值即可被认为是最佳岭回归参数。

优点: 岭回归的最优参数由于依赖于被估计问题的系数,不能作出显示的表达,这造成了参数确定的困难。而广义交叉验证方法作模型评估依靠的主要是已知的数据,而不必对模型的结构和未知参数作过多的假设。

(二)岭回归选择变量的原则:

(1)在岭回归中设计矩阵X 已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

(2)随着k 的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 (3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

五、lasso 提出的背景

在建模过程中,影响模型中因变量的因素往往有很多种,而在建模之初,在掌握的资料不够全面的情况下,并不知道哪些因素对结果的实际影响大小,建模者往往会从全面考虑各种影响因子的角度出发,全面地搜集可能有用的数据。在这种情况下,如何从许多个因素中选择最适合的,能保留在模型中的解释变量就显得十分重要,自变量太多,可能会削弱估计以及预测的稳定性,相反,自变量太少,那么所拟合的模型与实际情况又会有太大的偏差。在回归方程中,面对较多备选择变量时,传统的变量选择方法一般都是利用逐步回归,再结合AIC ,BIC 准则等来选择最优的模型,许多实践也证明以上方法具有一定的实用性,但同时也有一些不足之处。

六、lasso 的基本原理:

Lasso 算法是一种带有惩罚因子的线性模型估计方法,该方法的本质是约束

相关文档
最新文档