高维回归中的几种变量选择方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量选择算法也很多,诸如所有可能子集回归、向前选择、向后 消减、逐步回归等,还有日本学者 Akaike(1973 年)[1]提出的 AIC
) b = arg min Y -
X ¢b
2 +l
b
b
2
1
(2)
准则、Mallows(1973 年)提出的 Cp 准则、以及 Schwarz(1978 年) 其中,l > 0 是调节参数。
数据微小的变动就会使模型很难解释;其次,面对高维数据和超 Regression),即最小角回归算法来实现,对其进行简单的修正,
高维数据,当变量个数 p 很大时,最优子集方法就不可能对 2p 就可求出 LASSO 估计的系数解路径,在 R 软件中,可利用相关
个模型进行比较。因此,本文主要基于高维数据和超高维数据 的软件包实现。
- 28 - 科学技术创新 2019.30
以此确保该系数对应的变量有较大的概率入选模型。Alasso 方 法保留了 Lasso 优良性质的同时也有效地减少了参数估计的偏 差。同时,Alasso 也是一个凸优化问题,易于求解。
1.3 Group Lasso Group Lasso 方法最早由 Bakin 在 1999 年提出,并给出了相 应算法。该方法是 Lasso 方法的自然推广,使用 2 范数作为其惩 罚项,Yuan 和 Lin(2006 年)对其做了进一步改进[4]。
2019.30 科学技术创新 - 27 -
高维回归中的几种变量选择方法
胡紫薇
(廊坊银行股份有限公司,河北 廊坊 065000)
摘 要院高维 数据的变量选择是统计学家面临的主要问题之一。随着现代科学与技术的发展,统计分析者面临的数据越来越 复杂,数据量也越来越大,海量的高维数据和超高维数据让统计分析工作颇具挑战性,各种各样的污染数据和异常数据也掺杂其
中,如何有效地分析所得到的高维数据,是现代统计学面临的挑战之一。变量选择作为处理高维数据的一种主要思路,以模型的
稀疏性假定为前提,即假定只有少量的解释变量对响应变量有显著影响,从而利用各种选择方法估计模型,提高模型的解释性。
本文主要介绍几种处理高维数据和超高维数据的变量选择的方法,阐述各个方法的同时也对方法之间的改进和优缺点做了对
比,发现方法之间的合理结合会产生良好的变量筛选效果。
关键词:高维数据;超高维数据;变量选择
中图分类号院O212.1
文献标识码院A
文章编号院2096-4390渊2019冤30-0027-03
自 20 世纪 60 年代提出变量选择以来,变量选择方法便成 为统计学研究的重点内容之一。变量选择就是在回归分析时, 在稀疏性假定下,从众多冗杂的解释变量中选出那少数几个对
) b Ridge = arg min Y -
X ¢b
2
b £s
2
响应变量有重要影响的解释变量。变量选择的结果直接影响参
的基础上首次提出,由于岭估计在变量系数压缩过程中,对
数估计的效果及模型的预测精度,因此变量选择要力争做到不 范数的选取上没有给出具体的值,即如果取 1 范数或者(0,1)之
遗漏重要变量,同时也不选入冗余变量。但是在大数据时代,人 间的范数的话,可行域就不是严格凸的,破坏凸优化特点,因j
,
l ,q > 0
jb
(3)
1.1 Lasso
Lasso (Least absolute shrinkage and selection operator)由
其中,l , q 均为调节参数。
Robert Tibshiran(i 1996 年)在岭估计
在 Alasso 方法中,绝对值大的系数被施以较小的惩罚权重,
化方法基本形式如下:
行压缩,而针对较大的估计系数,应该用较小的惩罚参数压缩,
å ( ) min b
铪禳镲镲睚镲镲Y
-
X ¢b 2 +
p
Jl
j= 1
bj
(1)
其中 Jl 是依赖于参数 l ³ 0 的惩罚项。目前常用的正
( ) å 则化变量选择的方法有以下几种。
这样就解决了 Lasso 估计使用相同调节参数所带来的问题。基 于这种思想,Alasso 的惩罚函数被定义为:
法,能够同时实现变量选择和系数估计,是一种主流的变量选择 重要的变量。且 Lasso 估计的估计结果是有偏的,因此不具有
方法。该方法是基于惩罚的思想,在最小二乘和最大似然估计 Oracle 性质。
的基础上,对目标函数施加一个惩罚项,从而使新的目标函数
1.2 Adaptive Lasso
的最优子集相对于原目标函数的最优子集有所收缩,从而达到
们搜集和存储数据的能力大大提高,统计分析工作者面对的数 Tibshirani 提出了 1 范数估计的 Lasso 方法。该方法是一种压缩
据也越来越复杂,越来越庞大,如何从这海量的噪声数据和污染 估计,是桥估计(Frank 和 Friedman)的一个特例,Lasso 估计如下
数据中筛选出有效变量,是统计工作的一大挑战。传统的经典 所示[3]:
提出的 BIC 准则,这几种方法都是经典方法中的最佳子集方
Lasso 方法能够同时实现变量选择和参数估计,从而为统计
法。经典方法虽然能解决一定的问题,但是也有一定的缺陷。首 分析工作带来了很大的方便。现在,Lasso 方法的算法也易于实
先,经典的变量选择方法的结果很不稳定,诸如最优子集方法中 现 ,一 般 通 过 Efron 等 (2004) 提 出 的 LARS (Least Angle
Zou(2006 年)提出了 Adaptive Lasso 方法。Alasso 方法是对
稀疏的目的,因此正则化方法能够将计算的时间缩短,降低成 上述 Lasso 估计方法的一种改进。针对 Lasso 估计调节参数的问
本,同时也能够降低子集法选择方法所带来的不稳风险[2]。正则 题,Zou 认为针对较小的估计系数最好运用较大的惩罚参数进
来讨论几种主要的变量选择方法。
Lasso 方法是一个凸优化问题,易于实现,但是也有本身的
1 正则化方法
缺点。Lasso 估计运用同一个调节参数调节所有的参数,因此,当
变量选择的目的就是尽量将不重要变量的系数压缩至零, 调节参数过小时,就不能起到良好的压缩效果,即不能将无关变
从而保留重要变量。正则化方法可以看做是一类特殊的收缩方 量的系数压缩至零,而当调节参数过大时,它又不能保留某些较