高维回归中的几种变量选择方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

变量选择算法也很多，诸如所有可能子集回归、向前选择、向后消减、逐步回归等，还有日本学者 Akaike（1973 年）[1]提出的 AIC
) b = arg min Y -
X ¢b
2 +l
b
b
2
1
（2）
准则、Mallows（1973 年）提出的 Cp 准则、以及 Schwarz（1978 年）其中，l > 0 是调节参数。
数据微小的变动就会使模型很难解释；其次，面对高维数据和超 Regression），即最小角回归算法来实现，对其进行简单的修正，
高维数据，当变量个数 p 很大时，最优子集方法就不可能对 2p 就可求出 LASSO 估计的系数解路径，在 R 软件中，可利用相关
个模型进行比较。因此，本文主要基于高维数据和超高维数据的软件包实现。
- 28 - 科学技术创新 2019.30
以此确保该系数对应的变量有较大的概率入选模型。Alasso 方法保留了 Lasso 优良性质的同时也有效地减少了参数估计的偏差。同时，Alasso 也是一个凸优化问题，易于求解。
1.3 Group Lasso Group Lasso 方法最早由 Bakin 在 1999 年提出，并给出了相应算法。该方法是 Lasso 方法的自然推广，使用 2 范数作为其惩罚项，Yuan 和 Lin（2006 年）对其做了进一步改进[4]。
2019.30 科学技术创新 - 27 -
高维回归中的几种变量选择方法
胡紫薇
（廊坊银行股份有限公司，河北廊坊 065000）
摘要院高维数据的变量选择是统计学家面临的主要问题之一。随着现代科学与技术的发展，统计分析者面临的数据越来越复杂，数据量也越来越大，海量的高维数据和超高维数据让统计分析工作颇具挑战性，各种各样的污染数据和异常数据也掺杂其
中，如何有效地分析所得到的高维数据，是现代统计学面临的挑战之一。变量选择作为处理高维数据的一种主要思路，以模型的
稀疏性假定为前提，即假定只有少量的解释变量对响应变量有显著影响，从而利用各种选择方法估计模型，提高模型的解释性。
本文主要介绍几种处理高维数据和超高维数据的变量选择的方法，阐述各个方法的同时也对方法之间的改进和优缺点做了对
比，发现方法之间的合理结合会产生良好的变量筛选效果。
关键词：高维数据；超高维数据；变量选择
中图分类号院O212.1
文献标识码院A
文章编号院2096-4390渊2019冤30-0027-03
自 20 世纪 60 年代提出变量选择以来，变量选择方法便成为统计学研究的重点内容之一。变量选择就是在回归分析时，在稀疏性假定下，从众多冗杂的解释变量中选出那少数几个对
) b Ridge = arg min Y -
X ¢b
2
b £s
2
响应变量有重要影响的解释变量。变量选择的结果直接影响参
的基础上首次提出，由于岭估计在变量系数压缩过程中，对
数估计的效果及模型的预测精度，因此变量选择要力争做到不范数的选取上没有给出具体的值，即如果取 1 范数或者（0，1）之
遗漏重要变量，同时也不选入冗余变量。但是在大数据时代，人间的范数的话，可行域就不是严格凸的，破坏凸优化特点，因j
,
l ,q > 0
jb
（3）
1.1 Lasso
Lasso （Least absolute shrinkage and selection operator）由
其中，l , q 均为调节参数。
Robert Tibshiran（i 1996 年）在岭估计
在 Alasso 方法中，绝对值大的系数被施以较小的惩罚权重，
化方法基本形式如下：
行压缩，而针对较大的估计系数，应该用较小的惩罚参数压缩，
å ( ) min b
铪禳镲镲睚镲镲Y
-
X ¢b 2 +
p
Jl
j= 1
bj
（1）
其中 Jl 是依赖于参数 l ³ 0 的惩罚项。目前常用的正
( ) å 则化变量选择的方法有以下几种。
这样就解决了 Lasso 估计使用相同调节参数所带来的问题。基于这种思想，Alasso 的惩罚函数被定义为：
法，能够同时实现变量选择和系数估计，是一种主流的变量选择重要的变量。且 Lasso 估计的估计结果是有偏的，因此不具有
方法。该方法是基于惩罚的思想，在最小二乘和最大似然估计 Oracle 性质。
的基础上，对目标函数施加一个惩罚项，从而使新的目标函数
1.2 Adaptive Lasso
的最优子集相对于原目标函数的最优子集有所收缩，从而达到
们搜集和存储数据的能力大大提高，统计分析工作者面对的数 Tibshirani 提出了 1 范数估计的 Lasso 方法。该方法是一种压缩
据也越来越复杂，越来越庞大，如何从这海量的噪声数据和污染估计，是桥估计（Frank 和 Friedman）的一个特例，Lasso 估计如下
数据中筛选出有效变量，是统计工作的一大挑战。传统的经典所示[3]：
提出的 BIC 准则，这几种方法都是经典方法中的最佳子集方
Lasso 方法能够同时实现变量选择和参数估计，从而为统计
法。经典方法虽然能解决一定的问题，但是也有一定的缺陷。首分析工作带来了很大的方便。现在，Lasso 方法的算法也易于实
先，经典的变量选择方法的结果很不稳定，诸如最优子集方法中现，一般通过 Efron 等（2004）提出的 LARS （Least Angle
Zou（2006 年）提出了 Adaptive Lasso 方法。Alasso 方法是对
稀疏的目的，因此正则化方法能够将计算的时间缩短，降低成上述 Lasso 估计方法的一种改进。针对 Lasso 估计调节参数的问
本，同时也能够降低子集法选择方法所带来的不稳风险[2]。正则题，Zou 认为针对较小的估计系数最好运用较大的惩罚参数进
来讨论几种主要的变量选择方法。
Lasso 方法是一个凸优化问题，易于实现，但是也有本身的
1 正则化方法
缺点。Lasso 估计运用同一个调节参数调节所有的参数，因此，当
变量选择的目的就是尽量将不重要变量的系数压缩至零，调节参数过小时，就不能起到良好的压缩效果，即不能将无关变
从而保留重要变量。正则化方法可以看做是一类特殊的收缩方量的系数压缩至零，而当调节参数过大时，它又不能保留某些较