算 法 的 鲁 棒 性

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[机器学习]Lasso,L1范数,及其鲁棒性

前言:本文包括以下几个方面,1. 介绍Lasso,从最初提出Lasso的论文出发,注重动机;

2. L1和L2范数的比较,注重L1的稀疏性及鲁棒性;

3. 从误差建模的角度理解L1范数

最早提出Lasso的文章,文献[1],已被引用n多次。

注:对于不晓得怎么翻译的英文,直接搬来。

1) 文献[1]的动机:

在监督学习中,ordinary least squares(OLS) estimates 最小化所有数据的平方残差(即只是让经验误差最小化),存在2个问题:1是预测误差(prediction accuracy):OLS estimates总是偏差小,方差大;

2是可解释性(interpretation):我们希望选出一些有代表性的子集就ok了。

【Lasso还有个缺点,ref8:当pn时,(如医学样本,基因和样本数目),Lasso却最多只能选择n个特征】

为了解决上面2个问题,2种技术应运而生:

1是subset selection:其可解释性强,但预测精度可能会很差;

2是岭回归(ridge regression):其比较稳定(毕竟是添加了正则化项,把经验风险升级为结构风险),

但可解释性差(只是让所有coefficients都很小,没让任何

coefficients等于0)。

看来这2种技术对于2大问题总是顾此失彼,Lasso就被提出啦!其英文全称是'least absolute shrinkage and selection operator' lasso的目的是:shrink? some coefficients and sets others to 0,保留subset selection可解释性强的优点和 ridge regression稳定性强的优点。

2)为什么Lasso相比ridge regression稀疏?

直观的理解[1]

(plus a constant).

(a)图:椭圆形是函数的图像,lasso的约束图像是菱形。

最优解是第一次椭圆线触碰到菱形的点。最优解容易出现在角落,如图所示,触碰点坐标是(0,c),等同于一个coefficient=0;

(b)图:岭回归的约束图像是圆形。

因为圆形没有角落,所以椭圆线与圆形的第一次触碰很难是在坐标为(0,c)的点,也就不存在稀疏了。

2.? L1,L2范数误差的增长速度(ref2,ref3)

L1范数误差的线性增长速度使其对大噪音不敏感,从而对不良作用形成一种抑制作用。

而L2范数误差的二次增长速度显著放大了大噪声负面作用。

3. 从误差建模的角度理解

1)孟德宇老师从误差建模的角度分析L1如何比L2鲁棒。(ref3) 1:看图1,由于L1范数的线性增长速度使其对大噪音不敏感,从而对

其不良影响起到一种隐式抑制,因此相对鲁棒。

2:从贝叶斯的角度,看图2,L1范数误差对应的拉普拉斯分布比L2范数误差对应的高斯分布具有更为显著的“厚尾”状态,从而其更适合对大幅度噪音的似然描述,

从而导致对大噪音或异常点数据更加稳健的计算效果。

2)1是从误差建模的角度,涉及这么个问题:从贝叶斯角度,为什么L1对应拉普拉斯,L2对应高斯分布呢?

抛给大家一个结论:从贝叶斯的角度来看,正则化等价于对模型参数引入先验分布。

对于回归问题,对w引入先验分布(高斯分布-拉普拉斯分布) - 对样本空间关于w 求贝叶斯最大后验估计(MAP) - 得到了关于w的岭回归-LASSO?

因此,?对参数引入高斯先验-拉普拉斯先验等价于 L2正则化-L1正则化

除了高斯先验、拉普拉斯先验,还讲了其他先验。

L0范数很难优化求解(NP难问题),L1范数是L0范数的最优凸近似,比L0范数容易优化求解。

5. ref5 一篇极好的博文,全面分析了各种范数(L1,L2,核范数,鲁棒PCA)

[1]《Regression shrinkage and selection via the lasso》Robert Tibshirani

[2] 《Improve robustness of sparse PCA by L1-norm maximization》

Meng Deyu et.al

[3] 《误差建模原理》孟德宇? 人工智能通讯

[4] 《convex optimization》S.Boyd? (书)

[7] 《Lazy Sparse Stochastic Gradient Descent for Regularized Mutlinomial Logistic Regression》

[8] 《Regularization and variable selection via the Elastic Net》ppt? Hui.Zou

对于回归问题,对w引入先验分布(高斯分布-拉普拉斯分布) - 对样本空间关于w 求贝叶斯最大后验估计(MAP) - 得到了关于w的岭回归-LASSO?

(1) 基于划分的方法:? K-means 算法? 基于密度的算法

① 工作向量work,它表示系统可提供给进程继续运行所需的各类资-源数目,它含有n个元素,在执行安全算法开始时,work:=available。

(2)?根据数字水印的作用可以分为:鲁棒性水印、脆弱性水印、半脆弱性水印。

ListNode* FindKthToTail(ListNode* head, unsigned int k)

三、语义SLAM。目前位置,SLAM的方案都处于特征点和像素的层级。关于这些特征点到底来自与什么东西,把物体识别和视觉SLAM结合起来,构建带物体标签的地图。把标签信息引入到回环检测中,很有可能会大大提高回环检测的准确度和效率。

所谓“鲁棒性”,是指控制系统在一定(结构,大小)的参数摄动下,维持某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性能

相关文档
最新文档