LL正则化 ppt课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
欠拟合 高偏差
恰好
就是为了防止过拟合!!!
过拟合 高方差
考虑如下一般形式的损失函数:
我们既要让训练误差(上式第一项)最小,又想让模型尽可能地简 单(上式第二项)。 我们有个朴素的想法:那就让权重W多几个为0(或者接近于0,说 明该节点影响很小)不就好了,相当于在神经网络中删掉了一些节 点,这样模型就变简单了。
• 线性回归+L2正则项:Ridge 回归(岭回归 )
• 如果我们用L0范数来正则化一个参数矩阵W的话,就是希望W 的大部分元素都是0,让参数W是稀疏的,“压缩感知”、“ 稀疏编码”就是通过L0来实现的
• 那为什么用L1去稀疏,而不用L0呢,因为L0范数很难优化求 解(NP难问题)(?)
• L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化 求解
• 另一种正则化模型的噪声使用方式是将其加到权 重,这项技术主要用于循环神经网络(RNN)。
• 向输出目标注入噪声。
• 多任务学习是通过合并几个任务中的样例来提高泛化的一 种方式。正如额外的训练样本能够将模型参数推向更好的 泛化能力值一样,当模型的一部分被多个额外的任务共享 时,这部分被约束为良好的值,通常会带来更好的泛化能 力。
• 十字绣网络(Cross-Stitch Networks):文献[3]将两个独立的网络用 参数的软共享方式连接起来。
为了让W多几个为0,对于我们的正则化项 (W)
,定义如下3种范数:
➢ L0范数:| | w | |0
说明0元素越多
➢ L1范数: | | w | |1 ➢ L2范数: | | w | | 2
,指向量中非0的元素的个数,越小
,指向量中各个元素绝对值之和 ,即各元素的平方和再开方
• 线性回归+L1正则项:Lasso 回归
• 完全自适应特征共享(Fully-Adaptive Feature Sharing):从瘦网 络(thin network)开始,使用对相似任务自动分组的指标,贪心的 动态加宽网络。[2 ]
[1]. Long, M. et. al. 2015. Learning Multiple Tasks with Deep Relationship Networks. [2]. Lu, Y. et. al. 2016. Fully-Adaptive Feature Sharing in Multi-Task Networks with Applications in Person Attriute Classification.
正则化(Regularization)第一讲
2017年11月26日
• L1、L2正则化 • 数据增强 • 多任务学习
Regularization 正则化 VS 规则化
规则化:顾名思义,给你的模型加入某些规则, 来达到某些目的(在机器学习或者深度学习中是 为了防止过拟合)
正则化:标准术语,有点给外行人学术门槛的味 道;这个翻译用得最普遍,所以我们接下来继续 用正则化作为它的“官方”翻译。
• 目前多任务学习方法大致可以总结为两类,一是不同任务 之间共享相同的参数(common parameter),二是挖掘不 同任务之间隐藏的共有数据特征(latent feature)
单任务学习
多任务学习
• 深度关系网络(Deep Relationship Networks):在用于机器视觉的 多任务场景中,已有的这些方法通常共享卷积层,将全链接层视为任 务相关的。[1]
• L2范数有助于处理 条件数不好的情况下矩阵求逆 很困难的问题,对于线性回归来说,其最优解为 :
• 当我们的样本X的数目比每个样本的维度还要小的 时候,矩阵XTX将会不是满秩的,也就是XTX会变 得不可逆
• 但如果加上L2正则项,就变成了下面这种情况, 就可以直接求逆了:
• 要得到这个解,我们通常并不直接求矩阵的逆, 而是通过解线性方程组的方式(例如高斯消元法 )来计算。
常用数据增强的方法:
1、旋转 | 反射变换(Rotation/reflection) 2、翻转变换(flip) 3、缩放变换(zoom): 4、平移变换(shift): 5、尺度变换(scale) 6、对比度变换 contrast 7、噪声扰动 noise
• 将噪声作用与输入,作为数据增强的策略。对于 某些模型而言,向输入添加方差极小的噪声等价 于对权重施加范数惩罚。
• 从另外一个角度可以将范数约束看成带有参数的约束优化 问题。带有参数惩罚的优化目标为:
• 带约束的最优问题,可以表示为:
• 通过KKT条件进行求解时,对应的拉格朗日函数为:
如果 是L2范数,那么权重就是被约束在一个L2球中;如果
是L1范数,那么权重就是约束在L1范数限制的区域中;另外也可以 得出L1得到的解比L2稀疏
• 假设我们有个方程组AX=b,我们需要求解X。如果A或者b 稍微的改变,会使得X的解发生很大的改变,那么这个方 程组系统就是ill-condition的。
如果方阵A是非奇异的,那么A的条件数定义为:
矩阵A的条件数等于A的范数与A的逆的范数的 乘积,不同的范数对应着不同的条件数。
条件数越大,矩阵越病态。
特征选择: xi的大部分元素(也就是特征)都是和最终 的输出yi没有关系或者不提供任何信息的;但在预测新的 样本时,这些没用的信息反而会被考虑,从而干扰了对正 确yi的预测。稀疏规则化算子的引入就是为了完成特征自 动选择的光荣使命,它会学习地去掉这些没有信息的特征
,也就是把这些特征对应的权重置为0。
可解释性: 患病回归模型y=w1*x1+w2*x2+…+w1000*x1000+b ,通过学习,如果最后学习到的w*就只有很少的非零元素 ,例如只有5个非零的wi。也就是说,患不患这种病只和 这5个因素有关,那医生就好分析多了。
那么L2范数与L1范数有什么区别呢?
1、L2范数更有助于计算病态的问题 2、L1相对于L2能够产生更加稀疏的模型 3、从概率角度进行分析,很多范数约束相当于对参数添加 先验分布,其中L2范数相当于参数服从高斯先验分布;L1 范数相当于拉普拉斯分布。