神经网络正则化
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主动学习: 先用带标签的样本训练模型,然后拿一个未标签样本对其引入额 外专家知识,即通过外界交互将其转变为有标记样本,然后重新 训练这个模型,然后再拿一个未标记样本,重复操作。
若不与专家交互,没有获得额外信息,还能利用未标记样本提高泛化性能吗? ——半监督学习 半监督学习: 让学习器不依赖外界交互、自动地利用未标样本来提升学习性能。
流形正则化
其实就是在机器学习问题中的正则化项中加入和流形相关的项,可以挖掘数 据分布的几何形状,利用数据中的几何结构,起到半监督的作用,比如:两个样 本在流形中距离相近,那么他们的标签也应该一样或相似。
【8 广义正则化理论】
• 经典正则化理论,使用的是一个反映类标样本所在外围空间的简单罚函数。 • 广义正则化理论,使用的是一个反映无类标样本所在的输入空间内在几何结构的罚 函数,并使用半监督函数学习的思想。
(7.84)
(7.78)
影响矩阵
(7.85)
(7.86)
(7.85)代入(7.84)得:
(7.86)
求R(λ )的期望值:
但是,一个给定数据集的均方误差R(λ )在实际中并不好用,因为其中需要回归函 数f(x)的知识,这个f(x)是未知的,是有待重建的函数。
引入R(λ )的估计:
(7.91)
Ϭ2已知
第7章
1、正则化基础 2、良态及病态问题 3、Tikhonov正则化理论 4、广义径向基函数网络 5、再论正则化最小二乘估计
正则化理论
6、正则化参数估计 7、半监督学习 8、广义正则化理论 9、光谱图理论 10、拉普拉斯正则化最小二乘算法
【1 正则化基础】
监督学习算法共同点:通过样本训练网络,对于给定的输 入模式给出输出模式,等价于构造一个超平面,也就是多维映 射。为了得到一条好的超平面,通常都是根据训练数据,利用 最小化误差来使得更好地得到一条超平面,但是训练误差小不 是我们的最终目标,我们的目标是希望模型的测试误差小,也 就是能够准确地预测新的样本。但是,往往当参数太多的情况 下,会导致模型复杂度上升,当在追求尽可能小的误差时就容 易过拟合,过拟合从直观上理解就是在对训练数据进行拟合时, 要照顾到每个点(相关特征与无关特征),从而使得拟合函数 波动性非常大。那我们就希望模型“简单”一些,在这个基础 上最小化训练误差,这样得到的参数才具有较好的泛化性能。 这里模型的“简单”就是通过正则化函数来实现的。
其作用类似于转置矩阵
只有当
满足时,(7.13)式才为0
为了求Fλ(x)做准备
代表展开系数,与系统估计误差呈线性关系,与正则化参数成反比。
确定展开系数
令: (7.23) (7.22)
(7.24)
G是对称的
联立式(7.30)和(7.31)得:
实际上,总将正则化参数取足够大,(7.31) 使得 正定的,从而是可逆 (7.32) 的,则有唯一解
正则化方法:
目的就是通过最小化如下的代价函数的方法把超平面重构问题的求解限制在压缩 子集中: (正则化代价函数)=(经验代价函数)+(正则化参数)×(正则化项) 经验代价函数:由误差平方和定义,最小化误差让模型更好地拟合训练数据; 正则化算子:用来平滑超平面重构问题的解,也就是防止模型过分拟合训练数据 (包括噪声和异常点)。 引入正则项,在训练过程中,避免了过分依赖某一维(或几维)的特征。
现实中,无标签(即不带有预期响应的样本)数据数量常常极大于有标签数据数量,若 要构建模型,一方面,只有那些有标记的样本有用未标记的信息就浪费了;另一方面,带标 记的样本不足导致模型泛化能力不佳。 若想要将未标记的样本利用起来并且以监督学习的方式训练一个网络,就必须将那些未 标记的样本全部标记后用于学习,但这是一个耗时耗力的工作,也易出错。
典型情况下,这组新的基函数的个数小于输 入数据点的个数,即m1≤N
(7.48) 一组新的基函数: (7.49)
G为N×m1 阶,不对称
将式(7.51)右边第二项写成如下形式:
(7.55)
G0为对称阵 以权值向量w为变量求式(7.51)的最小值,得到
则:
(7.57)
• 广义RBF网络与正则化RBF网络比较
教师提供类标di
服从边缘 分布px(x)
什么是流行?
机器学习中的流形是指数据分布在高维空 间中的一个低维度的流形上面,意思就是 数据本质上不是高维度的。
为什么要对流形学习感兴趣?
我们给无监督学习学到的分布信息帖上少量 有监督的标签,这个分类工作就能漂亮的完 成了。在流形正则化中,就是通过流形正则 化项来达到结合有监督和无监督样本来找出 分布特征的目的。
正则化的基本思想就是通过某些含有解的先验信息的非负的辅助泛函 来使解稳定。
Tikhonov的正则化理论包含两项:
最小化 标准误差项
约束 条件
复杂度 罚函数模型
• 当正则化参数趋近0时无约束,泛函最小点解完全由样本确定,即有很大不确定性。 • 当正则化参数趋近∞时,正则化项占支配地位,微分算子D施加的先验光滑约束对 求解泛函最小点是充分的,此时样本是不可靠的。 • 正则化参数应取在这两个极限条件之间的某个值,这样训练样本和先验知识都能 对求解泛函最小点起作用。
【5 再论正则化最小二乘估计】
指出:式(7.57) 计看作该式的一个特例。 包括正则化最小二乘估计,并且最小二乘估
逼近(7.63)和(7.4)中的代价函数,则有
用训练样本{xi,di}i=1N的形式重申式(7.57),得:
【6 正则化参数估计】
先考虑一个非线性回归问题,第i时间步的输入向量xi相对应的可观测输出yi定义为:
可以证明
:
所以,使估计
最小的λ 值可以作为正则化参
数λ 的一wk.baidu.com好的选择。
Ϭ2未知
广义交叉验证
为使泛函最小化的函数:
(7.93)
我们从修改通常的交叉验证的留一形式处理此问题,令
标准误差项中省略了第k项
通过留出这一项,用
预报缺损数据点dk的能力来衡量参数λ 的好坏。引入性能度量:
(7.94)
经过系列变换
经典正则化理论 广义正则化理论,通过引入叫做“流行正则化算子”。(半监督学习)
【2 病态良态问题】
如果一个学习问题不具有连续性,则所计算的输入输 出映射与学习问题的准确解无关。
病态问题:上述三个条件中的任何一个都不满足 (过拟合情况的发生)。 要解决这些困难就必须附加先验知识。
【3 Tikhonov正则化理论】
引入下一节 LapRLS算法。
【10 拉普拉斯正则化最小二乘算法】
算法的实用性: 1、对该算法的训练既使用带类标样本,又使用无类标样本,因此,可把算法的实用性提升到比那些 现有的单独的监督训练算法更广的范围。 2、通过核方法,算法可以对非线性可分离的模式进行识别,因此,拓展了最小二乘估计的应用。
使用表示定理:
函数f和矩阵Lf的内积 补充: (7.113)
本章主要关注的是为处理内罚 项找到一个合适的度量,而寻 找的度量就是Rayleigh商的分 子fTLf。
引入光滑函数:
(7.114)
通过已得到的式(7.114)中的光滑函数SG(F),可以把式(7.107)中的代价函数重写 成预期的形式:
(7.119)
Tikhonov泛函的Frechet微分: (下面都是为求泛函最小值Fλ(X)做的工作)
进行代价泛函的最小化,则它的Frechet微分可以解释为一个最佳局部线性逼近。
(式7.2)
引入Riesz表示定理:
表示H空间上两 个函数的内积
式(7.7)重写为:
1>除了零点以外的点都等于0 2>在整个定义域上的积分等于1
正则化逼近函数:
线性加权和
训练样本长度
输入数据点数m=N,且输入向量xi与Green函数G(x,xi)(i=1,2,…,N)之间 是一一对应关系。
【4
广义径向基函数网络】
降低复杂度后在一个较低维的空间中得到一 个次优解,来逼近式(7.36)的正则化解。
这里可以通过利用称为Galerkin方法的标准 技术实现,得到一个近似解: ≈
对于不同的k,akk(λ )的值是不同的,说明 (7.98) 不同的数据点在V0(λ )中具有不同的作用。
通过坐标旋转 引入广义交叉 验证
对于一个很大的N,使V(λ )最小的λ ,同时 也使R(λ )接近最小的可能值。 (7.102)
【7 半监督学习】
监督学习: 根据给定的训练样本学习一个输入输出映射关系,这样的数据集 为带标记的。
【9 光谱图理论】
——用一个图来对输入空间的内在几何结构建模的办法
因此,N×N的权值矩阵:W={wij} 是个对称非负定矩阵,其所有的元素都非负。我们指由权值 矩阵W表示的无向图为G。
图拉普拉斯是构造一个合适的光滑函 数而处理内罚项的关键所在。
用f表示一个人造的关于输入向量x的向量值函数。其中x是关于图G中的每一个结点 赋一个实数值。用如下的比值来定义拉普拉斯算子L的Rayleigh商:
要利用未标记样本,必然要 做一些将未标记样本所揭示的数 据分布信息与类别标记相联系的 假设,最常见的是“聚类假设”, 即假设数据存在簇结构,同一个 簇的样本属于同一个类别,图 13.1就是基于聚类假设来利用未 标记样本。
半监督学习中一种常见的假设是“流 行假设”,即假设数据分布在一个流行结 构上,邻近的样本拥有相似的输出值。 “邻近”的程度常用“相似”程度来刻画, 因此,流形假设可看作聚类假设的推广。
流形正则化项
广义正则化理论潜在的前提是: 如果两个数据点xi和xj在输入空间中很接近,半监督函数学习的目标是找到一 个记为F(x)的映射,使得能把相应的输出F(xi),F(xj)映射到位于同一条实线上且距离 很近的可能性较大。
为了达到这个目标,就需要在经典正则化理论中所考虑的罚项外,引入一个新的罚 项。 (7.107)
如何选择好的正则化参数?
1.给出一个在整个给定集合上的均方误差R(λ ),要想得到最佳λ ,就是使R(λ )取最小时的值 2.求R(λ )的期望值
均方误差: (7.80)
其中,f(x)为模型回归函数,Fλ(xi)为在正则化参数λ 某一值下的解的逼近函数。
将Fλ(xi)表示为给定的一组可观察值的线性组合: 等价矩阵形式: (7.80) (7.81)
引入矩阵符号
(7.124)
求解最小点值a*,得到:
(7.125)
• 与普通正则化最小二乘算法相比: 即为将内在正则化参数λ I设定为0,少了反映无类标样本所在输入空间的内在几何 结构。 • 与最小二乘算法相比,该算法不需要计算权值向量。 利用得到的a*,可以计算优化逼近函数Fλ*(x)
谢 谢
戴非凡 2018.1.4