基于深度置信网的络的快速学习方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

A Fast Learning Algorithm for Deep Belief Nets

基于深度置信网的快速学习算法

杰弗里·e·辛顿

hinton@

西蒙Osindero

osindero@

计算机科学、多伦多大学、加拿大多伦多m5 3 g4

Yee-WhyeTeh

tehyw@.sg

新加坡国立大学计算机科学系,

新加坡117543

我们介绍了如何使用“complementary priors”去减少解释在含有许多隐藏的层的紧密连接置信网方面推理比较困难的影响。利用先验互补,倘若最高的两侧形成一个无向联想记忆,我们同时可以得到这样一个含有一个层次的快速贪心算法。快速贪心算法被用来初始化一个慢学习的过程,它通过使用唤醒睡眠算法的对比版本微调权重。微调后,含有三个隐藏层的网络形成一个很好的关于手写数字图像和标签的联合分布的生成模型。相对于最好的判别式算法而言,生成模型给出了更好的数字分类。使用顶层联想记忆的在自由能量景观的长峡谷来对数字谎言的低维流形进行建模,便于我们探讨这些峡谷,通过使用直接连接的方式展示已经形成的联想记忆。

1引言

学习紧密连接且含有多个隐藏层定向的信念网的过程是不易的,因为当给定一个数据向量时,它是很难推断隐藏活动的条件分布。对于真实的条件分布,变分方法使用简单的近似值,但近似值可能会很差,特别是在先验假设独立的最深的隐藏层。同时,变量的学习还要求所有的参数在一起学习,这使得学习时间尺度随着参数的数量增加而变得越差。

我们描述了一个模型,其中顶部的两个隐含层形成一个无向联想记忆(见图1),其余的隐藏层形成一个有向无环图,将联想记忆的表示转化为可观测变量,比如一个图像的像素。这种混合模型具有一些比较吸引人的特征:

图1:这种网络用于数字图像和数字标签的联合分布的建模。在这篇文章中,每个训练实例包含一个图像和一个明确的类标签,然而进展中的工作表明,相同的学习算法可以被使用,如果“标签”是由多层通路的输入的光谱图从多个不同的发言者分离数字所替换。则这种网络学习产生包括图像和相同数字类的光谱图对。

① 快速贪心学习算法,可以快速地找到一组比较好的参数,即使对于含有无数的参数

和许多隐藏的层的深度网络。

② 学习算法是无监督的,但是可以通过学习一个模型被应用于标记数据,产生标签和

数据模型。

③ 微调算法是一个很好地生成模型,在对MNIST 手写数字数据集处理方面优于判别方

法。

④ 生成模型在深度隐藏层方面更容易去解释分布式表征方法。

⑤ 推理过程要求形成一个快速而且准确的感知器。

⑥ 学习算法是局部的。突触强度的调整仅取决于突触前和突触后神经元的状态。 ⑦ 沟通是简单的。神经元只需要与它们的随机的二进制状态进行沟通。

第2节介绍了先验的“互补”的思想,取消“解释”的现象,使得在定向模型中推理变得比较困难。我们给出了一个关于带有先验互补的定向置信网的例子。

第3节介绍了受限玻尔兹曼机与带有权重的无限定向网络之间的等价性

第4节介绍了一种用于每次在单层构造多层定向网络的快速贪心学习算法。利用变分约束,它显示了当每增加一个新的层时,整体生成模型提高了。在推进重复使用相同的“弱”的学习者方面,贪心算法有些相似之处。但是不是重置每个数据向量去确保下一步学习到新的一些东西。它只是表示它。

“弱”的学习者是用来构造深度定向网,它本身是一个无向图这可能是另一种感知器的最高级

模型。

第5部分介绍了如何使用自上而下的算法微调快速贪心算法的方式产生权重。与唤醒睡眠算法进行对比,它不会引起导致唤醒睡眠算法去学习差的识别权重这样的“平均模式”问题。

第6节介绍了手写体数字在MNIST数据集中,含有三个隐含层和大约1700000个权重的网络的模式识别的性能。如果没有利用几何的相关知识和特殊的数据预处理,在10000个数字的官方测试集中,该网络的泛化性能有1.25%的错误率。当对于这项特殊的应用没有人为的改造时,它比可以错误率达到1.5%的BP网络要好得多。对于同一个任务而言,它也比Decoste和Schoelkopf(2002)提出的支持向量机的错误率达到1.4%要稍微好点。

最后,第7节当没有运行被约束的可视化输入时,该网络将会发生怎么的变化。该网络是一个完整的生成模型,所以便于我们可以从高层表示中简单地生成一个图像,而容易地理解它的思想,

本文,我们考虑了由随机二进制变量组成的网络,但是这种思想可以被推广应用到其他的模型中,该模型中变量的变量的对数概率的是一个关于它直接连接的邻居状态的加性函数。

图2:一个简单的逻辑信念网包含两个独立的,仅有的因素。我们观察房子震动的时这两个因素是高度不相关的。地震节点偏置-10意味着在没有任何观察的情况下,这个节点较比往常有E10倍可能发生地震。如果地震节点变动而卡车节点不变动,则下了一跳节点总投入为0,这意味着有一个机会存在。这是对于我们观察房子震动的可能性为e-20的一个更好的解释。它适用隐藏因素都不活跃得情况。但是用两个隐藏因素与解释我们观察的结果是没有意义的,因为他们两个加在一起发生的可能性大小为E10*E10=e-20。当地震节点变化时,它“解释了”对于汽车节点变化的证据。

2先验互补

解释这一现象在(如图2所示)进行推理定向信念网时比较难。在紧密连通网络中,隐藏变量的后验分布比较难理解,除了少数特殊情况下,如混合模型或带有高斯噪声的线性模型。使用马尔可夫链蒙特卡罗方法(尼尔,1992)可以从后验样本中取样,但这样比较浪费时间。变分方法(尼尔和Hinton,1998)可以粗略的估计更容易处理的后验分布,也可以用来改善对训练数据的对数概率约束。值得欣慰的是,学习是保证提高变分约束,甚至隐藏状态的推理是错误的,但它会找到一种更好的方式去完全消除解释,即使在隐藏变量与可见变量密切相关的模型中。它是普遍认为是不可能的。

相关文档
最新文档