深度学习笔记 - RBM

合集下载

Deep Learning论文笔记之(七)深度网络高层特征可视化

Deep Learning论文笔记之（七）深度网络高层特征可视化Deep Learning论文笔记之（七）深度网络高层特征可视化zouxy09@/zouxy09自己平时看了一些论文，但老感觉看完过后就会慢慢的淡忘，某一天重新拾起来的时候又好像没有看过一样。

所以想习惯地把一些感觉有用的论文中的知识点总结整理一下，一方面在整理过程中，自己的理解也会更深，另一方面也方便未来自己的勘察。

更好的还可以放到博客上面与大家交流。

因为基础有限，所以对论文的一些理解可能不太正确，还望大家不吝指正交流，谢谢。

本文的论文来自：Dumitru Erhan, Aaron Courville, Yoshua Bengio, and Pascal Vincent. Visualizing Higher Layer Features of a Deep Network. Spotlight presentation and poster at the ICML 2009 Workshop on Learning Feature Hierarchies, Montréal, Canada 下面是自己对其中的一些知识点的理解：《Visualizing Higher-Layer Features of a Deep Network》Deep Learning很吸引人，也很玄乎的一个点就是大家都说它可以提取到分级的逐层抽象的特征。

但对我们来说，总是耳听为虚，眼见为实。

所以，每当我们训练完一个深度模型后，我们还特别想把这个深度模型学到的东西给可视化出来，好弄明白它到底学到了什么东西，是不是有意义的，是不是像传说中的那样神奇。

那怎样有意义的可视化呢？对了，我们用deep net来做什么的了？来提取特征的。

那它提取什么特征呢？如果它像我们所说的提取的是底层到高层的特征，例如边缘，到形状，到目标等等，那就证明我们的目的是达到的。

另外，在对深度模型定量的分析上，我们还需要一个定性的分析方法去比较不同的深度架构学习到的特征。

一种基于深度学习的异构多模态目标识别方法

一种基于深度学习的异构多模态目标识别方法孟飞;胡超;刘伟荣【摘要】The heterogeneous multimodal object recognition method was proposed based on deep learning. Firstly, based on the video and audioco-existing feature of media data, a heterogeneous multimodal structure was constructed to incorporate the convolutional neural network(CNN)and the restricted boltzmann machine(RBM). The audio and video information were processed respectively, generating the share characteristic representation by using the canonical correlationanalysis(CCA). Then the temporal coherence of video frame was utilized to improve the recognizing accuracy further. The experiments were implemented based on the standard audio & face library and the actual movie video fragments. The results show thatforboth the two kinds ofvideo sources, the proposed method improves the accuracy of target recognition significantly.%提出一种基于深度学习的异构多模态目标识别方法。

深度学习--深度信念网络(Deep-Belief-Network)

深度学习--深度信念网络（Deep Belief Network）概述深度信念网络(Deep Belief Network, DBN) 由Geoffrey Hinton 在2006 年提出。

它是一种生成模型，通过训练其神经元间的权重，我们可以让整个神经网络按照最大概率来生成训练数据。

我们不仅可以使用DBN 识别特征、分类数据，还可以用它来生成数据。

下面的图片展示的是用DBN 识别手写数字：图 1 用深度信念网络识别手写数字。

图中右下角是待识别数字的黑白位图，它的上方有三层隐性神经元。

每一个黑色矩形代表一层神经元，白点代表处于开启状态的神经元，黑色代表处于关闭状态的神经元。

注意顶层神经元的左下方即使别结果，与画面左上角的对应表比对，得知这个DBN 正确地识别了该数字。

下面是展示了一个学习了大量英文维基百科文章的DBN 所生成的自然语言段落：In 1974 Northern Denver had been overshadowed by CNL, and several Irish intelligence agencies in the Mediterranean region. However, on the Victoria, Kings Hebrew stated that Charles decided to escape during analliance. The mansion house was completed in 1882, the second in its bridge are omitted, while closing is the proton reticulum composed below it aims, such that it is the blurring of appearing on any well-paid type of box printer.DBN 由多层神经元构成，这些神经元又分为显性神经元和隐性神经元（以下简称显元和隐元）。

RBM理解

• 在统计热力学上，当系统和它周围的环境处于热平衡时，一个基本的结果是状态i发生的概率如下面的公式
(i ) 1 EkT p (i ) e Z
• 根据能量模型，借鉴统计热力学能量与概率的关系，就可以定义RBM的v 和h的联合概率
e E ( v ,h ) p(v, h) e E ( v ,h )
• Batchsize
• 对于权值矩阵等参数的更新，可以基于一个训练样本进行在线学习，但计算量很大 • 将数据事先分批，可以使计算更加高效
• 迭代遍数
• 主要看算法的收敛情况
RBM的变种
• 高斯RBM • CRBM • Conditional RBM • 三元因子RBM
RBM的变种
• 高斯RBM
3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
• 将求得的结果带入之前计算偏导数的公式得到
3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
• 2.如何对两种分布进行距离估计? • 3.如何使分布的距离最小？
2.如何对两种分布进行距离估计?
RBM目标
3.如何使分布的距离最小？
3.如何使分布的距离最小？3.如何使分布的距离最小？
3.如何使分布的距离最小？
3.如何使分布的距离最小？
• 3.2 如何保证第二项最大化？
• 3.2.1如何求导？ • 先针对单个样本来求上述公式对应的导数 • 为不引起混淆，使用v表示单个样本，使用v表示任意样本
i, j, 有vi , hj {0,1}

受限玻尔兹曼机训练算法

受限玻尔兹曼机训练算法受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)是一种常用的深度学习模型，它属于生成模型，不同于其他深度学习模型如卷积神经网络和循环神经网络，RBM不是监督学习模型，而是一种无监督学习模型。

RBM的训练算法主要包括对数似然梯度下降和对比散度。

对数似然梯度下降是一种基于最大似然估计的训练算法，用于最大化模型生成样本的概率，即最大化训练样本的对数似然概率。

具体来说，对于一个给定的训练样本，RBM首先使用当前的模型参数来计算出生成样本的概率，然后根据计算得到的概率误差来更新模型参数，以使生成样本的概率最大化。

通过迭代更新参数，可以逐步提高RBM生成样本的能力。

对比散度(contrastive divergence)是RBM训练中的另一种常用算法。

它是一种近似训练方法，利用Gibbs采样来近似计算模型的梯度。

对比散度算法的基本思想是从训练样本中抽样一个可见层的样本，然后通过RBM模型来生成一个隐层的样本，再通过RBM模型来重新生成一个可见层的样本。

通过比较生成的样本和原始的样本，可以得到一个度量生成样本概率的梯度，然后使用该梯度来更新模型参数。

对比散度算法通过简化计算，使得RBM的训练更加高效。

RBM的训练一般包括以下几个步骤：1.初始化模型参数：包括可见层和隐层的偏置和权重。

2.正向传播：根据当前模型参数，从可见层到隐层进行采样，然后从隐层到可见层进行采样，得到生成的样本。

3.反向传播：根据生成样本和原始样本的差异，计算模型参数的梯度。

4.更新模型参数：利用梯度信息，根据梯度下降算法更新模型参数。

5.重复上述步骤：重复进行正向传播、反向传播和更新模型参数的步骤，直到满足停止条件。

实际中，RBM的训练算法可能会涉及到一些改进和优化的技巧，如批处理、动量方法、学习率调整等。

这些技巧可以提高RBM的训练效果和收敛速度。

总结起来，RBM的训练算法主要是基于对数似然梯度下降和对比散度的方法，通过最大化模型生成样本的概率来提高模型的生成能力。

RBM DBN RNN资料综合

RBM DBN RNN资料综合9.3、Restricted Boltzmann Machine (RBM)限制波尔兹曼机假设有一个二部图，每一层的节点之间没有链接，一层是可视层，即输入数据层（v)，一层是隐藏层(h)，如果假设所有的节点都是随机二值变量节点（只能取0或者1值），同时假设全概率分布p(v,h)满足Boltzmann 分布，我们称这个模型是RestrictedBoltzmannMachine (RBM)。

下面我们来看看为什么它是Deep Learning方法。

首先，这个模型因为是二部图，所以在已知v的情况下，所有的隐藏节点之间是条件独立的（因为节点之间不存在连接），即p(h|v)=p(h1|v)…p(h n|v)。

同理，在已知隐藏层h的情况下，所有的可视节点都是条件独立的。

同时又由于所有的v和h满足Boltzmann 分布，因此，当输入v的时候，通过p(h|v) 可以得到隐藏层h，而得到隐藏层h之后，通过p(v|h)又能得到可视层，通过调整参数，我们就是要使得从隐藏层得到的可视层v1与原来的可视层v如果一样，那么得到的隐藏层就是可视层另外一种表达，因此隐藏层可以作为可视层输入数据的特征，所以它就是一种Deep Learning方法。

如何训练呢？也就是可视层节点和隐节点间的权值怎么确定呢？我们需要做一些数学分析。

也就是模型了。

联合组态（jointconfiguration）的能量可以表示为：而某个组态的联合概率分布可以通过Boltzmann 分布（和这个组态的能量）来确定：因为隐藏节点之间是条件独立的（因为节点之间不存在连接），即：然后我们可以比较容易（对上式进行因子分解Factorizes）得到在给定可视层v的基础上，隐层第j个节点为1或者为0的概率：同理，在给定隐层h的基础上，可视层第i个节点为1或者为0的概率也可以容易得到：给定一个满足独立同分布的样本集：D={v(1), v(2),…, v(N)}，我们需要学习参数θ={W,a,b}。

Deeplearning：十九（RBM简单理解）

Deeplearning：⼗九（RBM简单理解）这篇博客主要⽤来简单介绍下RBM⽹络，因为deep learning中的⼀个重要⽹络结构DBN就可以由RBM⽹络叠加⽽成，所以对RBM的理解有利于我们对DBN算法以及deep learning算法的进⼀步理解。

Deep learning是从06年开始⽕得，得益于⼤⽜Hinton的⽂章，不过这位⼤⽜的⽂章⽐较晦涩难懂，公式太多，对于我这种菜鸟级别来说读懂它的paper压⼒太⼤。

纵观⼤部分介绍RBM的paper，都会提到能量函数。

因此有必要先了解下能量函数的概念。

参考⽹页关于能量函数的介绍：⼀个事物有相应的稳态，如在⼀个碗内的⼩球会停留在碗底，即使受到扰动偏离了碗底，在扰动消失后，它会回到碗底。

学过物理的⼈都知道，稳态是它势能最低的状态。

因此稳态对应与某⼀种能量的最低状态。

将这种概念引⽤到Hopfield⽹络中去，Hopfield构造了⼀种能量函数的定义。

这是他所作的⼀⼤贡献。

引进能量函数概念可以进⼀步加深对这⼀类动⼒系统性质的认识，可以把求稳态变成⼀个求极值与优化的问题，从⽽为Hopfield⽹络找到⼀个解优化问题的应⽤。

下⾯来看看RBM⽹络，其结构图如下所⽰：可以看到RBM⽹络共有2层，其中第⼀层称为可视层，⼀般来说是输⼊层，另⼀层是隐含层，也就是我们⼀般指的特征提取层。

在⼀般的⽂章中，都把这2层的节点看做是⼆值的，也就是只能取0或1，当然了，RBM中节点是可以取实数值的，这⾥取⼆值只是为了更好的解释各种公式⽽已。

在前⾯⼀系列的博⽂中可以知道，我们设计⼀个⽹络结构后，接下来就应该想⽅设法来求解⽹络中的参数值。

⽽这⼜⼀般是通过最⼩化损失函数值来解得的，⽐如在autoencoder中是通过重构值和输⼊值之间的误差作为损失函数（当然了，⼀般都会对参数进⾏规制化的）；在logistic回归中损失函数是与输出值和样本标注值的差有关。

那么在RBM⽹络中，我们的损失函数的表达式是什么呢，损失函数的偏导函数⼜该怎么求呢？在了解这个问题之前，我们还是先从能量函数出发。

rbm

∑ ∞ π=1
i=0
7
π 即可被称为是马氏链的平稳分布。这个重要的定理告诉我们，马氏链随时间运行过程中所到达的每一个状态 πi(x) 虽然不独立，但都是同分布的。如果我们从一个具体的初始状态x0开始，沿着马氏链做跳转，那么我们就可以得到一个转移序列x0, x1, ..., xn，由于马氏链的收敛行为，xn, xn+1, ...及其之后的所有分布都将是稳态分布π(x)的样本。
迭代训练Boltzmann Machine的目的是使网络达到热平衡.一般地，可以对神经元使用Gibbs采样进行更新。即，开始时给网络赋予任意状态，神经元以它们的自然顺序依次重复访问，每次访问选择一个神经元，根据其它神经元的值来确定该
2
Figure 1: General Boltzmann Machine Structure
(d) 否则不接受转移，即 Xt+1 = xt
4.2 吉布思采样法(Gibbs Sample)
对于高维情况，由于接收率的存在，会导致MCMC算法的效率不够高，如果能够找
到Q使接收率为1，那么就可以避免因为频繁的拒绝转移而带来的收敛慢问题。假设
原始数据的概率分布为 p(x, y)，考察x轴坐标相同的两个点 A(x1, y1), B(x1, y2)，发现
p(i)q(i, j)α(i, j) = p(j)q(j, i)α(j, i)
(4.2)
MCMC算法描述： 1. 初始化马氏链的状态 X0 = x0 2. 对 t = 0, 1, 2, 3, ...循环以下过程进行采样： (a) 第t个时刻马氏链状态为 Xt = xt，采样 y q(x|xt) (b) 从均匀分布采样u U nif orm[0, 1] (c) 如果u < α(xt, y) = p(y)q(xt|y)则接受转移xt → y, 即Xt+1 = y 8

Deep-Learning(深度学习)学习笔记整理系列

Deep Learning（深度学习）学习笔记整理系列声明：1）该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。

具体引用的资料请看参考文献。

具体的版本声明也参考原文献。

2）本文仅供学术交流，非商用。

所以每一部分具体的参考资料并没有详细对应。

如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。

3）本人才疏学浅，整理总结的时候难免出错，还望各位前辈不吝指正，谢谢。

4）阅读本文需要机器学习、计算机视觉、神经网络等等基础（如果没有也没关系了，没有就看看，能不能看懂，呵呵）。

5）此属于第一版本，若有错误，还供学术交流，非商用。

所以每一部分具体的参考资料并没有详细对应。

如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。

需继续修正与增删。

还望大家多多指点。

大家都共享一点点，一起为祖国科研的推进添砖加瓦（呵呵，好高尚的目标啊）。

请联系：zouxy09@一、概述Artificial Intelligence，也就是人工智能，就像长生不老和星际漫游一样，是人类最美好的梦想之一。

虽然计算机技术已经取得了长足的进步，但是到目前为止，还没有一台电脑能产生―自我‖的意识。

是的，在人类和大量现成数据的帮助下，电脑可以表现的十分强大，但是离开了这两者，它甚至都不能分辨一个喵星人和一个汪星人。

图灵（计算机和人工智能的鼻祖，分别对应于其著名的―图灵机‖和―图灵测试‖）在1950年的论文里，提出图灵试验的设想，即，隔墙对话，你将不知道与你谈话的，是人还是电脑。

这无疑给计算机，尤其是人工智能，预设了一个很高的期望值。

但是半个世纪过去了，人工智能的进展，远远没有达到图灵试验的标准。

这不仅让多年翘首以待的人们，心灰意冷，认为人工智能是忽悠，相关领域是―伪科学‖。

但是自2006年以来，机器学习领域，取得了突破性的进展。

图灵试验，至少不是那么可望而不可及了。

至于技术手段，不仅仅依赖于云计算对大数据的并行处理能力，而且依赖于算法。

RBM算法

能量模型的概率形式
RBM的能量函数的定义如下：可视节点和隐藏节点的联合概率：
专家乘积项 POE
每个可视节点和隐藏节点之间的连接结构都有一个能量，通俗来说就是可视节点的每一组取值和隐藏节点的每一组取值都有一个能量，如果可视节点的一组取值（也就是一个训练样本的值）为 (1,0,1,0,1,0)，隐藏节点的一组取值（也就是这个训练样本编码后的值）为(1,0,1)，然后分别代入上面的公式，就能得到这个连接结构之间的能量。
用蒙特卡罗抽样来估算
输入样本的熵
第二项可以用来估计，其中的 l 表示训练样本个数。由于 KL的值肯定是不小于0，所以第一项肯定不小于第二项，让第二项取得最大值，就能让KL距离最小；最后，要使得最大化，相当于最大化，而这就是极大似然估计。
求解要注意的几个问题
求解极大似然
1. 明确求解目标：求解输入样本的极大似然，就能让RBM网络表示的 Gibbs分布和样本本身表示的分布最接近。RBM网络里面的几个参数w ，b，c的值，这个就是解，而似然函数（对数似然函数）是目标函数。 2. 求解的过程就是对参数就导，然后用梯度上升法不断地把目标函数提升，最终到达停止条件。 3. 对求解的理解：对每一个样本，第二个等号后面的两项其实都像是在求一个期望。
对于训练样本特征比较多时，需要大量时间
在抽样步数n足够大的情况下，就可以得到RBM所定义的分布的样本（即符合参数确定的Gibbs分布的样本）了，得到这些样本我们就可以拿去计算梯度的第二项了。
采样方法
CD-K采样与Gibbs抽样不同，Hinton教授指出当使用训练样本初始化 V0 的时候，仅需要较少的抽样步数（一般就一步）就可以得到足够好的近似了。在CD算法一开始，可见单元的状态就被设置为一个训练样本，并用上面的几个条件概率 p(hi 1| v) 来对隐藏节点的每个单元都从{0,1}中抽取到相应的值，然后再利用 p(v j 1| h) 来对可视节点的每个单元都从{0,1}中抽取相应的值，这样就得到了 v1 ，一般v1就够了，就可以拿来估算梯度了。

受限玻尔兹曼机变分法

受限玻尔兹曼机变分法
受限玻尔兹曼机（RBM）是一种常用的深度学习模型，它可以用于无监督学习和生成模型。

变分法是一种常用的求解优化问题的方法，可以用于求解RBM的训练参数。

在RBM中，每个神经元都有两个状态，通常用0和1表示。

RBM的输入和输出可以表示为两个向量，其中输入向量表示输入数据的特征，输出向量表示RBM生成的数据的特征。

RBM的状态转移概率可以用以下公式表示：P(i, j) = σ(Wi * xi + Wj * xj + b)
其中，i和j表示神经元的状态，xi和xj表示输入和输出向量中对应的特征，W和b表示RBM的参数，σ表示sigmoid函数。

RBM的能量函数可以用以下公式表示：E(i, j) = -0.5 * (W * xi + b)^T * (W * xi + b) - 0.5 * (W * xj + b)^T * (W * xj + b) + i * j
其中，i和j表示神经元的状态，xi和xj表示输入和输出向量中对应的特征。

RBM的训练通常使用变分法，可以通过最小化以下损失函数来训练RBM的参数：
L(W, b) = -log(P(i, j)) * E(i, j)
其中，i和j表示输入和输出向量中对应的特征，W和b 表示RBM的参数。

通过最小化损失函数，可以得到RBM的参数，从而实现对数据的生成和分类。

受限玻尔兹曼机和多层感知机-概述说明以及解释

受限玻尔兹曼机和多层感知机-概述说明以及解释1.引言1.1 概述受限玻尔兹曼机（Restricted Boltzmann Machine, RBM）和多层感知机（Multilayer Perceptron, MLP）是深度学习领域中两种常见的神经网络模型。

它们具有不同的结构和特点，但在某些方面又存在相似之处。

本文将深入探讨这两种模型的基本原理、模型结构、应用领域以及它们之间的差异与联系。

首先，受限玻尔兹曼机是一种基于能量模型的无监督学习算法。

它由一层可见层和一层隐藏层组成，可用于对数据进行特征提取和降维。

RBM 的训练过程利用了马尔可夫链的性质，通过最大化训练样本的似然函数来调整模型的参数。

RBM在协同过滤、特征学习和生成模型等领域有着广泛的应用。

而多层感知机是一种前向反馈神经网络，由多个隐藏层和一个输出层组成。

每个隐藏层都包含多个神经元，通过激活函数和权重连接实现特征的非线性转换和组合。

MLP通过反向传播算法进行训练，通过最小化损失函数来优化模型的权重和偏置。

多层感知机在图像识别、自然语言处理和语音识别等领域中取得了突出的表现。

本文将比较受限玻尔兹曼机和多层感知机的相同点和不同点，并探讨它们在深度学习中的综合应用。

最后，我们将总结受限玻尔兹曼机和多层感知机的特点和优势，并对它们的未来发展方向进行展望。

通过深入研究这两种模型，可帮助我们更好地理解深度学习的基本原理和应用技术。

1.2文章结构1.2 文章结构本文将首先介绍受限玻尔兹曼机（Restricted Boltzmann Machine，简称RBM）和多层感知机（Multi-Layer Perceptron，简称MLP）的基本原理和模型结构。

随后，将探讨它们在各自的应用领域中的应用情况，并对它们的相同点和不同点进行比较分析。

最后，将给出对受限玻尔兹曼机和多层感知机的综合应用的展望，并总结它们的优势和不足之处。

通过本文的研究，读者将能够深入了解受限玻尔兹曼机和多层感知机在机器学习领域的重要性和应用前景，同时也能够对它们的未来发展方向有一定的了解。

DeepLearning深度学习学习笔记整理系列

Deep Learning (深度学习)学习笔记整理系列目录：一、概述二、背景三、人脑视觉机理四、关于特征4.1、特征表示的粒度4.2、初级(浅层)特征表示4.3、结构性特征表示4.4、需要有多少个特征？五、Deep Learning的基本思想六、浅层学习(Shallow Learning)和深度学习(Deep Learning)七、Deep learning 与Neural Network八、Deep learning训练过程8.1、传统神经网络的训练方法8.2、d eep learning 训练过程九、Deep Learning的常用模型或者方法9.1、A utoEncoder自动编码器9.2、S parse Coding 稀疏编码9.3、R estricted Boltzmann Machine(RBM)限制波尔兹曼机9.4、D eep BeliefNetworks 深信度网络9.5、C onvolutional Neural Networks 卷积神经网络十、总结与展望十^一、参考文献和Deep Learning学习资源接上注：下面的两个Deep Learning方法说明需要完善，但为了保证文章的连续性和完整性，先贴一些上来，后面再修改好了。

9.3、R estricted Boltzmann Machine (RBM)限制波尔兹曼机假设有一个二部图，每一层的节点之间没有链接，一层是可视层，即输入数据层(v), 一层是隐藏层(h),如果假设所有的节点都是随机二值变量节点(只能取0或者1值)，同时假设全概率分布p(v,h)满足Boltzmann 分布，我们称这个模型是Restricted BoltzmannMachine (RBM)ohidden variables下面我们来看看为什么它是Deep Learning方法。

首先，这个模型因为是二部图，所以在已知v的情况下，所有的隐藏节点之间是条件独立的(因为节点之间不存在连接)，即p(h|v)=p(h1|v)…p/v)。

RBM简介

5. 如果训练集中的数据有标签，那么在顶层的 RBM 训练时，这个 RBM 的显层中除了显性神经元，还需要有代表分类标签的神经元，一起进行训练： a) 假设顶层 RBM 的显层有 500 个显性神经元，训练数据的分类一共分成了 10 类； b) 那么顶层 RBM 的显层有 510 个显性神经元，对每一训练训练数据，相应的标签神经元被打开设为 1，而其他的则被关闭设为 0。 6. DBN 被训练好后如下图
2.2 基于对比散度的快速学习算法
与吉布斯采样不同，Hinton指出当使用训练数据初始化v0时，我们仅需要使用k(通常k =1)步吉布斯采样便可以得到足够好的近似。 CD算法一开始，可见单元的状态被设置成一个训练样本，并利用
计算所有隐层单元的二值状态。
在所有隐层单元的状态确定之后，根据式
进行如下比较
然后开启或关闭相应的隐元。给定隐层，计算显层的方法是一样的。
训练 RBM
RBM 的训练过程，实际上是求出一个最能产生训练样本的概率分布。也就是说，要求一个分布，在这个分布里，训练样本的概率最大。由于这个分布的决定性因素在于权值W ，所以我们训练 RBM 的目标就是寻找最佳的权值。
来确定第i个可见单元vi取值为1的概率，进而产生可见层的一个重构。各参数的更新准则为
在RBM中，可见单元数一般等于训练数据的特征维数，而隐单元数需要事先给定。假设可见单元数和隐单元数分别为n和m。令W表示可见层与隐层间的连接权重矩阵(m*n阶)，a(n维列向量)和b(m维列向量)分别表示可见层与隐层的偏置向量。
那么我们可以从X的一个任意状态开始，利用上述条件分布，迭代地对其分量依次采样，随着采样次数的增加，随机变量的概率分布将以n的几何级数的速度收敛于X的联合概率分布P(X)。换句话说,我们可以在未知联合概率分布P(X)的条件下对其进行采样。

反向传播算法中的深度置信网络网络设计(四)

反向传播算法中的深度置信网络网络设计深度置信网络（Deep Belief Networks，DBN）是一种用于学习概率分布的无向图模型，它由多个受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）组成。

在深度学习领域，深度置信网络是一种非常重要的模型，它在图像识别、语音识别、自然语言处理等领域取得了很大的成功。

在本文中，我们将讨论反向传播算法中的深度置信网络网络设计。

1. RBM的基本结构和原理受限玻尔兹曼机是一种由可见层和隐藏层组成的双层网络模型。

可见层和隐藏层之间的连接权重是对称的，并且可见层和隐藏层的神经元之间没有连接。

RBM 的学习过程使用了对比散度（Contrastive Divergence）算法，通过最大化训练样本的对数似然来学习模型参数。

2. 深度置信网络的结构深度置信网络由多个受限玻尔兹曼机层组成，每一层都是一个受限玻尔兹曼机。

其中，第一层的可见层接收输入数据，而最后一层的隐藏层给出网络的输出。

在深度置信网络中，每一层的输出都作为下一层的输入，这样一层层地进行特征提取和抽象表示。

3. 反向传播算法在深度置信网络中的应用在深度置信网络中，反向传播算法被用来对整个网络进行端到端的训练。

在训练过程中，首先使用无监督学习算法对每一层的受限玻尔兹曼机进行预训练，然后使用监督学习算法对整个网络进行微调。

这样的训练方法既可以有效地解决梯度消失和梯度爆炸的问题，又可以提高网络的训练速度和准确性。

4. 深度置信网络的网络设计在设计深度置信网络时，需要考虑网络的层数、每一层的神经元数量、学习率等因素。

一般来说，深度置信网络的层数越多，网络的表示能力越强，但训练难度也越大。

因此，在实际应用中，需要根据具体的问题和数据集来确定网络的结构。

此外，深度置信网络的一些技巧和方法也非常重要，比如Dropout、Batch Normalization等。

这些方法可以有效地提高网络的泛化能力和训练速度，同时也可以减轻过拟合问题。

learn_struct_dbn_reveal -回复

learn_struct_dbn_reveal -回复「深度信念网络（DBN）的学习与推断」深度信念网络（Deep Belief Networks，DBN）是一种由多个限制玻尔兹曼机（RBM）组成的深度学习模型。

它是一种具有多个隐含层的神经网络结构，具有很强的表达能力和学习能力。

本文将介绍DBN的学习与推断过程，逐步解析这一强大的深度学习模型。

第一步：理解限制玻尔兹曼机（RBM）在学习DBN之前，首先需要理解限制玻尔兹曼机（RBM）。

RBM是一种基于随机取样的生成概率模型，包含可见层和隐含层。

可见层和隐含层的单元之间通过权重连接。

RBM通过可见层和隐含层之间的连接，学习到数据中的特征，并且可以用于生成新的数据样本。

第二步：学习单个RBM在DBN中，首先需要独立地训练每个RBM。

训练一个RBM的过程可以简单描述为以下几个步骤：1. 初始化RBM的可见层和隐含层的权重和偏置。

2. 使用训练数据样本，通过对比散度（Contrastive Divergence, CD）算法进行参数更新。

CD算法是一种近似的梯度下降算法，用于最大化样本的似然函数。

3. 重复步骤2，直到达到收敛条件。

通过这个过程，我们可以得到训练好的单个RBM模型。

第三步：堆叠RBM构建DBN在独立地训练完每个RBM之后，我们可以将它们堆叠起来构建DBN。

具体地，我们将前一个RBM的隐含层作为后一个RBM的可见层，将后一个RBM的隐含层作为前一个RBM的可见层。

这样，我们可以建立多个RBM层的深度神经网络。

第四步：逐层贪婪训练堆叠完RBM后，我们需要进行逐层贪婪训练（Greedy Layer-Wise Training）。

具体地，我们将堆叠好的DBN视为一个深度前馈神经网络，使用反向传播算法进行训练。

在这个过程中，我们首先通过对训练集进行前向传播，得到每个RBM层的输出。

然后，我们使用反向传播算法进行误差的反向传递，并更新神经网络的权重和偏置。

RBM算法理解

阅读须知
这份笔记参考了很多网上的资源，也加入很多自己的理解和详细推导，非常适合初学者使用，这篇笔记属于复合型产物，感谢那些网上无私奉献自己心得的人们。欢迎大家进行批评指正-------------------------------by ZengRui
RBM 算法理解
RBM 的简单模型
这里先描述一下最简单的 RBM 模型，只有 2 层， v 和 h 分别代表的是可见层（visible）和隐层（hidden），数据的输入是从可见层进行输入的，然后通过计算可以得出隐层的值。

w
i 1
n
ij
hi b j ，式子中每个 hi 对应着 Y 中的 yi ，根

RBM 的用途
这个在 hinton 的论文中也有指出，神经网络也是要训练一个权重矩阵和 bias，这与 RBM 的结构很相似，如果神经网络的初始值选取的不好的话，往往会陷入局部最小值。根据实际的应用结果表明，直接把 RBM 训练得到的权重矩阵和 bias 作为 BP 神经网络的初始值，得到的结果会非常的好。其实 RBM 最主要的作用还是用来降维。
RBM 能量模型
这里说一下 RBM 的能量模型，这里关系到 RBM 的理解能量模型是个什么样的东西呢？直观上的理解就是，把一个表面粗糙又不太圆的小球，放到一个表面也比较粗糙的碗里，就随便往里面一扔，看看小球停在碗的哪个地方。一般来说停在碗底的可能性比较大，停在靠近碗底的其他地方也可能，甚至运气好还会停在碗口附近（这个碗是比较浅的一个碗）；能量模型把小球停在哪个地方定义为一种状态，每种状态都对应着一个能量 E ，这个能量由能量函数来定义，小球处在某种状态的概率（如停在碗底的概率跟停在碗口的概率当然不一样）可以通过这种状态下小球具有的能量来定义（换个说法，如小球停在了碗口附近，这是一种状态，这个状态对应着一个能量 E ，而发生“小球停

受限玻尔兹曼机代码

受限玻尔兹曼机代码
备注：这个python代码需要⽤到psyco包（安装困难），psyco包⽬前只有python2 32位版本。

在windows 64+python 3环境下，如果下载psyco的源代码安装，⽐较⿇烦。

深度学习之受限玻尔兹曼机RBM(七)
受限玻尔兹曼机的实现及其在推荐系统中的应⽤ python
怎么使⽤？？？
第⼗七节，受限玻尔兹曼机⽹络及代码实现
备注：输⼊MNIST图像⽂件的格式要求为：“”数据集数据按⾏分割，每⼀⾏表⽰⼀个样本，每个特征使⽤空格分割“”。

原始MNIST图像⽂件⽆法使⽤。

受限玻尔兹曼机(RBM)与其在Tensorflow的实现
备注：需要Tensorflow。

基础篇：⼆、受限玻尔兹曼机
Tensorflow implementation of Restricted Boltzmann Machine
备注：需要Tensorflow。

使⽤内置的优化器
RBM toolbox is a MATLAB toolbox for online training of RBM and stacked RBM's.
https:///skaae/rbm_toolbox。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

值就是 x，hj 的取值就是 yj，也就是说，编码后的样本 y 的第 j 个位置的取值为 1 的概率是 p(hj = 1|v)。所以，生成 yj 的过程就是：
i）先利用公式p(hj = 1|v) = σ(∑��=1 �� × vi + cj)，根据 x 的值计算概率p(hj = 1|v)，其中 vi 的取值就是 xi 的值。
3.3.2 从能量最小到极大似然
上面我们得到了一个样本和其对应编码的联合概率，也就是得到了一个 Gibbs 分布，我们引人概率的目的是为了方便求解的。但是我们实际求解的目标是能量最小。
下面来看看怎么从能量最小变成用概率表示。内容是来自《神经网络原理》那本书。在统计力学上的说法也是——能量低的状态比能量高的状态发生的概率高。定义一个叫做自由能量的东西，是从统计力学来的概念，
变量之间的相关程度决定了能量的高低。把变量的相关关系用图表示出来，并引入概率测度
方式就构成了概率图模型的能量模型，其实实际中也可以不用概率表示，比如立体匹配中直
接用两个像素点的像素差作为能量，所有像素对之间的能量和最小时的配置即为目标解。
RBM 作为一种概率图模型，引入概率就是为了方便采样，因为在 CD（contrastive divergence）算法中采样部分扮演着模拟求解梯度的角色。
RBM 网络有几个参数，一个是可视层与隐藏层之间的权重矩阵��×��，一个是可视节点的偏移量b = (b1, b2 ⋯ bn)，一个是隐藏节点的偏移量c = (c1, c2 ⋯ cm)，这几个参数决定了 RBM 网络将一个 n 维的样本编码成一个什么样的 m 维的样本。
其中E��表示系统在状态 i 时的能量，T 为开尔文绝对温度，��B为 Boltzmann 常数，Z 为与状态无关的常数。
我们这里的E��变成了 E(v,h)，因为(v,h)也是一个状态，其他的参数 T 和��B由于跟求解无关，就都设置为 1 了，Z 就是我们上面联合概率分布的分母，这个分母是为了让我们的概率
量。下面就开始想办法求解这个能量模型了。但是要解一个问题得有一个东西，就是是目标
函数（也就是全局解的度量），我们对目标函数求个偏导，就可以用梯度法迭代地去解这个问题了。
那么，我们可以把所有可视节点的取值和隐藏节点的取值的能量累加起来，累加的结果作为 RBM 的目标函数。
然后解起来就麻烦了，对每个样本，都要列举它能对应的所有编码后的样本（隐藏节点取值），这样才能计算能量，那指数级别的计算就难免了，这样，解这个问题恐怖就不实际了，因为用穷举法计算梯度什么的，实在太耗计算资源。当然这个说法可能是我一人的片面看法，大家有更好的解释麻烦提醒一下，我把它修改了。
ii）然后产生一个 0 到 1 之间的随机数，如果它小于p(vi = 1|h)，hi 的取值就是 1，否则就是 0。
3.1.2 RBM 的用途
RBM 的用途主要是两种，一是对数据进行编码，然后交给监督学习方法去进行分类或回归，二是得到了权重矩阵和偏移量，供 BP 神经网络初始化训练。
第一种可以说是把它当做一个降维的方法来使用。第二种就用途比较奇怪。其中的原因就是神经网络也是要训练一个权重矩阵和偏移量，但是如果直接用 BP 神经网络，初始值选得不好的话，往往会陷入局部极小值。根据实际应用结果表明，直接把 RBM 训练得到的权重矩阵和偏移量作为 BP 神经网络初始值，得到的结果会非常地好。这就类似爬山，如果一个风景点里面有很多个山峰，如果让你随便选个山就爬，希望你能爬上最高那个山的山顶，但是你的精力是有限的，只能爬一座山，而你也不知道哪座山最高，这样，你就很容易爬到一座不是最高的山上。但是，如果用直升机把你送到最高的那个山上的靠近山顶处，那你就能很容易地爬上最高的那座山。这个时候，RBM 就的角色就是那个直升机。其实还有两种用途的，下面说说。第三种，RBM 可以估计联合概率 p(v,h)，如果把 v 当做训练样本，h 当成类别标签（隐藏节点只有一个的情况，能得到一个隐藏节点取值为 1 的概率），就可以利用利用贝叶斯公式求 p(h|v)，然后就可以进行分类，类似朴素贝叶斯、LDA、HMM。说得专业点，RBM 可以作为一个生成模型（Generative model）使用。第四种，RBM 可以直接计算条件概率 p(h|v)，如果把 v 当做训练样本，h 当成类别标签（隐藏节点只有一个的情况，能得到一个隐藏节点取值为 1 的概率），RBM 就可以用来进行分类。说得专业点，RBM 可以作为一个判别模型（Discriminative model）使用。
ii）然后产生一个 0 到 1 之间的随机数，如果它小于p(hj = 1|v)，yj 的取值就是 1，否则就是 0。
反过来，现在知道了一个编码后的样本 y，想要知道原来的样本 x，即解码过程，跟上面也是同理，过程如下：
i）先利用公式p(vi = 1|h) = σ(∑��=1 �� × hj + bi)，根据 y 的值计算概率p(hj = 1|v)，其中 hj 的取值就是 yj 的值。
RBM 网络的功能有下面的几种，就简单地先描述一下。首先为了描述容易，先假设每个节点取值都在集合*0,1+中，即∀i, j, �� ∈ *0,1+, ℎ�� ∈ *0,1+。一个训练样本��过来了取值为x = (x1, x2 ⋯ xn)，根据 RBM 网络，可以得到这个样本的 m 维的编码后的样本y = (y1, y2 ⋯ ym)，这 m 维的编码也可以认为是抽取了 m 个特征的样本。而这个 m 维的编码后的样本是按照下面的规则生成的：对于给定的x = (x1, x2 ⋯ xn)，隐藏节点的第 j 个特征的取值为 1 的概率为p(hj = 1|v) = σ(∑��=1 �� × vi + cj)，其中的 v 取
的和为 1，这样才能保证 p(v,h)是一个概率。
现在我们得到了一个概率，其实也得到了一个分布，其实这个分布还有一个好听点的名
字，可以叫做 Gibbs 分布，当然不是一个标准的 Gibbs 分布，而是一个特殊的 Gibbs 分布，
这个分布是有一组参数的，就是能量函数的那几个参数 w，b，c。
有了这个联合概率，就可以得到一些条件概率，是用积分去掉一些不想要的量得到的。
RBM 的能量函数的定义如下
��
��
��
E(v, h) = − ∑ ∑ ��ℎ�� − ∑ �� − ∑ ��ℎ��
��=1 ��=1
第二，能量函数。随机神经网络是根植于统计力学的。受统计力学中能量泛函的启发，引入了能量函数。能量函数是描述整个系统状态的一种测度。系统越有序或者概率分布越集中，系统的能量越小。反之，系统越无序或者概率分布越趋于均匀分布，则系统的能量越大。能量函数的最小值，对应于系统的最稳定状态。
在统计力学中，基于能量函数的模型(Engery based model)称为能量模型。能量方法来源于热动力学，分子在高温中运动剧烈，能够克服局部约束（分子之间的一些物理约束，比如键值吸引力等），在逐步降到低温时，分子最终会排列出有规律的结构，此时也是低能量状态。受此启发，早期的模拟退火算法就是在高温中试图跳出局部最小。随机场作为物理模型之一，也引入了此方法。
lnp(v) = −FreeEnergy(v) − lnZ
从这里可以看出，自由能量可以用 lnp(v)来度量，当然，是反向的关系，自由能量小时
候 p(v)大，两边做个累加
∑ ��(��) = − ∑ FreeEnergy(v) − ∑ ��
v
��
��
最右边那个是常数，就忽略算了；右边的第一项就是整个网络的自由能量总和的负值，
左边可以认为是概率 p(v)的连乘的对数，也就是似然函数。这就得到了一个物理系统（RBM
网络）的自由能量的总和，跟 p(v)的对数和的关系，p(v)的对数和也可以称为对数似然函数。
这样就能得到一个结论了，一个系统的自由能量的总和最小的时候，正是∏v ��(��)最大的时候，也就是说，用极大似然估计去求得的参数，能让 RBM 系统的自由能量的总和最小。
FreeEnergy(v) = −ln ∑ ��−��(��,ℎ)
ℎ
然后 p(v)可以重新写成
�� −FreeEnergy(��)
p(v) =
��
其中Z = ∑��,ℎ ��−��(��,ℎ)，然后对上面的等式两边取对数，可以得到
3.2.2 能量模型作用和定义
为什么要弄这个能量模型呢？，因为能凑出个问题来求解。在马尔科夫随机场（MRF）中能量模型主要扮演着两个作用：一、全局解的度量（目标函数）；二、能量最小时的解（各
种变量对应的配置）为目标解。
能否把最优解嵌入到能量函数中关重要，决定着我们具体问题求解的好坏。统计模式
识别主要工作之一就是捕获变量之间的相关性，同样能量模型也要捕获变量之间的相关性，
发生的概率 p(v,h)是由能量函数来定义的。
这个概率不是随便定义的，而是有统计热力学的解释的——在统计热力学上，当系统和
它周围的环境处于热平衡时，一个基本的结果是状态 i 发生的概率如下面的公式
p��
=
1 ��