人工神经网络基础_ANN课件 第六章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络学习的。它是在提供给网络的学习模式集合的全
局误差按梯度下降的条件下达到网络记忆目的。 当学习过程进行到全局误差开始有上升的趋势时就停
止了,这往往导致网络误差陷入局部极小值,而达不 到全局最小点。
这种算法被形象地称为“贪心”算法,即急于找到最 小解.结果则是欲速则不达。
对于Hopfield网络,其工作规则也是使网络的能量函数朝梯 度下降的方向变化,即随着网络状态的不断更新,网络能能 量函数单调下降,其结果也往往是是使网络陷入局部极小值, 最终得不到网络的最优解。
4)关于降温策略,由于在Boltzmann机工作规则中引入了概率,
所以网络不是收敛于一个状态而是收敛于平衡状态。即在N
次网络状态更新过程中,网络各个状态出现的概率分布保持
不变,符合Boltzmann分布。由这一分布可知,温度参数T对
收敛概率分布有很大影响。当温度参数
时,最小能量
的状态实现概率为1,这也正是我们所期望的。
运行阶段:随机型神经网络不是按照某种确定性的 网络方程进行网络状态演变,而是按照某种概率分 布决定其状态的转移。
6.2 模拟退火算法
模 拟 退 火 算 法 (Simulated Annealing Algorithm),就是模拟金属构件退火过程的一 种算法。
金属或某类固体物质退火处理过程是:
网络正是通过记忆这种条件概率分布函数来完成互联想记忆。
例如,一个由Boltzmann机网络组成的柴油机故障 诊断系统,当给网络提供一个表示排气筒有黑烟的 故障输入模式后,在网络的输出部分(即故障诊断系 统的诊断输出端)按产生这种故障现象的原因的概率 的大小提供一系列输出模式,如汽缸点火位置不准、 油料中含有杂质等等。从此构成网络的学习模式对。
分析以上两种网络结构与算法的特点:导致网络学习过程陷 入局部极小点的原因主要有:
①结构上: 存在着输入与输出之间的非线性函数关系,从而使 网络误差或能量函数所构成的空间是一个含有多极 点的非线性空间;
②算法上: 网络的误差或能量函数只能按单方向减小而不能
有丝毫的上升趋势。
对于第一点,是为保证、网络具有非线性映射能力而必不可 少的。
无论是自联想记忆还是互联想记忆,其实质就是:网络通过
学习目标概率分布函数,将其记忆并在以后的回想过程中将 这一概率分布再现出来。
应该注意的是,Boltzmann机网络与一般的阶层网络不同, 它没有明显的层次界限。一般是根据问题的需要,在全互连 接的各个神经元中选择一些作为可视层,另一些作为隐含层。
D.H.Ackley , E.G.Hinton , T.J.Sejnowski. A learning algorithm for Boltzmann Machine. Cognitive Science,1985 ,(9):147-169
T.J.Sejnowski. Higher order Boltzmann Machine. Proceeding 151 on Neural Networks for Computing. Snowbird,1987: 398-403
启发:
如果把神经网络的状态看作金属内部的“粒子”,把网络在 各个状态下的能量函数E看作是粒子所处的能态;
在算法中设置一种控制参数T,当T较大时,网络能量由低 向高变化的可能性也较大;随着T的减小,这种可能性也减 小。如果把这个参数看作温度,让其由高慢慢地下降,则整 个网络状态变化过程就完全模拟了金属的退火过程;
E.G.Hinton , T.J.Sejnowski , D.H.Ackley. Boltzmann Machine: Constraint satisfaction networks that learn. Carnegie-Mellon University Technology,Report CMU-CS84-149,1984
先用高温将其加热熔化,使其中的粒子可以自由运动;逐渐 降低温度,粒子的自由运动趋势也逐渐减弱,并逐渐形成低 能态晶格。若在凝结点附近温度下降的速度足够慢,则金属 或固体物质一定会形成最低能量的基态,即最稳定结构状态。
实际上,在整个降温的过程中,各个粒子都可能经历了由高 能态向低能态、有时又暂时由低能态向高能态最终趋向低能 态的变化过程。
这种降温方法称为快速降温方案。
同Hopfield网络在优化组合中的应用一样,当把问题的约束条 件及目标函数转化为网络的目标函数之后,按Boltzmann工作 规则进行网络的状态转移,最终能得到问题的最优解。 两点说明: (1)由于Boltzmann机网络的工作规则可使网络的状态转移,
无论从任何初始状态出发,都可以收敛到网络能量函数 的最小值,能量函数的各个局部极小值无法被利用来作 为记忆模式的存贮点。所以Boltzmann机网络不能充当一 般意义上的多记忆模式的联想记忆器使用; (2)能量函数不应有多个“太深”的极小值,否则一旦计算过 程陷入某一个低谷就不易出来了。
这在Hopfield算法中是不允许的。而这里却允许比较小的 概率(负横轴所对应的概率)接受这种变化。
从图还可以看出:
当温度T较高时,PHi(1)相对于Hi的变化反应迟钝,曲线趋于
平坦,特别是当
时.曲线变为一条恒为0.5的直线。此
时ui取1和0的概率相等,这意味着在T较高的期间,网络各神
经元有更多的机会进行状态选择,相当于金属内部的粒子作激
而且还有学习模式出现的概率。在上节中曾经指出, Boltzmann机网络可划分为可视层与隐含层两大部分。
可视层:主要作为网络记忆的外部表现,即学习模 式及用于回想的输入模式都是通过可视层 提供给网络的;
隐含层:主要用于网络记忆的内部运算。
当把一组记忆模式及这组记忆模式中每一个模式应出现的概 率(即这组记忆模式的概率分布函数)提供给网络的可视层之 后,让网络按将介绍的学习规则进行学习;
第六章 随机型神经网络
6.1 随机型神经网络的基本思想 6.2 模拟退火算法 6.3 Boltzmann机与Boltzmann机工作规则 6.4 Boltzmann机学习规则 6.5 网络小结
6.1 随机型神经网络的基本思想
误差反向传播算法的基本思想: 通过对网络参数(连接权、输出阈值)的逐步调整实现
当参数了下降到一定程度时,网络将收敛于能量的最小值。
在模拟退火算法中,有两点是算法的关键: ① 控制参数T; ② 能量由低向高变化的可能性。
这两点必须结合起来考虑,当T大时,可能性也大, T小时,可能性也小,把“可能性”当作参数T的函 数。
“可能性”用数学模型来表示就是概率。
由此可以得到模拟退火算法如下:
解决网络收敛问题的途径就只能从第二点入手,即
不但让网络的误差或能量函数向减小的方向变化,而且,还
可按某种方式向增大的方向变化,目的是使网络有可能跳出
局部极小值而向全局最小点收敛。这就是随机型神经网络算 法的基本思想。
随机型(Random neural network,RNN)神经网络与其 他神经网络有两个主要区别: 学习阶段:随机型神经网络不像其他网络那样基于 某种确定性算法调整权值,而是按照某种概率分布 进行修改;
Boltzmann机网络工作规则与Hopfield网络工作规则十分相似,
只是以概率方式取代阶跃函数方式来决定网络根据其神经元 的内部状态而进行的状态更新,并且网络的温度参数随着网
络状态更新的进行而逐渐减小。
实际上,可以说Boltzmann机网络工作规则就是模拟退火算 法的具体体现。
现将其步骤归纳如下:
和动态运行机制的优点,具有多层网络含义的网络结构、简单而 高效的学习算法和依概率方式工作的动态运行机制。 与Hopfield神经网络不同的是具有学习能力,即其权值通过学习 来调整,而不是预先设置。
按模拟退火算法实现网络状态的更新时,网 络各状态出现的概率将服从Boltzmann分布。
实际上,模拟退火算法的提出并不是针对 神经网络的,它最早是由Metrpolis于1953年 针对模拟统计物理中液体结晶问题而提出的 一种算法思想。1983年,E. G. Hinton等人把 模拟退火算法引入神经网络中,提出了 Boltzman 机 模 型 , 简 称 BM网 络 (Boltzmann Machine)。
是Boltzmann分布的一大 特点,即“最小能量状 态以最大的概率出现”。
6.3 Boltzmann机与Boltzmann机工作规则
20世纪80年代,Hinton、Ackley和Sejnowski等以模拟退火思想为基础, 对Hopfield网络模型引入了随机机制,提出了一种统计神经网络模型 -Boltzman机。 它结合了BP神经网络和Hopfield神经网络在网络结构、学习算法
但是如果开始就以T=0进行状态更新,则网络状态很可能陷
入局部极小点。因此需采用逐渐降温法实现状态更新,而且
只有降温速度合适才能保证网络状态收敛于全局最小点。
现己证明:按所示降温方案.能够保证网络收敛于全局最小
值。但用此方法也存在着一个很大缺陷,即网络的收敛时间 太长。为此,也可用下式所示方法实施降温:
式中,Ei为状态{ui}所对应的网络能量。
这 一 概 率 分 布 就 是 由 统 计 力 学 家 Ludwig Boltzmann(1844-1906年)提出的Boltzmann分布。式 中的Z是为使分布归一化而设置的常数(网络所有状 态的能量之和为常数)。
由这分布可以看出:状态 的能量越小,这一状态 出现的概率就越大。这
上式表明:在模拟退火算法中,某神经元的输出不 象Hopfield算法中那样,是由以内部状态Hi为输入的 非线性函数的输出(阶跃函数)所决定的,而是由Hi
为变量的概率PHi(1)或PHi(0)所决定的。不同的Hi,对
应不同的概率PHi(1)或PHi(0)来决定输出为兴奋或者抑 制的。
将Hopfield网络能量函数的变化式重写:
烈的自由运动;
当温度降低时,PHi(1)曲线变陡. PHi(1)相对于Hi的变化相当 敏感。当 时,曲线退化为一阶跃函数,则算法也从模拟退 火算法过渡到Hopfield算法。
可以说:Hopfield算法是模拟退火算法在 特例。
时的
反复进行网络的状态更新,且更新次数N足够大以 后,网络某状态出现的概率将服从分布:
Boltzmann机网络结构基本上与离散型Hopfield网络结构相似, 由N个神经元构成,每个神经元取0、1二值输出,且神经元 之间以对称连接权相互连接。
与Hopfield网络所不同的是:
Boltzmann机网络一般源自文库整个神经元分为可视层与隐含层两 大部分,可视层又可分为输入部分和输出部分。
学习结束之后,当网络按上节介绍的工作规则进行不断地状 态转移时,网络的各个状态将按记忆的学习模式的概率分布 出现,即概率大的状态出现的频率高,概率小的状态出现的 频率低。这时的网络相当于一个按既定概率分布输出的“概 率发生器”。这种概率意义上的联想记忆称为自联想记忆。
进一步分析互联记忆方式,把网络的可视层分为输入部分和 输出部分,且按下述方式提供给网络学习模式:把某个记忆 模式加到网络的输入部分。同时,在网络的输出部分按一给 定概率分布给出一组希望输出模式。此时所给出的概率分布 函数实际上是输出模式相对于输入模式的条件概率分布。
6.4 Boltzmann机学习规则
Boltzmann机网络除了可以解决优化组合问题 外,还可以通过网络训练模拟外界给出的概率 分布, Boltzmann网络训练模拟外界给出的概 率分布,实现概率意义上的联想记忆。
什么是概率意义上的联想记忆呢?
简单地讲,就是网络所记忆的并不是记忆模式本身,而是记 忆模式出现的概率。提供给网络训练的也不仅仅是学习模式,
但它与一般的阶层网络结构不同之处是网络没有明显的层次 界限,且神经元之间不是单向连接而是双向连接的,如图所
示。
Bo1tzmann机网络的算法根据其两大用途分为: 工作规则:也就是网络的状态更新规则,主要用于 优化组合问题。 学习规则:也就是网络连接权和输出阈值的修正规 则,主要用于以网络作为一种外界概率 分布的模拟机。这也是Boltzmann机网络 的一个独特的用途。
局误差按梯度下降的条件下达到网络记忆目的。 当学习过程进行到全局误差开始有上升的趋势时就停
止了,这往往导致网络误差陷入局部极小值,而达不 到全局最小点。
这种算法被形象地称为“贪心”算法,即急于找到最 小解.结果则是欲速则不达。
对于Hopfield网络,其工作规则也是使网络的能量函数朝梯 度下降的方向变化,即随着网络状态的不断更新,网络能能 量函数单调下降,其结果也往往是是使网络陷入局部极小值, 最终得不到网络的最优解。
4)关于降温策略,由于在Boltzmann机工作规则中引入了概率,
所以网络不是收敛于一个状态而是收敛于平衡状态。即在N
次网络状态更新过程中,网络各个状态出现的概率分布保持
不变,符合Boltzmann分布。由这一分布可知,温度参数T对
收敛概率分布有很大影响。当温度参数
时,最小能量
的状态实现概率为1,这也正是我们所期望的。
运行阶段:随机型神经网络不是按照某种确定性的 网络方程进行网络状态演变,而是按照某种概率分 布决定其状态的转移。
6.2 模拟退火算法
模 拟 退 火 算 法 (Simulated Annealing Algorithm),就是模拟金属构件退火过程的一 种算法。
金属或某类固体物质退火处理过程是:
网络正是通过记忆这种条件概率分布函数来完成互联想记忆。
例如,一个由Boltzmann机网络组成的柴油机故障 诊断系统,当给网络提供一个表示排气筒有黑烟的 故障输入模式后,在网络的输出部分(即故障诊断系 统的诊断输出端)按产生这种故障现象的原因的概率 的大小提供一系列输出模式,如汽缸点火位置不准、 油料中含有杂质等等。从此构成网络的学习模式对。
分析以上两种网络结构与算法的特点:导致网络学习过程陷 入局部极小点的原因主要有:
①结构上: 存在着输入与输出之间的非线性函数关系,从而使 网络误差或能量函数所构成的空间是一个含有多极 点的非线性空间;
②算法上: 网络的误差或能量函数只能按单方向减小而不能
有丝毫的上升趋势。
对于第一点,是为保证、网络具有非线性映射能力而必不可 少的。
无论是自联想记忆还是互联想记忆,其实质就是:网络通过
学习目标概率分布函数,将其记忆并在以后的回想过程中将 这一概率分布再现出来。
应该注意的是,Boltzmann机网络与一般的阶层网络不同, 它没有明显的层次界限。一般是根据问题的需要,在全互连 接的各个神经元中选择一些作为可视层,另一些作为隐含层。
D.H.Ackley , E.G.Hinton , T.J.Sejnowski. A learning algorithm for Boltzmann Machine. Cognitive Science,1985 ,(9):147-169
T.J.Sejnowski. Higher order Boltzmann Machine. Proceeding 151 on Neural Networks for Computing. Snowbird,1987: 398-403
启发:
如果把神经网络的状态看作金属内部的“粒子”,把网络在 各个状态下的能量函数E看作是粒子所处的能态;
在算法中设置一种控制参数T,当T较大时,网络能量由低 向高变化的可能性也较大;随着T的减小,这种可能性也减 小。如果把这个参数看作温度,让其由高慢慢地下降,则整 个网络状态变化过程就完全模拟了金属的退火过程;
E.G.Hinton , T.J.Sejnowski , D.H.Ackley. Boltzmann Machine: Constraint satisfaction networks that learn. Carnegie-Mellon University Technology,Report CMU-CS84-149,1984
先用高温将其加热熔化,使其中的粒子可以自由运动;逐渐 降低温度,粒子的自由运动趋势也逐渐减弱,并逐渐形成低 能态晶格。若在凝结点附近温度下降的速度足够慢,则金属 或固体物质一定会形成最低能量的基态,即最稳定结构状态。
实际上,在整个降温的过程中,各个粒子都可能经历了由高 能态向低能态、有时又暂时由低能态向高能态最终趋向低能 态的变化过程。
这种降温方法称为快速降温方案。
同Hopfield网络在优化组合中的应用一样,当把问题的约束条 件及目标函数转化为网络的目标函数之后,按Boltzmann工作 规则进行网络的状态转移,最终能得到问题的最优解。 两点说明: (1)由于Boltzmann机网络的工作规则可使网络的状态转移,
无论从任何初始状态出发,都可以收敛到网络能量函数 的最小值,能量函数的各个局部极小值无法被利用来作 为记忆模式的存贮点。所以Boltzmann机网络不能充当一 般意义上的多记忆模式的联想记忆器使用; (2)能量函数不应有多个“太深”的极小值,否则一旦计算过 程陷入某一个低谷就不易出来了。
这在Hopfield算法中是不允许的。而这里却允许比较小的 概率(负横轴所对应的概率)接受这种变化。
从图还可以看出:
当温度T较高时,PHi(1)相对于Hi的变化反应迟钝,曲线趋于
平坦,特别是当
时.曲线变为一条恒为0.5的直线。此
时ui取1和0的概率相等,这意味着在T较高的期间,网络各神
经元有更多的机会进行状态选择,相当于金属内部的粒子作激
而且还有学习模式出现的概率。在上节中曾经指出, Boltzmann机网络可划分为可视层与隐含层两大部分。
可视层:主要作为网络记忆的外部表现,即学习模 式及用于回想的输入模式都是通过可视层 提供给网络的;
隐含层:主要用于网络记忆的内部运算。
当把一组记忆模式及这组记忆模式中每一个模式应出现的概 率(即这组记忆模式的概率分布函数)提供给网络的可视层之 后,让网络按将介绍的学习规则进行学习;
第六章 随机型神经网络
6.1 随机型神经网络的基本思想 6.2 模拟退火算法 6.3 Boltzmann机与Boltzmann机工作规则 6.4 Boltzmann机学习规则 6.5 网络小结
6.1 随机型神经网络的基本思想
误差反向传播算法的基本思想: 通过对网络参数(连接权、输出阈值)的逐步调整实现
当参数了下降到一定程度时,网络将收敛于能量的最小值。
在模拟退火算法中,有两点是算法的关键: ① 控制参数T; ② 能量由低向高变化的可能性。
这两点必须结合起来考虑,当T大时,可能性也大, T小时,可能性也小,把“可能性”当作参数T的函 数。
“可能性”用数学模型来表示就是概率。
由此可以得到模拟退火算法如下:
解决网络收敛问题的途径就只能从第二点入手,即
不但让网络的误差或能量函数向减小的方向变化,而且,还
可按某种方式向增大的方向变化,目的是使网络有可能跳出
局部极小值而向全局最小点收敛。这就是随机型神经网络算 法的基本思想。
随机型(Random neural network,RNN)神经网络与其 他神经网络有两个主要区别: 学习阶段:随机型神经网络不像其他网络那样基于 某种确定性算法调整权值,而是按照某种概率分布 进行修改;
Boltzmann机网络工作规则与Hopfield网络工作规则十分相似,
只是以概率方式取代阶跃函数方式来决定网络根据其神经元 的内部状态而进行的状态更新,并且网络的温度参数随着网
络状态更新的进行而逐渐减小。
实际上,可以说Boltzmann机网络工作规则就是模拟退火算 法的具体体现。
现将其步骤归纳如下:
和动态运行机制的优点,具有多层网络含义的网络结构、简单而 高效的学习算法和依概率方式工作的动态运行机制。 与Hopfield神经网络不同的是具有学习能力,即其权值通过学习 来调整,而不是预先设置。
按模拟退火算法实现网络状态的更新时,网 络各状态出现的概率将服从Boltzmann分布。
实际上,模拟退火算法的提出并不是针对 神经网络的,它最早是由Metrpolis于1953年 针对模拟统计物理中液体结晶问题而提出的 一种算法思想。1983年,E. G. Hinton等人把 模拟退火算法引入神经网络中,提出了 Boltzman 机 模 型 , 简 称 BM网 络 (Boltzmann Machine)。
是Boltzmann分布的一大 特点,即“最小能量状 态以最大的概率出现”。
6.3 Boltzmann机与Boltzmann机工作规则
20世纪80年代,Hinton、Ackley和Sejnowski等以模拟退火思想为基础, 对Hopfield网络模型引入了随机机制,提出了一种统计神经网络模型 -Boltzman机。 它结合了BP神经网络和Hopfield神经网络在网络结构、学习算法
但是如果开始就以T=0进行状态更新,则网络状态很可能陷
入局部极小点。因此需采用逐渐降温法实现状态更新,而且
只有降温速度合适才能保证网络状态收敛于全局最小点。
现己证明:按所示降温方案.能够保证网络收敛于全局最小
值。但用此方法也存在着一个很大缺陷,即网络的收敛时间 太长。为此,也可用下式所示方法实施降温:
式中,Ei为状态{ui}所对应的网络能量。
这 一 概 率 分 布 就 是 由 统 计 力 学 家 Ludwig Boltzmann(1844-1906年)提出的Boltzmann分布。式 中的Z是为使分布归一化而设置的常数(网络所有状 态的能量之和为常数)。
由这分布可以看出:状态 的能量越小,这一状态 出现的概率就越大。这
上式表明:在模拟退火算法中,某神经元的输出不 象Hopfield算法中那样,是由以内部状态Hi为输入的 非线性函数的输出(阶跃函数)所决定的,而是由Hi
为变量的概率PHi(1)或PHi(0)所决定的。不同的Hi,对
应不同的概率PHi(1)或PHi(0)来决定输出为兴奋或者抑 制的。
将Hopfield网络能量函数的变化式重写:
烈的自由运动;
当温度降低时,PHi(1)曲线变陡. PHi(1)相对于Hi的变化相当 敏感。当 时,曲线退化为一阶跃函数,则算法也从模拟退 火算法过渡到Hopfield算法。
可以说:Hopfield算法是模拟退火算法在 特例。
时的
反复进行网络的状态更新,且更新次数N足够大以 后,网络某状态出现的概率将服从分布:
Boltzmann机网络结构基本上与离散型Hopfield网络结构相似, 由N个神经元构成,每个神经元取0、1二值输出,且神经元 之间以对称连接权相互连接。
与Hopfield网络所不同的是:
Boltzmann机网络一般源自文库整个神经元分为可视层与隐含层两 大部分,可视层又可分为输入部分和输出部分。
学习结束之后,当网络按上节介绍的工作规则进行不断地状 态转移时,网络的各个状态将按记忆的学习模式的概率分布 出现,即概率大的状态出现的频率高,概率小的状态出现的 频率低。这时的网络相当于一个按既定概率分布输出的“概 率发生器”。这种概率意义上的联想记忆称为自联想记忆。
进一步分析互联记忆方式,把网络的可视层分为输入部分和 输出部分,且按下述方式提供给网络学习模式:把某个记忆 模式加到网络的输入部分。同时,在网络的输出部分按一给 定概率分布给出一组希望输出模式。此时所给出的概率分布 函数实际上是输出模式相对于输入模式的条件概率分布。
6.4 Boltzmann机学习规则
Boltzmann机网络除了可以解决优化组合问题 外,还可以通过网络训练模拟外界给出的概率 分布, Boltzmann网络训练模拟外界给出的概 率分布,实现概率意义上的联想记忆。
什么是概率意义上的联想记忆呢?
简单地讲,就是网络所记忆的并不是记忆模式本身,而是记 忆模式出现的概率。提供给网络训练的也不仅仅是学习模式,
但它与一般的阶层网络结构不同之处是网络没有明显的层次 界限,且神经元之间不是单向连接而是双向连接的,如图所
示。
Bo1tzmann机网络的算法根据其两大用途分为: 工作规则:也就是网络的状态更新规则,主要用于 优化组合问题。 学习规则:也就是网络连接权和输出阈值的修正规 则,主要用于以网络作为一种外界概率 分布的模拟机。这也是Boltzmann机网络 的一个独特的用途。