多层神经网络

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
符号函数:
1 (n 0) a f (n) hardlim(n) k 0 (n 0)
f (net )
1 if netk 0 f (netk ) 1 if netk 0
0
netk
12

分段线性函数:
1, f ( netk ) netk , 0, 1 2 1 1 netk 2 2 1 netk 2 netk
f (netk )
-0.5
0
0.5
netk
Sigmoid 函数:
f (netk )
1 1 exp(anetk )
13
最简单的神经网络-单层感知器
单层感知器拓扑结构
14
百度文库
单层感知器仅对线性问题具有分类能力


线性问题:简单来讲,就是用一条直线可分的图 形。比如: 1. 逻辑“与” 2. 逻辑“或” 我们可以用一条直线来分隔0 和1。
J Jp
p 1 n
在随机训练中,一个权值的更新可能减少某个单 模式的误差,然而却增加了训练全集上的误差。 但是如果大量的这种单词更新,却可以降低上述 的总误差
35
成批反传算法

权值在所有模式出现一次后才更新
36
6.3.3

BP网络——学习曲线
学习曲线显示的是误 差准则函数作为训练 总量的一个函数。每 个模式的“验证误差” 和“测试误差”实际 上总是比“训练误差” 大。在有些协议中, 训练在验证集误差最 小的时候停止。(比 如图中靠近5的位置)

如果要让它来处理非线性的问题,单层感知器网就无能 为力了。例如下面的“异或”,就无法用一条直线来分 割开来,因此单层感知器网就没办法实现“异或”的功 能。
19
解决异或问题的多层感知器
1 0.5 -1.5 -1 0.7
x1
1 1 1
y
-0.4 1
x2
输入层
隐含层
输出层
20
6.2.1 一般的前馈运算
-

w2 (t) dt const
该限定有时候被称为滤波器的能量。
72
n于是优化问题就是找出在限定条件下使z t 达到最大值的 响应函数。我们对限定条件求变分加上 z(t), 并令其值为0. 不失一般性我们令T=0;从而得出

z (0) ( [w 2 (t) x(t) w(t)]dt) 0
15
逻辑“与” 的真值表及二维样本分类图
16
逻辑“或” 的真值表及二维样本分类图
17

为什么感知器就可以解决线性问题呢?这是由它 的传递函数决定的。这里以两个输入分量x1 和x2 组成的二维空间为例,此时节点j 的输出为
所以,方程
确定的直线就是二维输入样本空间上的一条分界线
18
“异或” 的真值表及二维样本分类图
21
虽然一个两层 网络分类器只 能实现一个线 性判决边界, 如果给出足够 数量的隐单元, 三层,四层及 更多层网络就 可以实现任意 的判决边界
22
6.3 反向传播算法(BP算法)
关键问题:根据训练样本和期望输出来设置合适的权值
怎样训练输入层到隐含层的权值? 反向传播算法允许我们对每一个隐单元计算有 效误差,并且由此推导出一个输入层到隐含层 权值的学习法则

显然,我们可以把之前的讨论推广为更多的更多的输入单元、其他的 非线性函数、任意多个输出单元。在分类方面,我们有c个输出单元, 每个类别一个,每个输出单元产生的信号就是判别式函数gk(x). 判别函数如下: nH d
g k ( X ) zk f ( kj f ( w ji xi j 0 ) ko )
随机反传算法
begin initialize nh , w,准则,,m 0 do m m+1 xm 随机选择模式
ji ji j xi ; kj kj k y i
until J (w) return w end
34

目前我们只考虑了训练集中单个模式的的 误差,但实际上我们要考虑一个定义在训 练集里所以模式的误差。我们可以吧这个 总训练误差写成n个单独模式误差的总和
4
人工神经网络
5
神经网络的发展
6
基本功能
7
应用领域
8

神经元模型
偏置
a. 突触权值 b .加法器—净激活 c. 激活函数
wk1
wk 0
激活函数
wk 2 wkm
输入信号
f (.)
求和结点
yk
突触权值
输出
9
6.2

前馈运算和分类
前馈运算定义: a.无反馈,可用一有向无环图表示。 b.图的节点分为两类,即输入节点与计算单元。 c.每个计算单元可有任意个输入,但只有一个输出,而输出可耦合到 任意多个其他节点的输入。前馈网络通常分为不同的层,第i层的输 入只与第i-1层的输出相联。 d.输入和输出节点由于可与外界相连,直接受环境影响,称为可见层, 而其他的中间层则称为隐层。如图。
隐单元的敏感度与输出单元 的敏感度的加权成和正比
j f (net j ) wkj k 这样输出
' k 1
c
单元的敏感度就反向传播回 隐单元了
32
33
6.3.2
训练协议
1.随机训练:模式堆积地从训练集中取出,网络权 值也根据不同的模式进行更新 2.成批训练:所有模式在训练之前全部送往网络中。 3.在线训练:每种模式只提供一次,不需要存储器 来保存模式
10

每一个二维输入向量都提供给输人层,而每一个输入单元的输出结 果则等于输入向量中对应的那个分量。隐单元对它的各个输入进行 加权求和运算而形成“净激活(net activation)”简称为net。为 简单起见,我们增广输入向量和权向量可将净激活写成如下形式
net j xi ji j 0 xi ji W X
37
6.3.4 误差曲面

网络初始权值随机,通过随 机训练,误差降到全局极小 值。这里存在一个低误差的 解,它对应的判决边界把训 练点正确的分为两类。这里 误差曲面有一个单一极小值。 误差曲面上不同的平坦区域 粗略的对应不同数量的恰当 分类面模式;这个例子中错 误分类的模式的数目最大是4.
38
用上面的三层非线性网络来 解决一个一维线性不可分问 题。可以发现误差曲面总比 上图的稍高一些,因为无论 怎么分都会导致一个模式被 错误分类。从曲面上可以看 到两种形式的极小误差解; 分别对应-2<x<-1和1<x<2, 其中一个模式被误分。 通过这些例子能清楚的显示 出权值,判决边界以及误差 之间的对应关系。可以发现 当存在一组权对应几乎相同 的判决边界时就会出现平坦 区。
23

模式顺传播: 计算输出层的 输入输出
神经元j的输出
y j f (netj )
神经元j的净激活
netj wj x
连接权初始化
学习模式提供 给网络 24
25
26
27
28
对于隐层利用式(11)可得
J 1 c 2 (tk zk ) y j yi 2 k 1 zk (tk zk ) y j k 1
3
神经元在结构上由细胞体、树突、轴突和突触四部分组成。 1. 细胞体 (cell body) 神经元的主体,由细胞核、细胞质和细胞膜3 部分组成。细胞体的外部是 细胞膜,将膜内外细胞液分开。由于细胞膜对细胞液中的不同离子具有不 同的通透性,这使得膜内外存在着离子浓度差,从而出现内负外正的静息 电位。这种电位差称为膜电位。 2. 树突 (dendrite) 从细胞体向外延伸出许多突起的神经纤维。负责接收来自其他神经元的输 入信号,相当于细胞体的输入端(input)。 3. 轴突 (axon) 由细胞体伸出的最长的一条突起称为轴突。轴突比树突长而细。轴突也叫 神经纤维,末端处有很多细的分支称为神经末梢,每一条神经末梢可以向 四面八方传出信号,相当于细胞体的输出端(output)。 4. 突触 (synapse) 一个神经元通过其轴突的神经末梢和和另一个神经元的细胞体或树突进 行通信连接,称为突触。
j 1 i 1
6.2.2 多层网络的表达能力

戈尔莫戈罗夫证明了:只要选取适当的函数,任何连续函数g(x)都呆以定义 在单位超立方体上,即可以表示为:
g ( X ) j ( ij ( xi ))
j 1 i 1
2 n 1
d

可惜的是,上述构造性的描述确实显示任期望函数都可以通过一个三层网络 来执行,但它更多的价值在理论方面,而实用意义不大。
c
zk netk (tk zk ) netk y j k 1
c
(tk zk ) f ' (netk )kj
k 1
c
29
30
31
从式(21)可以看出,单元k上的权值更新与(tk -zk) 成正比,如果我们得到理想的输出zk tk 就不需要更 新权值了。对于常用的典型sigmoid型函数f(),f ' (net k ) 总是正值。如果yi 和tk zk 都是正的,就说明实际输出太 小,因此我们需加大权值。
考虑利用线性检测器来检测一个连续信号x(t)的问题。通过它的脉 冲响应h(t),或者最好是用它的逆序脉冲响应w(t)=h(t)来描述该检 测器。线性检测器对于任意输入x(t)的输出通过积分 z(T)= x(t) w(t T) dt

给出,其中T为信号的相对偏移量。 并有如下限定条件
+
第六章 多层神经网络
6.1

引 言
神经网络定义 一个神经网络是一个由简单处理元构成的规模宏大的并行分布式 处理器。天然具有存储经验知识和使之可用的特性。 神经网络与人脑的相似性: a .神经网络获取的知识是从外界环境中学习得来。 b .互连神经元的连接强度,即突触权值,用于存储获取的知识。

2
生物神经元示意图
45
右图所示为输入层到隐含层 的权值,显示为图像,用来 完成简单的字符识别。上部 的图形表示的是从用来训练 对3个字符进行分类的64-23S型网络的训练集中选出 的一些模式。下部的图形显 示的是训练后两个隐单元的 输入层到隐含层的权值。但 是在大型网络中,这些学习 后的权值的模式却很难用上 述方式解释。
39
6.4.3 较大型的网络
高对于一个具有很多权值,解决较复杂的高维分类问题的 网络,随单个权值的变化,误差的变化将十分缓慢。 尽管低维空间里局部极小值非常多,高维空间里局部极小值 却不同:在学习过程中,高维空间可以给系统提供更多的方式 (维数,自由度)以“避开”障碍或局部极大值。权值个数越 过剩,网络越不可能陷入局部极小值。
6.4.4 关于多重极小
在高维权值空间中,找到一个全局极小值的可能性很小, 我们不希望网络陷入具有高的训练误差的局部极小值,在很多 问题中,当误差较低时,非全局极小是可以接受的。
40
6.5 反向传播作为特征映射
41
42
43
44
6.5.1 隐含层的内部表示-权值
底部图为一个二维两类非 线性可分分类问题的7种 模式。左上图是一个已经 把误差训练到全局极小值 的2-2-1S型网络(含偏置) 的隐单元表示。右上图是 模拟一个完全训练的2-31网络。由于隐含层的高 维表示能力,现在类别变 的线性可分,学习过的隐 含层到输出层的权值确实 得出了一个将类别分开的 平面
i 1 i 0 t j
d
d
下表i是输入层单元的索引值,j是隐含层单元的索引, ji 表示输入层 单元i到隐含层单元j的权值,,类比于神经元,这种权被称为“突触”,连接 的值叫“突触权”。每一个隐含层单元激发出一个输出分量,这个分量是它激 活的非线性函数, f (net j )
11
常用的激活函数

或者
+
-
[2 w(t) w(t) x(t) w(t)]dt 0
x(t) x
73
对所有的 w(t)都成立,所以被积式必须为0,从而得出最 优滤波器应为 w(t)
左列显示了信号x(t),它下面是 一个任意的响应函数a (t), 底部 是作为偏移量T的函数的滤波器 响应。右列显示了输入和响应函 数相匹配的情形。两个响应函数
46
6.6 反向传播贝叶斯理论及概率
47
48
49
50
6.10 其他网络和训练算法
6.10.1 径向基函数网络
51
52
53
54
55
正则化RBF网络的学习算法
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
6.10.3 匹配滤波器

如何对某个特定的已知模式设计一个最优检测器?
相关文档
最新文档