第3章神经网络3-径向基函数网络(n)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章径向基函数网络 (44)
3.1 径向基函数(Redial Basis Function,RBF) (44)
3.2 径向基函数参数的选取 (46)
c的选取 (46)
3.2.1 基函数中心
p
3.2.2权系数 的确定 (47)
3.3 高斯条函数 (48)
)(1
)(p
h P
p p λx g ϕ∑==第三章 径向基函数网络
径向基函数网络利用具有局部隆起的所谓径向基函数来做逼近或分类问题。它可以看作是一种前馈网络,所处理的信息在工作过程中逐层向前流动。虽然它也可以像BP 网络那样利用训练样本作有教师学习,但是其更典型更常用的学习方法则与BP 网络有所不同,综合利用了有教师学习和无教师学习两种方法。对于某些问题,径向基函数网络可能比BP 网络精度更高。
3.1 径向基函数(Redial Basis Function ,RBF )
[Powell 1985]提出了多变量插值的径向基函数方法。稍后[Broomhead 1988]成功地将径向基函数用于模式识别。径向基函数可以写成
||)1
(||)(∑=-=
P
p p c x p x g ϕλ (3.1.1) 其中N R x ∈表示模式向量;N
P p p R c ⊂=1
}{ 是基函数中心;j λ是权系数;ϕ是选定的非线性基函数。(3.1.1)可以看作是一个神经网络,输入层有N 个单元,输入模式向量x 由此进入网络。隐层有P 个单元,第p 个单元的输入为||||p p c x h -=,输出为)(p h ϕ。输出层1个单元,
输出为 。
假设给定了一组训练样本11},{R R y x N J j j j ⨯⊂=。当j y 只取有限个值(例如,取0,1或±1)时,可以认为是分类问题;而当j y 可取任意实数时,视为逼近问题。网络学习(或训练)的任务就是利用训练样本来确定输入层到隐层的权向量p c 和隐层到输出层的权系数p λ,使得
J j y x g j j ,,1 ,)( == (3.1.2)
为此,当P J =时,可以简单地令
P p x c p p ,,1 , == (3.1.3)
这时(3.1.2)成为关于{}p λ的线性方程组,其系数矩阵通常可逆,因此有唯一解(参见[MC])。在实践中更多的情况是P J >。这时, (3.1.2)一般无解, 只能求近似解。我们将在下一节详细讨论这种情况。
常用的非线性基函数有以下几种:
1) 高斯基函数 确定了}{p c 后,可以选取如下的高斯基函数来构造径向基函数:
)()(1x x g P
p p p ∑==ϕλ (3.1.4a)
式中
∑==
P
q q p p x R x R x 1
)
()
()(ϕ (3.1.4b)
)2||||exp()(22
p
p p c x x R σ
--
= (3.1.4c)
这里参数p σ是第p 个高斯基函数)(x R p 的“宽度”或“平坦程度”。p σ越大,则以p c 为中心的等高线越稀疏,)(x R p 越平坦,对其它)(x q ϕ的影响也就越大。p σ的一种选法是
22
||||1
∑∈
-=
p
x p
p
p c x M θ
σ (3.1.5)
即p θ类所含的样本点与中心p c 的平均距离越大, 则)(x R p 应该越平坦。 2) 薄板样条函数
)lg()(2v v v =ϕ (3.1.6)
3) 多二次函数
0 ,)()(2
12>+=c c v v ϕ (3.1.7)
4) 逆多二次函数
0 ,)()(2/12>+=-c c v v ϕ (3.1.8)
一般认为,非线性函数ϕ的具体形式对网络性能的影响不大。
RBF 网络与第一章讨论的多层前馈网络(MLP )一样,能以任意精度逼近相当广泛的非线形映射(例如参见[CL][LX])。由(3.1.1)可以看出,每一个基函数||)(||p c x -ϕ 都可以(以2=P 为例)由平面上一族同心圆{}
h c x R x r p n h =-∈ :来表示,每一个同心圆h r 上的点具有相同的函数值。而整个RBF 网络不外乎是由P 族同心圆互相影响而形成的P 族等高线来表示。因此,RBF 网络对如图3.1所示的分类问题特别有效(),(21x x x =)。
图3.1 适合于RBF 网络的分类问题
3.2 径向基函数参数的选取
3.2.1 基函数中心p c 的选取
假设RBF 网络中隐单元的个数(即基函数的个数)P 已经确定,则决定网络性能的关键就是P 个基函数中心p c 的选取。一种广泛应用的无教师学习算法是如下的k -均值聚类算法
I :
① 给定训练样本N J j j R x ⊂=1}{。 )(J P <
② 将聚类中心}{p c 初始化。(例如可选为P i i x 1}{=。)
③ 将J j j x 1}{=按距离远近向P i i c 1}{=聚类,分成P 组P p p 1}{=θ,即令
*p j x θ∈ (3.2.1)
若||||min ||||1*p j P
p p j c x c x -=-≤≤。
④ 计算样本均值,作为新的聚类中心(p M 是类p θ中样本的个数):
∑∈=
P
j
x j
p
p x
M c θ1
, P p ,,1 = (3.2.2)
⑤ 若新旧P p p c 1}{=相差很小,则停止。否则转③。
K-均值聚类算法是循环地选取聚类中心p c 与聚类集合p θ的一个迭代过程。(暂时)选定各中心p c 后,在步骤③中按距离远近将j x 向p c 聚类得到p θ应该是十分自然的。而p θ确定后,对新的中心p c 与p θ中各个j x 的“总的距离”(即各个距离的平方和)
∑∈-p
j x p j c x θ2|||| (3.2.3)
取极小,便得到确定新p c 的公式(3.2.2)。这是一种竞争分类过程。在步骤③中竞争p θ类资格获胜的各个j x 将对新的聚类中心p c 做出贡献。
下面我们给出另外一种K-均值聚类算法II :
① 将聚类中心}{p c 初始化。 ② 随机选取样本向量j x 。
③ 将j x 按距离远近向P i i c 1}{=聚类,即令
p j x '∈θ (3.2.4)
若||||min ||||1p j P
p p j c x c x -=-≤≤'。
④ 调整样本中心p c '(0>η是选定的学习速率):
⎪⎩⎪⎨⎧'≠'=-+= , ),(p p c p p c x c c old p
old
p j old p new p
η (3.2.5)
⑤ 若新旧P p p c 1}{=相差很小,则停止。否则转②。 K-均值聚类算法I 和II 分别是离线和在线学习算法。
下面我们来考虑隐单元个数P 的确定。与第一章中BP 网络的隐层单元个数的确定类似,