神经网络及应用第四章径向基函数神经网络
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.2 正则化RBF网络
4.2.1 正则化理论
–
4.2 正则化RBF网络
寻找逼近函数的传统方法
Min Es ( F ) = 1 P 1 P (d p − y p ) 2 = ∑ ( d p − F ( X p )) 2 ∑ 2 p =1 2 p =1
1963年,Rikhonov提出了正则化理论 (Regularization Theory)来解决不适定问题。 正则化的基本思想: 通过加入一个含有解的先验知识的约束来控制 映射函数的光滑性,若输入-输出映射函数是光 滑的,则重建问题的解是连续的。
0.4 0.2 F(x) using triangular rbfs
0
-0.2
σ称为该基函数的扩展常数或宽度,径向基函数的宽度越小,就 越有选择性
-0.4
-3
-2
-1
0
1
2
3
4.1 径向基函数技术
2.使用Gauss函数
ϕ ( x − xi ) =
1 2π exp(− x − xi / 2) e w1 w 2 2 − 1+ 0.5 / 2 w3 e 1 -1.8051 ⇒w= 2.4323 -1.0454
2
4.2 正则化RBF网络
为格林函数,如果D具有平移不变性和旋转不 变性,则
G ( X, X p )
G ( X, X p ) = G ( X − X p )
λ是正实数,称为正则化参数,控制着正则化项的相 对重要性,从而也控制着函数的光滑程度。 直接给出插值问题的正则化的解为:
F ( X ) = ∑ w p G ( Xபைடு நூலகம் X p )
1/ 2
2
4.1 径向基函数技术
4.1 径向基函数技术
例:F(–1) = 0.2, F(–0.5) = 0.5, F(1) = –0.5. 1. 使用三角基函数 0.6 ϕ (r ) = (1 − r )[u (r ) − u ( r − 1)]
1 r ≥ 0 u (r ) = 0 r < 0 F ( x) = w1ϕ ( x + 1 ) + w2ϕ ( x + 0.5 ) + w3ϕ ( x − 1) 1 0.5 0 w1 0.2 0.5 1 0 w = 0.5 2 0 -0.5 0 1 w3 ⇒ w = [-1/15 8/15 -1/2]
− −1+ 0.5 / 2
2
4.1 径向基函数技术
F(x) using Gaussian rbfs
4.1.3 完全内插方案存在的问题
1)由于插值曲面必须通过所有训练数据点,当训练数 据中存在噪声时,神经网络将拟合出一个错误的插值 曲面,从而使其泛化能力下降 2)由于径向基函数的数量与训练样本数量相等,当训 练样本数远远大于物理过程中固有的自由度时,问题 就成为超定的。
4.4 RBF网络常用学习算法
结构设计
–
如何确定网络隐节点数
XOR问题的4个模式在输入空间和隐空间的分布
4.3 广义RBF网络
4.3.2 广义RBF网络 由于正则化网络的训练样本与“基函数”是一一对应 的,当样本数P很大时,实现网络的计算量将大得惊 人。 此外,P很大则权值矩阵也很大,求解网络的权值时 容易产生病态问题(ill conditioning)。 为解决这一问题,可减少隐节点的个数,即N<M<P, N为样本维数,P为样本个数,从而得到广义RBF网络
4.3 广义RBF网络
则由线性方程 W T ϕ ( X ) = 0 确定了M维ϕ 空间中的一个分 界超平面,这个超平面使得映射到M维ϕ 空间中的P个 点在 ϕ 空间是线性可分的。 而在N维X空间,方程 W T ϕ ( X ) = 0 描述的是X空间的一 个超曲面,这个超曲面使得原来在X空间非线性可分 的P个模式点分为两类,此时称原空间的P个模式点是 可分得。
∑ w ϕ( X
p p =1
2
M
–
∑ w ϕ( X
p p =1
P
P
− X p ) = dP
4.1 径向基函数技术
i = 1, 2,..., P, 令 ϕip = ϕ ( X i − X p ), 则上述方程组可改写为:
ϕ11 ϕ12 ϕ 21 ϕ22 M M ϕ P1 ϕ P 2 ... ϕ1P w1 d1 w d ... ϕ2 P 2 = 2 M M M ... ϕ PP wp d p
4.3 广义RBF网络
模式的可分性 Cover定理:将复杂的模式分类问题非线性地 定理 投射到高维空间将比低维空间更可能是线性可 分。
–
引申:非线性可分问题可能通过非线性变换获得解 决
4.3 广义RBF网络
设由一组函数构成的向量
ϕ ( X ) = [ϕ1 ( X ), ϕ 2 ( X ),..., ϕ M ( X )]
∑ w ϕ( X
p p =1 P
P
1
− X p ) = d1 − X p ) = d2
–
ϕ 为以输入空间的点X与中心Xp的距离作为函数自 变量非线性函数,训练数据点Xp是ϕ 的中心。
基于径向基函数技术的插值函数定义为基函数的线 性组合 P
F ( X ) = ∑ w pϕ ( X − X p )
p =1
4.2 正则化RBF网络
N-P-l 结构的正则化RBF网络
5
4.2 正则化RBF网络
正则化网络的3个性质: 个性质: 1)正则化网络是一种通用币近期,只要有足够的隐节 点,可以以任意精度逼近紧集上的任意多元连续函 数; 2)具有最佳逼近特性,即任给一个未知的非线性函数 f,总可以找到一组权值使得正则化网络对于f的逼 近优于其他可能的选择; 3)正则化网络得到的解是最佳的,所谓“最佳”体现在 同时满足对样本的逼近误差和逼近曲线平滑性。
4.1 径向基函数技术
1963年,Davis提出高维空间的多变量插值理 论 20世纪80年代,Powell在解决“多变量有限点 严格(精确)插值问题”时引入径向基函数技 术 径向基函数(Radial Basis Function,RBF )
4.1 径向基函数技术
4.1.1 插值问题
–
–
– –
设N维空间有P个输入向量Xp,p=1,2,…,P, 他们在输 出空间相应的目标值为dp, p=1,2,…,P, P对输入-输出 样本构成了训练样本集 插值的目的:寻找一个非线性映射函数 F(X),使其 插值的目的 满足下述插值条件 F(Xp)= dp, p=1,2,…,P, 函数F描述了一个插值曲面 严格插值( 严格插值(精确插值) 精确插值):是一种完全内插,即该插 值曲面必须通过所有训练数据点
令Φ Φ表示元素为 ϕip的P*P阶矩阵,W和d分别表示系数向 量和期望输出向量,则有 ΦW =d Φ被称为插值矩阵,若Φ Φ可逆,则 W = Φ-1d
ϕ (r ) =
1
σ2 3) Inverse multi-quadrics (拟多二次)函数
ϕ (r ) =
1
1 + exp(
r2
)
(r
2
+σ 2 )
第4章径向基函数神经网络
径向基函数技术 正则化RBF网络 广义RBF网络 RBF网络常用算法 RBF网络的设计与应用实例
全局逼近与局部逼近
全局逼近网络:神经网络的一个或多个可调参数(权 全局逼近网络 值和阈值)对任何一个输出都有影响 – 学习速度慢,不适合有实时性要求的应用 局部逼近网络:对网络输入空间的某个局部区域只有 局部逼近网络 少数几个连接权影响网络的输出 – 学习速度快
4.1 径向基函数技术
p = 1, 2,..., P
Micchelli定理:对于一大类函数,如果X1,X2,…, Xp 各不相同,则P*P阶插值矩阵是可逆的。 满足Micchelli定理的部分函数:
1) Gauss (高斯)函数 r2 ϕ (r ) = exp( − 2 ) 2σ 2) Reflected Sigmoidal (反演S型)函数
4.3 广义RBF网络
ϕ 2 ( X ) = e − X −C , C 2 = (0, 0)T
2
2
轮流以XOR问题的4个问题作为2个隐节点激活函数的输入,其对 应的4个输出为 (0, 0) (0.1353, 1) (0, 1) (0.3678, 0.3678) (1, 0) (0.3678, 0.3678) (1, 1) (1, 0.1353)
将原来N维空间的P个模式点映射到新的M维空间 (M>N)的相应点上,如果在该M维 ϕ 空间存在M维 向量W,使得
W T ϕ ( X ) > 0, T W ϕ ( X ) < 0, X ∈ F1 X ∈F2
6
4.3 广义RBF网络
例:XOR问题
XOR问题的4个模式在二维输入空间的分布是非线性可分的,设 计一个单隐层神经网络,定义其2个隐节点的激活函数为Gauss函 数 2 ϕ1 ( X ) = e − X −C1 , C1 = (1,1)T
1
4.1 径向基函数技术
4.1.2 径向基函数技术解决插值问题
–
4.1 径向基函数技术
代入插值条件F(Xp)= dp, p=1,2,…,P,有如下关于P个未 知系数wp的线性方程组
选择P个基函数,每个基函数对应一个训练数据, 各基函数形式为:
ϕ ( X − X p ), p = 1, 2,..., P
p =1 P
则
F ( X ) = ∑ w p G( X − X p )
p =1
P
常用格林函数: 多元Gauss函数
G ( X − X p ) = exp(− X−Xp 2σ
2 p 2
)
4.2 正则化RBF网络
4.2.2 正则化RBF网络 正则化网络:基于上述正则化理论的RBF网络 特点: 隐节点数等于输入样本数 隐节点的激活函数为格林函数,常用多元Gauss 函数 所有输入样本设为径向基函数的中心,各径向 基函数取统一的扩展常数
根据全部或部分已知系统和输出求输入 在全部或部分已知输入与输出的情况下求系统
4.1 径向基函数技术
适定的( 适定的(well-posed) – 如果f重建问题满足下面3个条件:
解的存在性 解的唯一性 解的联系性
不适定的( 不适定的(ill-posed) – 如果有一个条件不满足,则为不适定的
* 如果使用对解的先验知识作为约束,很多不适定问题是可以解答 的
2
3
1 1 − −0.5 +1 2 / 2 e 2π − 1+1 2 / 2 e 0.2 = 0.5 -0.5
e
− −1−1 / 2
2
2
2
1
e
− 0.5 −1 / 2
1
0
-1
-2 -3
-2
-1
0
1
2
3
3
4.1 径向基函数技术
正问题( 正问题(direct problem) – 根据物理规律由已知参数来推测及计算观测得到的 资料与数据 – 输入 系统 输出 反问题( 反问题(inverse problem) – 由结果推测原因
–
正则化方法则在标准误差项基础上增加了一个控制逼 近函数光滑程度的项,称为正则化项,该正则化项体 现了逼近函数的“几何”特性,即
1 2 DF 2 D是线性微分算子,代表了对F (X )的先验知识,D与所解问题相关 Ec ( F ) =
4
4.2 正则化RBF网络
正则化理论要求
Min 1 P1 1 E ( F ) = Es ( F ) + λ Ec ( F ) = ∑ ( d p − F ( X p )) 2 + λ DF 2 p =1 2
4.3 广义RBF网络
广义RBF网络的基本思想 基本思想: 基本思想 用径向基函数作为隐单元的“基”,构成隐层空间。隐 层对输入向量进行变换,将低维空间的模式变换到高 维空间内,使得在低维空间内的线性不可分问题在高 维空间内线性可分。
输出层选用线性激活函数 基函数,一般选用格林函数
1)
2)
广义RBF网络
7
4.3 广义RBF网络
广义RBF网络与正则化RBF网络的几点不同: 1)径向基函数的个数M与样本的个数N不相等,且M常 常小于 N; 2)径向基函数的中心不再限制在数据点上,而是由训 练算法确定; 3)各径向基函数的扩展函数不再统一,其值由训练算 法确定; 4)输出函数的线性中包含阈值函数,用于补偿基函数 在样本集上的平均值与目标值之平均值之间的差 别。