性能曲线和最优点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
神经网络设计 (美)
Martin T. Hagan Howard B. Demuth Mark H. Beale 著 戴葵等译 第八章 性能曲面和最优点
性能指数:衡量网络性能的定量标准。性能指数在网络性能良好的时候,是很小的,反之则很大。在这里我们假设性能指数是已知的,以后讨论性能指数的选择方法。
优化过程的第二步是搜索减小性能指数的参数空间(调整网络权值和偏置值)。 1.泰勒级数
用函数F(x)表示要最小化的性能指数,其中x 是要调整的参数。假设F(x)的各级导数均存在。那么F(x)可表示成灾某些指定点x*伤的泰勒级数展开。
()()()()()()()*
22
2**
()(*)*1*21*!cos()
x x x x n n n
x x d
F x F x F x x x dx d F x x x dx d F x x x n dx F x x ====+
-+-+⋅⋅⋅+-+⋅⋅⋅=
通过泰勒级数展开项的数量,可以用泰勒级数近似估计性能指数,例如设
()()()
12cos(),,n F x x F x F x x x ==⋅⋅⋅
2.向量的情况
神经网络的性能参数并不是一个纯量x 的函数,它是所有网络参数(各个权值和偏置值)的函数,参数的数量可能是很大的。因此要将泰勒级数展开形式扩展为多变量形式。
()()12,,n F x F x x x =⋅⋅⋅
()F x =这个函数在x*的泰勒级数展开为
()()()()()()()()()()()1
11222
*
*
2
2
2
1111222
112
*
*
*
()(*)**11****22n n n F F F x x F x x x x F x x F x x F x x x x x x x x =====∂
∂
=+
-+
-∂∂∂∂∂+⋅⋅⋅+-+-+--+⋅⋅⋅
∂∂∂∂x x x x x x x x x x x x x x x x x
这个表达式有些复杂,可以写成矩阵形式
()()()
()
()()()*
2**1**2
T T
F F F F ===+∇-+-∇-+⋅⋅⋅x x x x x x x x x x x x x x
这里()F ∇x 为梯度,定义为
()12()()()T
n F F F F x x x ⎡⎤∂∂∂
∇=⋅⋅⋅⎢⎥
∂∂∂⎣⎦x x x x
2()F ∇x 为赫森矩阵,其定义为:
222
21121222
222122222
212()()()()()()()()()()n n n n n F F F x x x x x F F F F x x x x x F F F x x x x x ⎡⎤∂∂∂⋅⋅⋅⎢⎥∂∂∂∂∂⎢⎥⎢⎥∂∂∂⋅⋅⋅⎢
⎥∇=∂∂∂∂∂⎢⎥⎢⎥⎢⎥
⎢⎥∂∂∂
⋅⋅⋅⎢⎥∂∂∂∂∂⎣⎦
x x x x x x x x x x
3.方向导数 梯度的第i 个元素
()i
F x ∂
∂x ,
是性能指数F 在i x 轴的一阶导数,赫森矩阵的第i 个对角元素2
2
()i
F x ∂∂x 是性能指数F 沿i x 轴的二阶导数。这就要求我们能够求出函数在任意方向上的一阶、二阶导数。
设为沿p 所求导数方向上的 一个向量,此方向导数可由下式求出:
()
T F ∇p x p
沿p 的二阶导数也可以写成
()22
T F ∇p x p
p
我们观察上面的两个式子会发现,分子部分是方向向量与梯度的内积,所以,最大斜率出现在方向向量和梯度同向时。
4.极小点
强极小点 如果存在某个纯量0δ>,使得当0δ>∆>x 时,对所有∆x 都有
(*)(*)F F <+∆x x x 成立,这个点*x 称为()F x 的强极小点。
换句话说,从一个强极小点出发,沿任意方向移动任何一个小的距离都将使()F x 增大。 全局最小点 如果点*x 使得(*)(*)F F <+∆x x x 对所有的0∆≠x 都成立,则称该点
为全局最小点。
对于一个强极小点*x ,在*x 较小的邻域之外可能会存在比(*)F x 更小的点,故*x 又称局部最小点。对于一个全局最小点,()F x 在参数空间内任何其他点的值都比(*)F x 大。 弱极小点 一个弱极小点,无论向任何方向移动,函数值都不会减小,但可能沿某些方向的值不变。
5.优化的必要条件
定义了最优点后,必须给出这种点需要满足的条件。
()()()()
()*
2***1
2
T T F F F F F ===+∆=+∇∆+∆∇∆+⋅⋅⋅
x x x x x x x x x x
x x x
此处 *∆=-x x x
(1)一阶条件 要使*x 为极小点,则要使函数在0∆≠x 时增大或不减小。这就要求
()
*0T F =∇∆≥x x x x 但是,如果这一项为正,即 ()*
0T F =∇∆>x x x x ,
则推导出:
()()()
()*
***T F F F F =-∆=-∇∆ 这是自相矛盾的。所以,只有唯一选择 () * 0T F =∇∆=x x x x 所以一个极小点处的梯度一定为零,这就是局部极小点的一节必要条件。这个点称之为驻点。 (2)二阶条件 函数()F x 在驻点*x 处的梯度为0,由泰勒级数的展开式可得: () 2* 0T F =∆∇∆>x x x x x 要使上式对于任意的0∆≠x 成立,赫森矩阵必须为正定矩阵。 正定矩阵定义为:对于任意的向量0≠z 有 0T >z Az 如果对于任意向量z ,有 0T ≥z Az 则称A 为半正定矩阵。 如果所有特征值为正,则矩阵为正定矩阵,如果所有特征值不为负,则矩阵为半正定矩阵。