性能曲线和最优点

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

神经网络设计（美）

Martin T. Hagan Howard B. Demuth Mark H. Beale 著戴葵等译第八章性能曲面和最优点

性能指数：衡量网络性能的定量标准。性能指数在网络性能良好的时候，是很小的，反之则很大。在这里我们假设性能指数是已知的，以后讨论性能指数的选择方法。

优化过程的第二步是搜索减小性能指数的参数空间（调整网络权值和偏置值）。 1.泰勒级数

用函数F(x)表示要最小化的性能指数，其中x 是要调整的参数。假设F(x)的各级导数均存在。那么F(x)可表示成灾某些指定点x*伤的泰勒级数展开。

()()()()()()()*

2**

()(*)*1*21*!cos()

x x x x n n n

x x d

F x F x F x x x dx d F x x x dx d F x x x n dx F x x ====+

-+-+⋅⋅⋅+-+⋅⋅⋅=

通过泰勒级数展开项的数量，可以用泰勒级数近似估计性能指数，例如设

()()()

12cos(),,n F x x F x F x x x ==⋅⋅⋅

2.向量的情况

神经网络的性能参数并不是一个纯量x 的函数，它是所有网络参数（各个权值和偏置值）的函数，参数的数量可能是很大的。因此要将泰勒级数展开形式扩展为多变量形式。

()()12,,n F x F x x x =⋅⋅⋅

()F x =这个函数在x*的泰勒级数展开为

()()()()()()()()()()()1

11222

1111222

112

()(*)**11****22n n n F F F x x F x x x x F x x F x x F x x x x x x x x =====∂

∂

-∂∂∂∂∂+⋅⋅⋅+-+-+--+⋅⋅⋅

∂∂∂∂x x x x x x x x x x x x x x x x x

这个表达式有些复杂，可以写成矩阵形式

()()()

()

()()()*

2**1**2

T T

F F F F ===+∇-+-∇-+⋅⋅⋅x x x x x x x x x x x x x x

这里()F ∇x 为梯度，定义为

()12()()()T

n F F F F x x x ⎡⎤∂∂∂

∇=⋅⋅⋅⎢⎥

∂∂∂⎣⎦x x x x

2()F ∇x 为赫森矩阵，其定义为：

222

21121222

222122222

212()()()()()()()()()()n n n n n F F F x x x x x F F F F x x x x x F F F x x x x x ⎡⎤∂∂∂⋅⋅⋅⎢⎥∂∂∂∂∂⎢⎥⎢⎥∂∂∂⋅⋅⋅⎢

⎥∇=∂∂∂∂∂⎢⎥⎢⎥⎢⎥

⎢⎥∂∂∂

⋅⋅⋅⎢⎥∂∂∂∂∂⎣⎦

x x x x x x x x x x

3.方向导数梯度的第i 个元素

()i

F x ∂

∂x ，

是性能指数F 在i x 轴的一阶导数，赫森矩阵的第i 个对角元素2

()i

F x ∂∂x 是性能指数F 沿i x 轴的二阶导数。这就要求我们能够求出函数在任意方向上的一阶、二阶导数。

设为沿p 所求导数方向上的一个向量，此方向导数可由下式求出：

()

T F ∇p x p

沿p 的二阶导数也可以写成

()22

T F ∇p x p

我们观察上面的两个式子会发现，分子部分是方向向量与梯度的内积，所以，最大斜率出现在方向向量和梯度同向时。

4.极小点

强极小点如果存在某个纯量0δ>，使得当0δ>∆>x 时，对所有∆x 都有

(*)(*)F F <+∆x x x 成立，这个点*x 称为()F x 的强极小点。

换句话说，从一个强极小点出发，沿任意方向移动任何一个小的距离都将使()F x 增大。全局最小点如果点*x 使得(*)(*)F F <+∆x x x 对所有的0∆≠x 都成立，则称该点

为全局最小点。

对于一个强极小点*x ，在*x 较小的邻域之外可能会存在比(*)F x 更小的点，故*x 又称局部最小点。对于一个全局最小点，()F x 在参数空间内任何其他点的值都比(*)F x 大。弱极小点一个弱极小点，无论向任何方向移动，函数值都不会减小，但可能沿某些方向的值不变。

5.优化的必要条件

定义了最优点后，必须给出这种点需要满足的条件。

()()()()

()*

2***1

T T F F F F F ===+∆=+∇∆+∆∇∆+⋅⋅⋅

x x x x x x x x x x

x x x

此处 *∆=-x x x

（1）一阶条件要使*x 为极小点，则要使函数在0∆≠x 时增大或不减小。这就要求

()

*0T F =∇∆≥x x x x 但是，如果这一项为正，即 ()*

0T F =∇∆>x x x x ，

则推导出：

()()()

()*

***T F F F F =-∆=-∇∆

这是自相矛盾的。所以，只有唯一选择

()

0T F =∇∆=x x x x

所以一个极小点处的梯度一定为零，这就是局部极小点的一节必要条件。这个点称之为驻点。

（2）二阶条件函数()F x 在驻点*x 处的梯度为0，由泰勒级数的展开式可得：

()

0T F =∆∇∆>x x x x x

要使上式对于任意的0∆≠x 成立，赫森矩阵必须为正定矩阵。正定矩阵定义为：对于任意的向量0≠z 有

0T >z Az

如果对于任意向量z ，有

0T ≥z Az

则称A 为半正定矩阵。

如果所有特征值为正，则矩阵为正定矩阵，如果所有特征值不为负，则矩阵为半正定矩阵。