性能曲线和最优点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

神经网络设计 (美)

Martin T. Hagan Howard B. Demuth Mark H. Beale 著 戴葵等译 第八章 性能曲面和最优点

性能指数:衡量网络性能的定量标准。性能指数在网络性能良好的时候,是很小的,反之则很大。在这里我们假设性能指数是已知的,以后讨论性能指数的选择方法。

优化过程的第二步是搜索减小性能指数的参数空间(调整网络权值和偏置值)。 1.泰勒级数

用函数F(x)表示要最小化的性能指数,其中x 是要调整的参数。假设F(x)的各级导数均存在。那么F(x)可表示成灾某些指定点x*伤的泰勒级数展开。

()()()()()()()*

22

2**

()(*)*1*21*!cos()

x x x x n n n

x x d

F x F x F x x x dx d F x x x dx d F x x x n dx F x x ====+

-+-+⋅⋅⋅+-+⋅⋅⋅=

通过泰勒级数展开项的数量,可以用泰勒级数近似估计性能指数,例如设

()()()

12cos(),,n F x x F x F x x x ==⋅⋅⋅

2.向量的情况

神经网络的性能参数并不是一个纯量x 的函数,它是所有网络参数(各个权值和偏置值)的函数,参数的数量可能是很大的。因此要将泰勒级数展开形式扩展为多变量形式。

()()12,,n F x F x x x =⋅⋅⋅

()F x =这个函数在x*的泰勒级数展开为

()()()()()()()()()()()1

11222

*

*

2

2

2

1111222

112

*

*

*

()(*)**11****22n n n F F F x x F x x x x F x x F x x F x x x x x x x x =====∂

=+

-+

-∂∂∂∂∂+⋅⋅⋅+-+-+--+⋅⋅⋅

∂∂∂∂x x x x x x x x x x x x x x x x x

这个表达式有些复杂,可以写成矩阵形式

()()()

()

()()()*

2**1**2

T T

F F F F ===+∇-+-∇-+⋅⋅⋅x x x x x x x x x x x x x x

这里()F ∇x 为梯度,定义为

()12()()()T

n F F F F x x x ⎡⎤∂∂∂

∇=⋅⋅⋅⎢⎥

∂∂∂⎣⎦x x x x

2()F ∇x 为赫森矩阵,其定义为:

222

21121222

222122222

212()()()()()()()()()()n n n n n F F F x x x x x F F F F x x x x x F F F x x x x x ⎡⎤∂∂∂⋅⋅⋅⎢⎥∂∂∂∂∂⎢⎥⎢⎥∂∂∂⋅⋅⋅⎢

⎥∇=∂∂∂∂∂⎢⎥⎢⎥⎢⎥

⎢⎥∂∂∂

⋅⋅⋅⎢⎥∂∂∂∂∂⎣⎦

x x x x x x x x x x

3.方向导数 梯度的第i 个元素

()i

F x ∂

∂x ,

是性能指数F 在i x 轴的一阶导数,赫森矩阵的第i 个对角元素2

2

()i

F x ∂∂x 是性能指数F 沿i x 轴的二阶导数。这就要求我们能够求出函数在任意方向上的一阶、二阶导数。

设为沿p 所求导数方向上的 一个向量,此方向导数可由下式求出:

()

T F ∇p x p

沿p 的二阶导数也可以写成

()22

T F ∇p x p

p

我们观察上面的两个式子会发现,分子部分是方向向量与梯度的内积,所以,最大斜率出现在方向向量和梯度同向时。

4.极小点

强极小点 如果存在某个纯量0δ>,使得当0δ>∆>x 时,对所有∆x 都有

(*)(*)F F <+∆x x x 成立,这个点*x 称为()F x 的强极小点。

换句话说,从一个强极小点出发,沿任意方向移动任何一个小的距离都将使()F x 增大。 全局最小点 如果点*x 使得(*)(*)F F <+∆x x x 对所有的0∆≠x 都成立,则称该点

为全局最小点。

对于一个强极小点*x ,在*x 较小的邻域之外可能会存在比(*)F x 更小的点,故*x 又称局部最小点。对于一个全局最小点,()F x 在参数空间内任何其他点的值都比(*)F x 大。 弱极小点 一个弱极小点,无论向任何方向移动,函数值都不会减小,但可能沿某些方向的值不变。

5.优化的必要条件

定义了最优点后,必须给出这种点需要满足的条件。

()()()()

()*

2***1

2

T T F F F F F ===+∆=+∇∆+∆∇∆+⋅⋅⋅

x x x x x x x x x x

x x x

此处 *∆=-x x x

(1)一阶条件 要使*x 为极小点,则要使函数在0∆≠x 时增大或不减小。这就要求

()

*0T F =∇∆≥x x x x 但是,如果这一项为正,即 ()*

0T F =∇∆>x x x x ,

则推导出:

()()()

()*

***T F F F F =-∆=-∇∆

这是自相矛盾的。所以,只有唯一选择

()

*

0T F =∇∆=x x x x

所以一个极小点处的梯度一定为零,这就是局部极小点的一节必要条件。这个点称之为驻点。

(2)二阶条件 函数()F x 在驻点*x 处的梯度为0,由泰勒级数的展开式可得:

()

2*

0T F =∆∇∆>x x x x x

要使上式对于任意的0∆≠x 成立,赫森矩阵必须为正定矩阵。 正定矩阵定义为:对于任意的向量0≠z 有

0T >z Az

如果对于任意向量z ,有

0T ≥z Az

则称A 为半正定矩阵。

如果所有特征值为正,则矩阵为正定矩阵,如果所有特征值不为负,则矩阵为半正定矩阵。

相关文档
最新文档