东北大学最优化方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的圆周上，哪一个点具有最大的或最小的目标函数值。
为了一般地描述函数 f x 在点 x0 处沿 p 方向的变化
情况及变化速度，须引入上升方向和下降方向及方向导数的概念。
函数 f x 在点 x0 处沿 p 方向的变化反映的是函数 f x在一条直线上的变化，空间中由一点 x0 和一方向 p
所确定的直线方程为
其实，a,b aTb a1, a2,
b1
,
an
b2
。
bn
向量也常用希腊字母 , , , ,, 等表示。
向量内积的性质：
ⅰ) , ,（对称性）；
ⅱ) , , , k, k , （线性性）；
ⅲ) , 0 ,当且仅当 0 时，, 0（正定性）；
向量的长 ,
今考虑一点 B ，不妨取坐标为 x0 0,3T。设想有
一动点从 B 出发沿某个方向移动到了点 M ，其坐标
设为 x0 p ，那么目标函数值将产生如下变化量
f x0 p f x0
假定 p 1 。试问：动点沿哪个方向移动会使
目标函数值有最多的下降或上升？
从图上看，这相当于问：在以点 B 为圆心、以1为半径
定理1.2又表明：只要 f x0 T p 0 ，则 p 方向是 f x
在点 x0 处的上升方向；只要 f x0 T p 0，则 p 方向是
f x 在点 x0 处的下降方向。
函数值升降的快慢则是由方向导数绝对值的大小决定的。绝对值越大，升或降的速度就越快；绝对值越小，升或降的速度就越慢。这是因为
2 f x 也称为多元实值函数 f x 的Hesse矩阵。
例1.9 P21
几个特殊的向量值函数的导数公式：
（1）c O ；（2）x I ；
（3） Ax AT ；（4）设 t f x0 tp，其中 f : Rn R1, : R1 R1 。则
t f x0 tpT p,
t pT2 f x0 tp p.
（2）
以向量为变量的实向量值函数最优化问题的一般形式
min f x1, x2, s.t. hi x1, x2,
s j x1, x2,
, xn , xn 0, , xn 0,
i 1, 2, j 1, 2,
min f x
,l(l n) s.t. h x 0
,m
s x 0
（3）
（1）若 f x C ，则 f x 0
（2） bT x b ；
（3） xTQx 2Qx ；
（4） xT x 2x .
，即 C 0 ；
2. Hesse矩阵
问：函数 f x 关于变量 x 的二阶导数又是什么？
先来看什么是向量值函数的可微。
定义1.11 设 g : D Rn Rm, x0 D 若 g x 。的所有分量
第1章预备知识
1.1 经典极值问题 1. 例子， 2. 数学模型第一，无约束极值问题
min f x1, x2, , xn 或 max f x1, x2, , xn
解法：解方程组第二，仅含等式约束的极值问题
min f x1, x2, , xn s.t. hi x1, x2, , xn 0, i 1, 2, ,l(l n)
最优化方法
（最优化课件研制组）
退出
开始
最优化方法
为了使系统达到最优的目标所提出的各种求解方法
称为最优化方法。最优化方法是在第二次世界大战前后，
在军事领域中对导弹、雷达控制的研究中逐渐发展起来的。
最优化方法解决问题一般步骤：（1）提出需要进行最优化的问题，开始收集有关资料和数据；（2）建立求解最优化问题的有关数学模型，确定变量，列出目标函数和有关约束条件；（3）分析模型，选择合适的最优化方法；（4）求解方程。一般通过编制程序在电子计算机上求得最优解；（5）最优解的验证和实施。随着系统科学的发展和各个领域的需求，最优化方法不断地应用于经济、自然、军事和社会研究的各个领域。
意一点 x ，总有
f x* f x
最优点（极小点）x* 最优值 f x* 最优解 x*, f x*
局部
严格极小点非严格极小点
全局
严格极小点非严格极小点
全局极小点一定是局部极小点。到目前为止，大多数最优化算法求到的都是局部极小点。为了求得全局极小点，一种解决办法是，先求出所有的局部极小点，然后再从中找出全局极小点。
g1 x, g x2 , , gm x 在点 x0 都可微，则称向量值函数
g x 在点 x0 处可微。
定义表明，g x 在点 x0 处可微，则
lim gi x0 p gi x0 gi x0 T p 0, i 1, 2, , m
p 0
p
成立，其用向量形式可简单地表示为
lim g x0 p g x0 g x0 T p 0
1.5 梯度和Hesse矩阵
本段讨论都基于对函数 f x 可微的假定。
以下及今后的讨论中还经常要用到以下一些向量的知识。
向量的内积设 a a1, a2, , an T ,b b1,b2, ,bn T ,
则 a1b1 a2b2 anbn 称为向量 a 与 b 的内积，
记作 a,b 。
f x0
p
f
x0
e
cos
f
x0 , p
f x0
p
f
x0
cos
f
x0 , p
f x0
据此有
ⅰ) 等号成立当且仅当 p 与f x0 同方向或与 f x0
同方向。且当
p与
f
x0
同方向时，f x0
p
取到最大值
f x0 。当
p 与 f x0
同方向时，f x0 取到最小值
①有不同函数值的等值面互不相交（因目标函数是单值函数的缘故）；
②等值面不会在区域的内部中断，除了极值点所在的等值面以外。这是由于目标函数是连续函数的缘故；
⑶等值面稠密的地方，目标函数值变化得比较快；等值面稀疏的地方，目标函数值变化得比较慢；
⑷在极值点附近，等值面（等值线）一般近似地呈现为同心椭球面族（椭圆线族）。
f x f x
f
x
T
l
x1
,
x2
,
,
xn
。
定义1.8 以函数 f x 的 n 个偏导数为分量的向量
f x f x
x1
,
x2
,
f x T
,
xn
称为
f
x
在点 x 处的梯度，记为
f x 。
梯度也称为函数 f x 关于变量 x 的一阶偏导数。
于是，（1.10）可写为
f x0 p f x0 f x0 T p o p
利用（4），可得多元函数展开到三项的Taylor公式
f x p f x f x T p 1 pT2 f x p （1.29）
或
f
x
p
f
x f
x T
p1 2
2 pT2 f
x po
p
（1.31）
这个公式与一元函数展开到三项的Taylor公式是相对应的。
p
f x0
ⅱ) 若 f x0 , p 是钝角，则 f x0 0
是锐角，则 f x0 0
p
。
;若
f x0 , p
p
因此，方向导数又可以称为函数 f x在点 x0 处沿 p
方向的变化率。
使函数值下降最快的方向称为最速下降方向。
最速下降方向为
p f x0
例1.8 P19
几个常用函数的梯度公式
4. 极大值问题与极小值问题的关系
max f x
min f x
s.t. h x 0 s.t. h x 0
s x 0
s x 0
x* x*
f f x*
1.4 二维问题图解法
二维极值问题有时可以用图解的方式进行求解，有明显的几何解释。
例求解 min f x, y x 22 y 12
p 0
p
其中
g1 x0
x1
g2 x0
x1
gm x0
x1
g
x0
g1 x0
x2
g2 x0
x2
gm
x0
x2
g1 x0
xn
g2 x0
xn
gm x0
xn
称为向量值函数 g x 在点 x0 处的导数，
而g x0 T 称为向量值函数 g x 在点 x0 处的Jacobi矩阵。
p 0处可微。
若令
f x0 p f x0 l T p
p
便得到（1.9）的等价形式
f x0 p f x0 l T p o p . （1.10）
2.梯度
定理1.1 若 f : Rn R1 在点 x0 处可微，则 f x
在该点关于各个变量的一阶偏导数存在，并且
定义1.9 设 f : Rn R1 在点 x0 处可微， e 是非
零向量 p 方向上的单位向量。如果极限
lim f x0 te f x0
t 0
t
存在，则称其为函数 f x 在点 x0处沿 p 方向的方向导数，
记作 f x0 。
p
思考：f x 与
f x f x f x
,
,,
或 max f x1, x2, , xn s.t. hi x1, x2, , xn 0,
解法：Lagrange乘子法
i 1, 2,
,l(l n)
1.2 实例
数据拟合问题原料切割问题运输问题营养配餐问题分配问题
1.3 基本概念 1. 最优化问题的向量表示法
设 x x1, x2, , xn T 则
单位向量 1
向量的夹角
， ,
arccos ,
0 ,
向量的正交 , , 0 （正交性）
2
1.可微
定义1.7 设 f : D Rn R1, x0 D .如果存在 n 维向量 l ,
对于可任意小的 n 维非零向量 p ，总有
lim f x0 p f x0 l T p 0
的异同。
p
x1 x2
xn
根据极限理论，易见
若
f x0
p
0，则p方向是 f
x
在点
x0 处的上升方向；
若 f x0 0，则 p方向是 f x在点 p
x0
处的下降方向。
因此，方向导数的正负决定了函数值的升降。
定理1.2
设 f : Rn R1 在点 x0 处可微，则
f x0
p
f
x0
T
e
其中 e 是非零向量 p 方向上的单位，向量。
设 f : Rn R1 具有二阶连续偏导数，且 g x f x,
则矩阵
2 f x
x12
2
f
x
f x x1x2
2 f x
x1xn
2 f x
x2x1
2 f x
x22
2 f x
x2xn
2 f x
xnx1
2
f
x
xnx2
2 f x
xn2
称为函数 f x 关于变量 x 的二阶导数，简记为 2 f x 。
min f x1, x2, , xn min f x （1）
以向量为变量的实值函数定义向量间的序关系(定义1.1)：
等于＝，小于，严格小于。由此
min f x1, x2 , , xn s.t. hi x1, x2 , , xn 0,
i 1, 2, ,l(l n)
min f x s.t. h x 0
2. 最优化问题的分类
试验问题：用于检验、比较最优化方法优劣的一些最优化问题。 3. 术语
目标函数 f x 等式约束 h x 0 不等式约束s x 0
容许解（点）容许集 D x h x 0, s x 0
求解问题（3）是指：在容许集 D 中找一点 x*，使得目标函数 f x 在该点取极小值，即对于容许集中的任
这个公式与一元函数展开到两项的Taylor公式是相对的。
梯度的性质：当梯度 f x 连续时，
第一，若 f x 0 ，则 f x 必垂直于 f x 过点
x 处的等值面；
第二，梯度方向是函数具有最大变化率的方向。
下面以 f x1, x2 x12 x22 1 为例来解释这个性质。
上图是该函数的等值线图。
图解法的步骤：
①令 f x, y x 22 y 12 c ，显然 c 0 ；
②取 c 0,1, 4,9, 并画出相应的曲线（称之为等值线）.
③确定极值点位置，并用以往所学方法求之。
易知本题的极小值点 x* 2, 1T。
再复杂点的情形见P13上的例1.7。虽然三维及以上的问题不便于在平面上画图，图解法失效，但仍有相应的等值面的概念，且等值面具有以下性质：
x x0 tp, t R1
上升方向和下降方向设f : Rn R1 是连续函数。
若存在 0 ，对于t 0, 都有 f x0 tp f x0 ，则称
p 方向是 f x 在点 x0 处的上升方向；若存在 0,
对于 t 0, 都有 f x0 tp f x0 ，则称 p 方向是
f x 在点 x0 处的下降方向。