第一章--最优化问题与数学预备知识
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 最优化问题与数学预备知识
1. 最优化问题的一般形式
给定目标函数,满足不等式约束及等式约束,记为:
)(min x f X Ω
∈,其中[]T
n x x x x ,...,,21=
)
(,...2,10
)(,...,2,10
)(..n l l j x h m
i x s t s j i <===≥
满足所有约束的向量X 称为容许解或容许点,容许点集合称为容许集。
从最优化问题的一般形式可以看出,最优化要解决的问题就是在容许集中找一点*x ,使目标函数)(x f ,在该点取极小。
这样*x 称为问题的最优点,而相应的目标函数值)(*x f 称为最优值。
2.最优化问题分类
最优化问题可分为静态问题和动态问题两大类,本书只讨论静态问题。
静态最优化问题又可分为无约束问题和约束问题两类。
例:求Rosenbrock 函数大极小点,即{}212212)1()(100min x x x -+-。
这是一个无约束二维问题。
例:求优化问题
{}3214min x x x ++ 422..321=+-x x x t s
0,0,0321≥≥≥x x x 的最优解。
这是一个约束最优化问题。
无约束问题又可分为一维问题及n 维问题,求解一维问题的方法称为一维搜索或直线搜索,在最优化方法中起着十分重要的作用,故单独列出。
约束问题又分为线性规划和非线性规划。
3.二次函数
1)二次函数的一般形
∑∑∑===++==n i n
j n
i i i j i ij n c x b x x q x x x f x f 111
2121),...,,()(
它的矩阵形式是c x b Qx x x f T T ++=2
1
)(
其中⎥⎥⎥⎥
⎦⎤⎢⎢⎢⎢⎣⎡= (2)
1
22221
11211
nn n n n n q q q q q q
q q q Q ,⎥
⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎣⎡=n b b b b (21)
这里Q 是对称矩阵。
我们称特殊的二次函数Qx x x f T 2
1
)(=为二次型。
(无一次项和常数项)
2)正定矩阵
设Q 是n n ⨯阶对称矩阵。
若n R x ∈∀且0≠x 时都有0>Qx x T ,则称矩阵Q 是正定的;
若n R x ∈∀都有0≥Qx x T ,则称矩阵Q 是半正定的; 若n R x ∈∀且0≠x 时都有0<Qx x T ,则称矩阵Q 是负定的。
若n R x ∈∀都有0≤Qx x T ,则称矩阵Q 是半负定的。
一个对称矩阵是不是正定的,可用sylvester 定理判定,该定理内容是。
一个n n ⨯阶对称矩阵Q 是正定矩阵的充分必要条件是,矩阵Q 的各阶主子式都是正的。
3)二次函数的最优解析解
如矩阵Q 是正定矩阵c x b Qx x x f T T ++=2
1)(,)(x f 的等值面是同心椭球面族。
其中心是b Q x 1*--=,还可证明b Q x 1*--=恰是二次目标函数的唯一极小点。
综上所述,对于二次目标函数有有效的求极小点的算法。
该算法也可用于一般目标函数小范围内的最优解搜寻,即当搜索区域位于最优点附近时,该方法是一种有效算法。
最优化理论中判定一个算法的好坏标准之一,就是把该算法用于Q 为正定的二次目标函数,如果能迅速地找到极小点,那就是好的算法;否则就是不好的或不太好的算法。
特别地,当把一个算法应用于Q 为正定的二次目标函数时,如果在有限步内就能求出极小点来,那么这种算法称为二次收敛算法,或具有二次收敛性。
4.梯度与Hessian 矩阵 1)多元函数的可微性与梯度
定义1:对于函数)(x f ,如果存在n 维向量l ,对于任意n 维向量p ,有:
0)()(lim 000=--+→p
p l x f p x f T p ,则称)(x f 在0x 处可微。
显而易见,如)(x f 在0x 处可微,则有:
)()()(00p O p l x f p x f T +=-+
实际上l 就是)(x f 的偏导数向量T
n x x f x x f x x f l ⎥⎦
⎤
⎢
⎣⎡∂∂∂∂∂∂=)(...)(,)
(0201
0 证明如下: 令[]n l l l l ...,,21=;
取i i e p p =,其中i p 是无穷小变量,i e 是第i 个坐标轴上的单位向量,即:
T
i
i e ⎥⎦
⎤⎢⎣⎡=0...,0,1,0...,0
i i i i x i i i p i i p x x f l x x f x x f p x f e p x f p x f e p x f i i ∂∂=
=∇-∇+=-+=-+→∇→→)
()()()()()()(0000
000000
lim lim lim
定义2: 以)(x f 的n 个偏导数为分量的向量称为)(x f 在x 处的梯度,记为
T
n x x f x x f x x f x f ⎥⎦
⎤
⎢⎣⎡∂∂∂∂∂∂=∇)(...,,)(,
)
()(21
因此)()()()(000p O p x f x f p x f T +∇+=+,这个公式与一元函数的Taylor 展开式是相对应的。
2)方向导数
定义: 设f 是定义在n R 中区域上的实值函数,f 在点0x 处可微,p 是固定不变的常量,e 是方向p 上的单位向量,则称极限
t
x f te x f p x f t )
()(lim )(0000-+=∂∂+→为函数)(x f 在点0x 处沿p 方向的方向导数。
若0)
(0<∂∂p
x f ,则)(x f 从0x 出发在其附近沿p 方向是下降的。
若
0)
(0>∂∂p
x f ,则)(x f 从0x 出发在其附近沿p 方向是上升。
事实上,若
0)
(0<∂∂p
x f ,则当0>t 且充分小时,必有
0)()(00<-+t x f te x f ,即)()(0x f x f <,即)(x f 是下降的。
同理可说明,若
0)
(0>∂∂p
x f ,)(x f 是上升的。
定理:设f 是定义在n R 中区域上的实值函数,f 在点0x 处可微,则
e x
f p
x f T )()
(00∇=∂∂,其中e 是p 方向的单位向量。
证明:因为)()()()(000p O p x f x f p x f T +∇=-+
e x
f t
t o e x f t t x f te x f p x f T T t t )()
()(lim )()(lim )(0000000∇=+∇=-+=∂∂+→+→
推论:若0)(0<∇p x f T ,则p 方向是函数)(x f 在点0x 处的下降方向;
若0)(0>∇p x f T ,则p 方向是函数)(x f 在点0x 处的上升方向;
方向导数的正负决定了函数的升降,其绝对值的大小决定函数值升降的快慢。
绝对值越大,升降的速度就越快。
3)最速下降方向
βcos )()()
(000x f e x f p
x f T ∇=∇=∂∂ 其中β是梯度与p 方向的夹角。
因此,函数负梯度方向就是函数的最速下降方向。
4)梯度的性质
①函数在某点的梯度若不为零,则必与过该点的等值面垂直。
②梯度方向是函数具有最大变化率的方向。
③若C x f =)(,则0)(=∇x f ,即0=∇C ④b x b T =∇)( ⑤x x x T 2)(=∇ ⑥Qx Qx x T 2)(=∇ 5) Hessian 矩阵
(1)向量值函数的导数
设g 是定义在n R 中区域上的向量值函数,如果)(x g 的所有分量
)(),...(),(21x g x g x g m 在0x 点都可微,那么向量值函数)(x g 在点0x 处称为可微。
若)(x g 在点0x 处可微,则对于任意的n 维向量p 都有
0)()()(lim 0000=∇--+→p
p x g x g p x g T i i i p
因为向量的极限是通过它所有分量的极限来定义的,所以上式等价于
0)()()(lim
0000=∇--+→p
p
x g x g p x g p
其中)(0x g ∇称为函数)(x g 在点0x 处的导数。
也称函数)(x g 在点0x 处的Jacobi 矩阵。
⎥⎥⎥⎥
⎥⎥⎥
⎥
⎦⎤⎢⎢⎢⎢
⎢⎢⎢⎢
⎣⎡∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡∇∇∇=∇n m m m n n m x x g x x g x x g x x g x x g x
x g x x g x x g x x g g g g x g )(...
)()
(............)(...
)()
()(...
)
()
(...)(02
01
00220210012011012102 设n m =,并且)()(x f x g ∇=,其中)(x f 是n 元函数,假定它具有二阶连续偏导数。
则:
⎥⎥
⎥⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂∂=∇∇=∇2222
1222222212
121222
122
)(...
)()(............)(...)()
()(...)
()
())(()(n n
n
n n x x f x x x f x x x f x x x f x x f x
x x f x x x f x x x f x x f x f x f
在微积分中已经证明过,当)(x f 的所有二阶偏导数连续时,有
i
j j i x x x f x x x f ∂∂∂=
∂∂∂)
()(22,在这种情况下,Hessen 矩阵是对称的。
(2)几个特殊向量的导数
①O c =∇,其中c 是分量全为常数的n 维向量,O 是n n ⨯阶零矩阵。
②I x =∇, ③Q Qx =∇)(
3))()(0tp x f t +=ϕ的一二阶导数
设[])
0()0(2)0(10...,,n
x x x x = )...,,()()0(2)0(21)0(1n n tp x tp x tp x f t +++=ϕ
p tp x f p x tp x f t T i n
i i
)()
()(01
0'
+∇=∂+∂=∑
=ϕ p tp x f p p p x x tp x f p x tp x f dt d t T n
i n i n
j i j i j i i )()()()(02
111020'
'+∇=∂∂+∂=⎥⎦⎤⎢⎣⎡∂+∂=∑∑∑===ϕ 5.多元函数的Taylor 展开式
定理: 设f 是定义在n R 中区域上的实值函数,具有二阶连续偏导数,则:
p x f p p x f x f p x f T T )(2
1)()()(2
∇+
∇+=+ 其中p x x θ+=,而10<<θ 证明:设)()(tp x f t +=ϕ,于是
)()1(),()0(p x f x f +==ϕϕ
按一元函数Taylor 展开定理把)(t ϕ在0=t 点展开,得到
2''')(2
1)0()0()(t t t t θϕϕϕϕ++=,其中10<<θ。
p tp x f t T )()(0'+∇=ϕ,因此p x f T )()0(0'∇=ϕ
p tp x f p t T )()(02''+∇=ϕ,因此p p x f p T )()(02''θθϕ+∇=
代入上式,即得证。
多元函数的Taylor 展开式还可写为:
)()(2
1)()()(22p O p x f p p x f x f p x f T T +∇+
∇+=+ 6.极小点及其判定条件 1)基本定义
邻域定义:对于任意给定的实数0>δ,满足不等式δ<-0x x 的的x 的集合称为点0x 的邻域,记为{}0,:),(00><-=δδδx x x x N
非严格局部极小点:设1:R R D f n →⊂,若存在点D x ∈*和数0>δ,
D x N x ⋂∈∀),(*δ都有)()(*x f x f ≤,则称*x 为)(x f 的非严格局部极小点。
严格局部极小点::设1:R R D f n →⊂,若存在点D x ∈*和数0>δ,
D x N x ⋂∈∀),(*δ但*x x ≠都有)()(*x f x f <,则称*x 为)(x f 的严格局部极小点。
非严格全局极小点:设1:R R D f n →⊂,若存在点D x ∈*和数0>δ,D x ∈∀都有)()(*x f x f ≤,则称*x 为)(x f 的非严格全局极小点。
严格全局极小点:设1:R R D f n →⊂,若存在点D x ∈*和数0>δ,D x ∈∀都有
)()(*x f x f <,则称*x 为)(x f 的严格全局极小点。
在求解最优化问题时,要求求取全局极小点,可先求出所有的局部极小点,再求全局极小点。
2)局部极小点的判定条件
定理1: 设1:R R D f n →⊂具有连续的一阶偏导数。
若*x 是)(x f 的局部极小点并且是D 的内点,则0)(*=∇x f 。
证明:设e 是任意单位向量。
因为*x 是)(x f 的局部极小点,所以存在0>δ,当δ<t 或),(**δx N te x ∈+时总有)()(**x f te x f ≥+
引入一元辅助函数)()(*te x f t +=ϕ
又因为*x 是D 的内点,所以与它对应的0=t 是)(t ϕ的局部极小点。
根据一元函数极小点的必要条件,得0)0('=ϕ,即0)(*=∇e x f 。
由单位向量的任意性,得到0)(*=∇x f 该条件仅仅是必要的,而不是充分的。
定义: 设1:R R D f n →⊂,*x 是D 的内点。
若0)(*=∇x f ,则*x 称为)(x f 的驻点。
定理2: 设1:R R D f n →⊂具有连续的二阶偏导数,*x 是D 的内点。
若
0)(*=∇x f 并且)(*2x f ∇是正定的,则*x 是)(x f 的严格局部极小点。
证明:将)(x f 在点*x 处按Taylor 公式展开得:
)())(()(2
1)()()(2
**2***
x x O x x x f x x p x f x f x f T T
-+-∇-+∇+=
由于0)(*=∇x f ,故有
)())(()(2
1
)()(2**2**x x O x x x f x x x f x f T -+-∇-=
- 显而易见,当x 充分接近*x 时,上式左端的符号取决于右端的第一项,因此有:)()(*x f x f >。
一般说来,这个定理仅具有理论意义。
因为对于复杂的目标函数,Hesse 矩阵不易求得,它的正定性就更难判定了。
论断1:对于具有对称正定矩阵Q 二次函数c x b Qx x x f T T ++=2
1)(,b Q x 1*--=是它唯一的极小点
证明:令0)(=+=∇b Qx x f
b Q x 1*--=
在该点处Q x f =∇)(*2正定。
命题得证。
7.下降迭代算法及其收敛性
迭代算法的必要性:求解)(min x f n
R x ∈的问题可转化为0)(=∇x f ,一般地,这是
一个非线性方程组,与原问题同等困难,为了避开这一难题,可对原有问题直接采用迭代法。
1)下降迭代算法
首先给定目标函数)(x f 的极小点一个初始估计点0x ,然后按一定的规则产生
一个序列{}k x ,这种规则通常称为迭代算法。
2) 降迭代算法的收敛性
如果迭代算法产生的序列的极限恰好是函数)(x f 的极小点,称迭代算法产生的序列收敛于*x 。
3)迭代过程
①选定初始点0x ,置0=k 。
②按某种规则确定搜索方向k p ,使得0)(<∇k T k p x f 。
③按某种规则确定搜索步长k t ,使得)()(k k k k x f p t x f <+ ④计算k k k k p t x x +=+1
⑤若1+k x 满足终止准则,停机,否则置1+=k k ,转②。
4)迭代法中直线搜索
求一元函数极小点的迭代法称为直线搜索或一维搜索,即
)(min )(k k t
tp x f t +=ϕ。
记为),(p x ls z =,表示从点x 出发沿p 方向对目标函数)(x f 作
直线搜索得到的极小点是z 。
定理:若目标函数)(x f 具有连续的偏导数,并且设),(p x ls z =,则0)(=∇p z f T 。
这个定理表明,梯度)(z f ∇必与搜索方向p 正交。
5)收敛速度
定义1:对收敛于解*x 的序列{}k x ,若存在一个与k 无关的数)1,0(∈β,当k 从某个0k 开始使下式成立:**1x x x x k k -≤-+β
则称序列{}k x 为线性(或一阶)收敛。
定义2: 对收敛于解*x 的序列{}k x ,若存在一个与k 无关的数0>β和1>α,当k 从某个0k 开始使下式成立:α
β**
1x
x x x k k -≤-+
11 则称序列{}k x 收敛的阶为α,或称α阶收敛。
当2=α时,称为二阶收敛。
当21<<α时,称为超线性收敛。
一般说来,线性收敛是比较慢的,而二阶收敛则是很快的,超线性收敛居中,如果一个算法具有超线性以上的收敛速度,我们就认为它是一个很好的算法了。
6)计算终止准则
11ε<-+k k
k f f f &&21ε<-+k k k x x x &&3)(ε<∇k x f
习题:
1.设目标函数为c x b Qx x x f T T ++=21)(其中Q 为n n ⨯对称正定阵。
试证:从任意点0x (但0)(0≠∇x f )出发沿)(01x f Q p ∇-=-的方向对)(x f 作直线搜索所得的极小点Z 恰是)(x f 的极小点,而且最优步长因子等于1。
2.设1:R R f n →在点0x 处可微,并设n p p p ,...,21是n R 中线性无关向量组,试证: 若),(00i p x ls x =,n i ,...,2,1=
则0)(0=∇x f 。
问这是否意味着0x 是f 的局部极小。