最优化方法第四章B-孙文瑜
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章无约束最优化方法
1
主要内容
4.1 最速下降法 4.2 牛顿法 4.3 共轭梯度法 4.4 拟牛顿法
2
4.1 最速下降法
最速下降法是以负梯度方向作为下降方 向的极小化算法, 又称梯度法, 是1874 年 法国科学家Cauchy(柯西)提出的. 最速下降法是无约束最优化中最简单的 方法
2 2 a22 x2 2a 2 n x2 xn ann xn
12
锯齿现象
数值试验表明, 当目标函数的等值线接近于一个圆 (球)时, 最速下降法下降较快; 而当目标函数的等值线是一个扁长的椭球时, 最速 下降法开始几步下降较快, 后来就出现锯齿现象, 下降十分缓慢
T 事实上, 由于精确线性搜索满足g k 1 d k 0 则 T T (4.1.11) gk g d 1 k k 1d k 0
g k cos k 其中, k 是gk与d之间的夹角Fra Baidu bibliotek当 k 0时取极值
(4.1.6)
7
这时
gk d gk
最速下降法的迭代格式为 其中步长因子 k 由线性搜索策略确定.
(4.1.7)
xk 1 xk k g k
(4.1.8)
8
算法4.1.1 (最速下降法)
(4.1.13)
其中1 和 2 分别是矩阵G的最大和最小特征值, 1 / 2 是矩阵G的条件数.
15
在非二次情形, 如果f (x)在x*附近二次连续可微, f ( x * ) 0, 2 f ( x * ) 0 正定, 则(4.1.12)也成立.
16
二次型
n个变量的二次齐次多项式 f ( x1 , x2 ,, xn ) a11 x12 2a12 x1 x2 2a1n x1 xn
这表明最速下降法中相邻两次的搜索方向是相互直 交的, 这就产生了锯齿形状.越接近极小点, 步长越 小, 前进越慢. 13
最速下降法的锯齿现象
x2 x3
x*
x1
14
最速下降法的收敛速度
精确线性搜索的最速下降法的收敛速度是线性的
对于极小化正定二次函数, 法产生的序列满足
f ( x k 1 ) f ( x ) 1 n * f ( xk ) f ( x ) 1 n
3
设目标函数f(x)在xk附近连续可微, 且g k f ( x k ) 0 . 将f(x)在xk处Taylor展开 T f ( x) f ( xk ) g k ( x xk ) o( x xk ) (4.1.1) 记 x xk d k ,则上式可写为 T f ( x) f ( xk ) g k d k o( x xk ) (4.1.2)
T T 可知, 当且仅当dk=-gk时, d k g k最小, d k g k最大, 从而gk 是最速下降方向. 以-gk为下降方向的方法叫最速下降法
5
如何选择下降最快的方向?
f ( x k ) 函数值增加最快的方向
xk
函数值下降的方向
f ( x k ) 函数值下降最快的方向
6
事实上, 最速下降方向也可以这样来考虑. 因为目标函数f 沿方向d 的变化率是g(xk)Td, 故最速下 降的单位方向d是问题 T min g (4.1.4) d kd (4.1.5) d 1 s..t 的解 这时 d T g k d g k cos k
*
1 T min f ( x) x Gx 最速下降 2
1 k 1
2 2
(4.1.12)
x k 1 x * xk x
*
1 1 n 1 n k 1 n 1
步1. 给出 x0 R n ,0 1, k : 0 步2. 计算dk=-gk; 如果 g k , 停止. 步3. 由线性搜索求步长因子 k . 步4. 计算 xk 1 xk k d k 步5. k:=k+1, 转步2 .
9
最速下降法的收敛性
对于最速下降法,θk=0, 因而, 利用定理3.4.3立即可知 最速下降法是总体收敛的.
T d k 0 , 则是下降方向, 它使得 显然, 若 d k 满足 g k
f ( xk d k ) f ( xk )
4
T T g d k 的值越大, 函 当 取定后, k d k的值越小, 即 g k 数f(x)在xk处下降量越大.
由Cauchy-Schwartz(柯西-施瓦)不等式 T dk gk dk gk (4.1.3)
1 2M
g
i 0
2
k
gk 0 . f ( x k ) , 或lim 两边取极限, 于是, 或者 lim k k 11 从而定理成立
最速下降法优缺点
优点:程序设计简单,计算工作量小,存储量小, 对初始点无要求 缺点:最速下降方向仅是局部性质,对整体而言, 下降速度慢,锯齿现象
定理4.1.2 设 f ( x) 在水平集L={x∈Rn|f(x)≤f(x0)}上存 在且一致连续, 则最速下降法产生的序列满足或者对 某个k 有gk=0, 或者f(xk)→-∞, gk→0. 证明:利用定理3.4.3立得.
10
最速下降法的总体收敛性定理
定理4.1.3 设函数f(x)二次连续可微, 且 2 f ( x ) M , 其中M是某个正常数.对任何给定的初始点x0, 最速下 gk 0 f ( x k ) , 或 lim 降算法4.1.1或有限终止, 或 lim k k 证明:考虑无限迭代下去的情形, 由定理3.4.2, 有 1 2 f ( x k ) f ( x k 1 ) gk (4.1.9) 2M k 1 于是 f ( x0 ) f ( xk ) [ f ( xi ) f ( xi 1 )] i 0 (4.1.10) k 1
1
主要内容
4.1 最速下降法 4.2 牛顿法 4.3 共轭梯度法 4.4 拟牛顿法
2
4.1 最速下降法
最速下降法是以负梯度方向作为下降方 向的极小化算法, 又称梯度法, 是1874 年 法国科学家Cauchy(柯西)提出的. 最速下降法是无约束最优化中最简单的 方法
2 2 a22 x2 2a 2 n x2 xn ann xn
12
锯齿现象
数值试验表明, 当目标函数的等值线接近于一个圆 (球)时, 最速下降法下降较快; 而当目标函数的等值线是一个扁长的椭球时, 最速 下降法开始几步下降较快, 后来就出现锯齿现象, 下降十分缓慢
T 事实上, 由于精确线性搜索满足g k 1 d k 0 则 T T (4.1.11) gk g d 1 k k 1d k 0
g k cos k 其中, k 是gk与d之间的夹角Fra Baidu bibliotek当 k 0时取极值
(4.1.6)
7
这时
gk d gk
最速下降法的迭代格式为 其中步长因子 k 由线性搜索策略确定.
(4.1.7)
xk 1 xk k g k
(4.1.8)
8
算法4.1.1 (最速下降法)
(4.1.13)
其中1 和 2 分别是矩阵G的最大和最小特征值, 1 / 2 是矩阵G的条件数.
15
在非二次情形, 如果f (x)在x*附近二次连续可微, f ( x * ) 0, 2 f ( x * ) 0 正定, 则(4.1.12)也成立.
16
二次型
n个变量的二次齐次多项式 f ( x1 , x2 ,, xn ) a11 x12 2a12 x1 x2 2a1n x1 xn
这表明最速下降法中相邻两次的搜索方向是相互直 交的, 这就产生了锯齿形状.越接近极小点, 步长越 小, 前进越慢. 13
最速下降法的锯齿现象
x2 x3
x*
x1
14
最速下降法的收敛速度
精确线性搜索的最速下降法的收敛速度是线性的
对于极小化正定二次函数, 法产生的序列满足
f ( x k 1 ) f ( x ) 1 n * f ( xk ) f ( x ) 1 n
3
设目标函数f(x)在xk附近连续可微, 且g k f ( x k ) 0 . 将f(x)在xk处Taylor展开 T f ( x) f ( xk ) g k ( x xk ) o( x xk ) (4.1.1) 记 x xk d k ,则上式可写为 T f ( x) f ( xk ) g k d k o( x xk ) (4.1.2)
T T 可知, 当且仅当dk=-gk时, d k g k最小, d k g k最大, 从而gk 是最速下降方向. 以-gk为下降方向的方法叫最速下降法
5
如何选择下降最快的方向?
f ( x k ) 函数值增加最快的方向
xk
函数值下降的方向
f ( x k ) 函数值下降最快的方向
6
事实上, 最速下降方向也可以这样来考虑. 因为目标函数f 沿方向d 的变化率是g(xk)Td, 故最速下 降的单位方向d是问题 T min g (4.1.4) d kd (4.1.5) d 1 s..t 的解 这时 d T g k d g k cos k
*
1 T min f ( x) x Gx 最速下降 2
1 k 1
2 2
(4.1.12)
x k 1 x * xk x
*
1 1 n 1 n k 1 n 1
步1. 给出 x0 R n ,0 1, k : 0 步2. 计算dk=-gk; 如果 g k , 停止. 步3. 由线性搜索求步长因子 k . 步4. 计算 xk 1 xk k d k 步5. k:=k+1, 转步2 .
9
最速下降法的收敛性
对于最速下降法,θk=0, 因而, 利用定理3.4.3立即可知 最速下降法是总体收敛的.
T d k 0 , 则是下降方向, 它使得 显然, 若 d k 满足 g k
f ( xk d k ) f ( xk )
4
T T g d k 的值越大, 函 当 取定后, k d k的值越小, 即 g k 数f(x)在xk处下降量越大.
由Cauchy-Schwartz(柯西-施瓦)不等式 T dk gk dk gk (4.1.3)
1 2M
g
i 0
2
k
gk 0 . f ( x k ) , 或lim 两边取极限, 于是, 或者 lim k k 11 从而定理成立
最速下降法优缺点
优点:程序设计简单,计算工作量小,存储量小, 对初始点无要求 缺点:最速下降方向仅是局部性质,对整体而言, 下降速度慢,锯齿现象
定理4.1.2 设 f ( x) 在水平集L={x∈Rn|f(x)≤f(x0)}上存 在且一致连续, 则最速下降法产生的序列满足或者对 某个k 有gk=0, 或者f(xk)→-∞, gk→0. 证明:利用定理3.4.3立得.
10
最速下降法的总体收敛性定理
定理4.1.3 设函数f(x)二次连续可微, 且 2 f ( x ) M , 其中M是某个正常数.对任何给定的初始点x0, 最速下 gk 0 f ( x k ) , 或 lim 降算法4.1.1或有限终止, 或 lim k k 证明:考虑无限迭代下去的情形, 由定理3.4.2, 有 1 2 f ( x k ) f ( x k 1 ) gk (4.1.9) 2M k 1 于是 f ( x0 ) f ( xk ) [ f ( xi ) f ( xi 1 )] i 0 (4.1.10) k 1