第二章 (2)最速下降法-Newton法-共轭梯度法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
xk1 xk +k d k xk kf (xk )
单位向量
负梯度方向 d k f (xk ) 是函数值减少最快的方向 。
f (x)T d k f (x) d k cos(f (x), d k )
二、最速下降法
最速下降法的计算流程
(1) 选定某一初始点 x0 , 0并令 k: 0 (2) 若 f (xk ) , x* xk,否则转(3);
椭圆等值线逼近目标函数等值线!
三、Newton法
Newton法的计算步骤
已知目标函数 f x , 给定误差限 .
步骤1. 选定初始点 x0 , 计算 f0 f x0 , k : 0
步骤2. 如果 f xk ,算法停止,x* xk ,否
则转步骤3。
步长确定
充分靠近 x* 时,对于一切 k , 牛顿迭代有意义, 迭代序列 xk 收敛到 x* , 并且具有二阶收敛速度。
局部收敛性
三、Newton法
例1:用Newton法求 f x1,x2 x12 25x22 的极小点。
解:取初始点 x0 2, 2T 则:
f
开始取负梯度方向,每两步用 d k xk xk2 产生新
的搜索方向,然后继续使用最速下降方向。两种方向 交替使用,实践效果优于单纯使用最速下降方向。
可以利用最速下降法初期搜索效率高的特性,首先使 用最速下降法,然后使用其它局部收敛速度快的计算 方式。
三、Newton法
算法的基本思路
考虑从 xk 到 xk1 的迭代过程,在 xk 点处对函数 f x
f x* 0 假定 2 f x* 正定,且海赛阵
������������ = ������2������ ������������ 满足Lipschitz条件,即存在 0,
使得对于所有 1 i, j n 有:
Gij x Gij y x y , x, y Rn 其中 Gij x 是海赛阵 ������������ 的 i, j 元素, 则当 x0
' (k ) f (xk k d k )T d k 0
由此得出
f (xk ) d k
0=f (xk k d k )T d k =f (xk +1)T d k = (d k +1)T d k
最速下降法在两个相邻点之间的搜索方向是正交的。
最速下降法向极小点逼近是曲折前进的,这种现象称为
1
( gkT gk )2
(
gkT
Gg
k
)(
g
T k
G
1
gk
)
再由Kantorvich不等式,定理得证.
二、最速下降法
最速下降法的改进
选择不同初始点
min f (x) x12 25x22
取初始点 x0 2, 2T ,经过10次迭代,得最优解。
若取 x0 (100, 0)T ,仅需迭代1次即得最优解。
(3) d k f (xk ) (4) 由精确一维搜索确定步长步长 k ,即由一个极小化
问题求得最佳步长 min f (xk d k ) 0
令 xk1 xk kd k , k k 1, 转(2)。
二、最速下降法
例1. 利用最速下降法求解 min f (x) x12 2x22 2x1x2 4x1,
xk+1 xk 2 f xk
1
f
xk
Newton法
以此 xk1 作为 f x 极小点 x* 的一个新的近似。此公式
即为多元函数求极值的Newton迭代公式。
目标函数
Newton法的几何意义
等值线
二次函数 Q x 的等值线为
椭圆族。xk1 为椭圆中心。
+0d
0
=
1 1
+1/4
4 2
=
2 1/2
,
f
x1
1
2
,
第2次迭代:
d1= f
x1
1 2
,
x1
+
d
1
=
2+ 1/2+2
,
()=f x1+d1 =f 2+,1/2+2
f (xk ) f (x*)
f (x*)
1
1 ( gkT gk )2
2 gkTGgk
1 2
xkGxk
b xk
1 2
bG 1b
( gkT gk )2
1
(Gxk
gkT Ggk b) G1(Gxk
b)
所以
1
( gkT gk )2
(
gkT
Gg
k
)(
g
T k
G
1
gk
)
|| xk1 x* ||G2 || xk x* ||G2
二、最速下降法
定义: 设G Rnn 对称正定,u,v Rn ,则 u,v 在G 度量意义下
的内积 (uTv)G定义为
(uT v)G uTGv
u 在 G 度量意义下的范数 u 2 定义为 G
u 2 uTGu
G
定理:u,v Rn, G 度量意义下的Cauchy-Schwarz不等式
一
一维搜索
下二
降 算
三
法四
最速下降法 Newton法
共轭梯度法
五 多尺度法 (拟Newton法)
二、最速下降法
假设 f 连续可微,取
d k f (xk )
线搜索方向
f
(xk
k d k )
min 0
f
(xk
dk )
步长k 由精确一维搜索得到。
从而得到第 k+1次迭代点,即
,
(
)=f
x0 +d 0
=f 1+4,1 2
= 1+4 2 21 2 2 21+4 1 2 41+4
=402 20 3 令 0='() 80 20, 得 0 =1/4,
二、最速下降法
x1 =x0
,
f
x2
2
1
,
继续迭代可得到函数的近似最优解……
二、最速下降法
最速下降法的收敛性分析 (收敛性定理)设目标函数 f (x)连续可微,且水平集
L x f (x) f (x0 ) 有界,则最速下降法或者在有限迭代步
后终止;或者得到点列 xk ,它的任何聚点都是f (x)的驻点。
取初始向量 x0 1,1T .
解:函数的梯度为
f
(
x)
2
x1 2x2 2 x1 +4x2
4
,
第1次迭代:
f
x0
4
2
,
d 0 = f
x0
4 2
,
x0
+
d
0
=
1+4 1 2
(推论)在收敛定理的假设下,若f (x)为凸函数,则最速下降
法或在有限迭代步后达到最小点;或得到点列 xk ,它的任
何聚点都是 f (x)的全局最小点。
二、最速下降法
最速下降法特征:相邻两次迭代的方向互相垂直。
令 () f (xk d k ), 利用精确一维搜索,可得
证明:由k
和
f (xk
k gk ) 的表达式知,f (xk1)
f (xk )
1 2
(
g
T k
gk
)2
gkT Ggk
由Gx* b得f (x*) 1 bG1b, 从而
2
f ( xk1) f ( x*) f (xk ) f (x*)
f
(xk )
1 2
( gkT gk )2 gkT Ggk
Tayloy展开:
f (x) f (xk ) f xk T x xk
略去高阶项
1 x xk T 2 f xk
x xk
o(
x
xk
2
)
2
f (x) Q(x) f (xk ) f xk T x xk 1 x xk T 2 f xk x xk 2
步骤3. 计算搜索方向 d k 2 f
xk
1
f
xk
步骤4. 令 xk1 xk d k , k k 1,转步骤2.
线性方程组
2 f xk d k = -f xk
三、Newton法
基本牛顿法收敛性
定理: 设 f x 二次连续可微,x* 是 f x 的局部极小点,
= 2+ 2 21/2+2 2 22+ 1/2+2 42+ ,
=52 5 11/2
令 0='() 10 5, 得 1=1/2,
x2
Leabharlann Baidu
=x1 +1d 1 =
2
1/2
+1/2
1
2
=
5/2 3/2
x0
2x1 50x2
|x0
4 100
,
2
f
x0
2 0
0 50
代入Newton迭代公式得:
1
x1 x0 2 f x0 1 f
此即为问题的最优点
x0
2 2
2 0
0
锯齿现象。
影响收敛 速度!!
二、最速下降法
最速下降法收敛速度慢! 在最速下降法中,利用精确一维 搜索求最佳步长,使得相邻两次迭代 的搜索方向总是垂直的, 使得逼近极小点过程是“之”字形,
x2 d2
x0
d1 d 0 x1
这样从任何一个初始点开始,都可以很快到达极小点附 近,但是越靠近极小点步长越小,移动越慢,导致最速下降 法的收敛速度很慢。
gk
二、最速下降法
由G度量下的范数定义及极小点x*满足的方程组Gx+b=0
1 2
xk x*
2
G
f (xk )
f (x*)
证明:
说明:在G度量 意义下,xk的误 差等价于目标函
数 f ( xk )的误差!
二、最速下降法
定理:对于正定二次函数,最速下降法的收敛速度为
xk 1
x*
2 G
的最大和最小特征值
对于正定二次函数 f (x) 1 xTGx bT x
步长
2
最速下降法的下一个迭代点,
xk 1
xk
gkT gk gkT Ggk
gk
二、最速下降法
其中:
二、最速下降法
得最速下降法的步长
k
gkT gk gkT Ggk
从而下一个迭代点为
xk 1
xk
gkT gk gkT Ggk
uTGv u v GG
G 对称正定, 当且仅当 u,v 共线时等式成立
二、最速下降法
定理:(Kantorovich不等式) G 对称正定,x Rn \0 ,有
(xT
(xT x)2 Gx)( xT G 1 x)
4max min (max min
)2
其中������max、������min分别为G
xk
x*
2 G
(max max
min )2 min
最速下降法与线性方程组条件数关系
证明过程见下页
cond (G) G G1 ,
G G1 max
2
2 min
max min cond (G) 1 max min cond (G) 1
最速下降法的收敛速度 依赖于G的条件数。
造成锯齿现象与初始点的选择有关,但选取困难! 采用不精确的一维搜索 采用非精确一维搜索求步长, 可使相邻两个迭代点处的 梯度不正交,从而改变收敛性。
二、最速下降法
采用加速梯度法
负梯度方向和 d k xk xk2 结合。
由于最速下降法在极小点附近成“锯齿”状,因此下 降过程中的搜索方向可适时改变搜索方向的正交特性。
实际运用中,在可行的计算时间内可能得不到需要的结果。
二、最速下降法
最速下降法的优缺点 优点:理论明确,程序简单,每次的计算量小,所需
的存储量小,对初始点要求不严格。 缺点:收敛速度并不快,因为最速下降方向仅仅是指
某点的一个局部性质。 一些有效算法是通过对它的改进或利用它与其他收敛快
的算法结合而得到的,因此它是无约束优化的方法之一。
令 Q x f xk 2 f xk x xk 0 ,有
三、Newton法
2 f xk x xk = f xk
若Hesse矩阵2 f xk 正定,则 2 f xk 1存在,由此求出
二次函数Q x的极小点为 :
4