最优化:最速下降法和Newton法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定理 3.1.1 设假设 2.4.1的条件成立 , 那么采用精确搜索 , 或 Armijo搜索或 Wolfe- P owell搜索的最速下降法产生 的迭 代序列{xk }满足 lim || f ( xk ) || 0
k
由前面的例子看到, 最速下降法的收敛速度至多是线性的, 具体 见下面的两个定理.
第一节
最速下降法
最古老的优化方法,十九世纪中叶由Cauchy提出
1、 思想 :每次沿负梯度方向进行搜索
●
x*
xk 1
等值线(面)
●
xk
●
f ( xk )
负梯度方向也称为最速下降方向:
事实上,对任意p R n 且 || p || , 由Cauchy - Schwarz 不等式得 f ( xk ) T P - || f ( xk ) || || P || - || f ( xk ) || - f ( xk ) - f ( xk ) 当取p 时等号成立,即 p 是下列问题 || f ( xk ) || || f ( xk ) || 的解 min f ( xk ) T P
从上面的例子看到, 对于简单的二元二次函数极小化问题, 最速下降法在有限次迭代并没有求出其精确最优解, 但能 以较慢的速度无限接近最优解.
事实上,上面的例子刻画了最速下降法的所有收 敛特征
3、 最速下降法的收敛性 全局收敛性
由于最速下降法的搜索方向与负梯度方向一致, 即 k 0, 且 || f ( xk ) || || d k || 所以, 由定理2.4.1 - 2.4.3, 我们很容易得到最速下降算法的全 局收敛性.
2
max 其中 , 且max 和min分别是 f ( x * )的最大和最小特征值 . min
定理的证明参见文献[19,定理3.4]
由上面的分析可知,最速下降法的收敛速度 比较慢,通常将其用在某些算法的初始阶段求较 好的初始点或作为某些算法的间插步.
有点难啊 思考题:
设序列{x k }是由采用精确搜索的最速下降法求解二 元二次函数 f ( x ) xQx bT x c 所产生,这里x R , Q R 对称正定,b R , c R.试证 明偶次迭代点x , x , 和奇次迭代点 x , x , 分别共线, 而且这两条直线的交点就是函数 f ( x )的最小点.
采用精确搜索极小化二次函数的步长公式为
f ( x ) T d x x - T d Qd x x
迭代公式为
x ( k ) x ( k ) k d ( k ) x ( k )
(k ) ( x( k ) ) ( x ) - (k ) (k ) ( x ) ( x )
2
从上图可以看出,最速下降法 具有锯齿现象
对一般的非二次函数有下面的收敛速度估计:
定理 3.1.3 设函数 f二次连续可微 , 若采用精确搜索的最速 下降 法产生的点列 {xk } 收敛到问题 (.)的解 x * , 且 f ( x * )正定 , 则 有估计 - * * f ( xk ) - f ( x * ) [ f ( xk ) - f ( x )] o[ f ( xk ) - f ( x )]
几何解释:
●
xk
●
xk 1 (二次曲面极小点 )
二次曲面 : Q( x) f ( xk )
等值面 (线) : f ( x) f ( xk )
f ( x )在x k 处二阶泰勒展开式为 f ( x ) f ( xk ) f ( xk ) T ( x - xk ) 二次近似函数 Q ( x ) f ( x k ) f ( x k ) ( x - x k ) ( x - x k ) T f ( xk )( x - xk ) 且 Q ( x ) f ( xk ) f ( xk )( x - xk )
我们称迭代公式 x k 1 xk - 2 f ( xk ) -1 f ( x k ) 为古典Newton法的迭代公式. 其中 d k - 2 f ( xk ) -1 f ( x k ) 称为x k 处的Newton方向. 若 2 f ( xk )正定, 则Newton方向是函数f在x k 处的一个下降 方向, 并且是下列线性方程组的解 2 f ( xk )d f ( x k ) 0
唯楚有材
於斯为盛
最优化
主讲:刘陶文
学好最优化,走遍天下都不怕
课件制作:刘陶文
第三章 无约束问题算法(I)—— 最速下降法、 Newton法
第一节 最速下降法
第二节 Newton法及其修正形式
给定无约束问题 min f ( x) n
xR
(3.1)
在上一章里, 我们介绍了下降算法的结构及步长计算的 方法,在后面的几章里, 我们来介绍下降方向的计算. 下降方向的计算是整个最优化方法的核心, 不同计算方 式对应不同的最优化算法, 相应算法的收敛性理论和数 值效果有很大区别
即 类似可得
T ( x2 - x1) Q ( x 2 - x0 ) 0
(3) (4)
T ( x4 - x3) Q ( x4 - x2 ) 0
又由(2)得 f ( x 2 ) T f ( x1 ) f ( x3 ) T f ( x 2 ) 0 所以在R 2中:f ( x3 ) || f ( x1 ),推出 x4 - x3 || x2 - x1 进一步结合 (3) 和( 4), 得到 x4 - x2 || x2 - x0 , 即 x0 , x 2 , x 4 共线 以此类推得所有偶次迭代点 : x0 , x 2 , x4 , , x 2 k , , 共线 同理可得, 所有奇次迭代点 : 又由最速下降法的收敛性知 lim x k x * lim x 2 k lim x 2 k 1 x *
收敛速度估计
下面的定理给出了其求解严格凸二次函数极小化问题的 收敛速度估计.定理证明可参考文献[19, 定理3.3] 定理 3.1.2 设矩阵 Q对称正定 , q R n .记max 和min分别是 Q max 的最大和最小特征值 , .考察如下二次函数极小 化 min
问题: T min f ( x ) x Qx q T x 则由采用精确搜索的最 速下降法产生的点列 {x k }满足 - * || xk - x ||Q || x k - x ||Q
T
( x - xk ) T f ( xk )( x - x k ) o(|| x - xk ||2 )
若 f ( x k )正定, 则Q ( x )的极小点x 为 f ( x k ) f ( xk )( x - xk ) 0 的解, 即 x xk - f ( x k ) -1 f ( xk ) x k x k - f ( xk ) -1 f ( xk ) 把二次函数的极小点作为xk , 则
最优化算法看来是如此的简单?
例3.1.1 取初始点x ( ) ( , )T . 采用精确搜索的最速下降 法求解下面的最优化问题: min f ( x ) x x x 1 解 函数 f 的梯度为:f ( x ) 2 x , Q f ( x ) - x 搜索方向 d -f ( x ) - x
|| p||
以负梯度为搜索方向的算法称为最速下降法
2、 算法步骤
算法3.1 (最速下降法 ) 步1 给定初始点x0 R n , 精度 0.令k 0; 步2 若 || f ( x k ) || 步3 ; 步3 由线性搜索计算步长 k ; 步4 令xk 1 xk k d k , k : k 1, 转步2.
T ( x 2 - x1) Q ( x 2 - x0 ) [1f ( x1 )]T Q[1f ( x1 ) - 0 f ( x0 )]
由于f ( x ) Qx b, 得 (1) (2)
12 f ( x1 ) T Qf ( x1 ) - 1 0 f ( x1 ) T Qf ( x0 ) 12 f ( x1 ) T Qf ( x1 ) - 1f ( x1 ) T [f ( x1 ) - f ( x0 )] 12 f ( x1 ) T Qf ( x1 ) - 1f ( x1 ) T f ( x1 ) 0
*
(3.2 )
其中 x 是问题的惟一解 , || x ||Q x Qx
* T
-1 * || xk 1 - x * ||Q || xk - x ||Q 1
(3.2 )
对于二次函数, 由于f ( x ) Qx q且在x *处 f ( x * ) Qx * q 0 1 1 * * T * 2 则 f ( x ) - f ( x ) ( x - x ) Q ( x - x ) || x - x * ||Q 2 2 所以(3.2)可以改写成 -1 * * f ( xk 1 ) - f ( x ) [ f ( x ) f ( x )] k 1 由收敛速度估计式(3.2) 看到, 最速下降的收敛速度与矩阵 Q的条件数有关, 当接近于1, 最速下降收敛很快, 特别, 当 1即Q的所有特征值相等时, 算法只需一次迭代即可 求出最优解. 而当较大时(Q接近病态) , 算法收敛很慢.
证明:我们首先证明 : ( x 2 - x1 ) T Q ( x 2 - x0 ) 0 记 x k 1 x k k d k x k 1 x k k f ( x k ) f ( xk 1 ) f ( x k ) k Qd k 又由精确搜索得 f ( xk 1 ) T f ( x k ) 0 由(1) 和( 2), 进一步得到 - f ( x k ) T f ( x k ) f ( x k ) T f ( xk ) k T f ( x k ) Qd k f ( x k ) T Qf ( x k ) x 2 - x0 x 2 - x1 x1 - x0 1d 1 0 d 0 -1f ( x1 ) - 0 f ( x0 ) 所以
k k k
x1 , x3 , x5 , , x 2 k 1 , , 共线
所以结论成立.
第二节
Newton法及其修正形式
1、思想:用近似二次函数的极小点作为原问题的新的近似解
考虑从xk 到xk 1的迭代过程,在xk 处对f ( x )用与它最密切的 二次函数Q( x )来近似,把二次函数的极小点作为xk 1
为确保算法的下降性, 我们在古典Newton法中加入线性 搜索, 得到Newton迭代公式如下:
x( k ) x (k )
由上面的迭代公式不难计算出最速下降法产生的点列为 x
(k )
1 3
k
2 (-1) k , k 0, 1,
容易看出上面的序列是收敛的, 并且x ( k ) (0, 0)T x *