最优化Armijo算法确定步长的最速下降法

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

dk = -1 * gk;
% search direction
if norm( dk ) < EPS break;
end
yk = feval( fun_obj, xk ); fprintf( '#iter = %5d, xk = %.5f, F = %.5f\n', k, xk, yk );
mk = armijo( fun_obj, xk, rho, sigma, gk ); xk = xk + rho^mk * dk;
【实验原理】 1.最速下降法：
最古老的优化方法，十九世纪中叶由 Cauchy 提出
x 思想：每次沿负梯度方向进● 行搜*索
等值线(面)
xk ●
x ● k 1
f (xk )
1
负梯度方向也称为最速下降方向：举例：
事实上，对任意p Rn且 || p || , 由Cauchy - Schwarz不等式得
【实验结论】（结果）
梯度下降法处理一些复杂的非线性函数会出现问题，例如 Rosenbrock 函数：
其最小值在
处，函数值为
。但是此函数具有狭窄弯曲的山谷，最
小点就在这些山谷之中，并且谷底很平。优化过程是之字形的向极小值点靠近，速度非常缓慢。靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能会“之字形”地下降。
所以, 我们很容易得到最速下降算法的全局收敛性.
采用精确搜索 , 或Armijo 搜索或Wolfe - Powell 搜索的最速下降法产生的迭
代序列{xk }满足
lim
k
||
f
(
xk
)
||
0
由例子看到,最速下降法的收敛速度至多是线性的,
收敛速度估计：
设矩阵Q对称正定, q Rn.记max和min分别是Q 的最大和最小特征值, max .考察如下二次函数极小化
3、循环迭代步骤 2，直到 x 的值变化到使得在两次迭代之间的差值足够小，比如
0.00000001，也就是说，直到两次迭代计算出来的达到局部最小值了。
基本没有变化，则说明此时
4、此时，输出 x，这个 x 就是使得函数最小时的 x 的取值。
已经
4
【实验过程】
梯度下降法的计算过程就是沿梯度下降的方向求解极小值（也可以沿梯度上升方向求解极大值）。
7
% Armijo parameters rho = 0.5; sigma = 0.2;
% initialization k = 0; xk = x0;
while k < max_iter
k = k + 1;
gk = feval( fun_grad, xk ); % gradient vector
mk = 0; max_mk = 100;
while mk <= max_mk x = xk - rho^mk * gk; if feval( fun, x ) <= feval( fun, xk ) - sigma * rho^mk * norm( gk )^2 break; end mk = mk + 1;
8
end
fprintf( '----------------------\n' ); if k == max_iter
fprintf( 'Problem Not solved!\n' ); else
fprintf( 'Problem solved!\n' ); end
% record results opt_x = xk; opt_f = feval( fun_obj, xk );
m in 问题：
min f (x) 1 xTQx qT x 2
则由采用精确搜索的最速下降法产生的点列{xk }满足
||
xk 1
-
x*
||Q
-1 1
||
xk
-
x*
||Q
（3.2）
1
其中x*是问题的惟一解,|| x ||Q xTQx 2
3
对于二次函数,由于f (x) Qx q且在x*处
end
return; 最速下降法实现： [plain] view plaincopy function [opt_x, opt_f, k] = grad_descent( fun_obj, fun_grad, x0 )
max_iter = 5000; EPS = 1e-5;
% max number of iterations % threshold of gradient norm
4 实验结论正确.
成绩：
附录 1：源程序
Armijo 算法实现：
指导教师签名：批阅日期：
[plain] view plaincopy function mk = armijo( fun, xk, rho, sigma, gk )
6
assert( rho > 0 && rho < 1 ); assert( sigma > 0 && sigma < 0.5 );
10
f (xk )T P - || f (xk ) || || P || - || f (xk ) ||
当取p - f (xk ) 时等号成立，即p - f (xk ) 是下列问题
|| f (xk ) ||
|| f (xk ) ||
的解
算法步骤：
min
||p||
f
( xk
)T
P
2
步1 给定初始点x0 Rn ,精度 0.令k 0; 步2 若 || f (xk ) || ，则得解xk ,算法终止.否则
f (x*) Qx* q 0
则
f
(x) -
f
(x*)
1 2
(x
-
x*)TQ(x -
x*)
1 2
||
x
-
x*
||Q2
所以(3.2)可以改写成
f
( xk 1 )
-
f
(x*)
-1
2
[
1
f
( xk
)
-
f
(x*)]
由收敛速度估计式 (3.2)看到,最速下降的收敛速度与矩阵 Q的条件数有关,当接近于1, 最速下降收敛很快 , 特别, 当 1即Q的所有特征值相等时 ,算法只需一次迭代即可求出最优解. 而当较大时(Q接近病态）,算法收敛很慢 .
.
数学与计算科学学院实验报告
实验项目名称使用非精确线搜索 Armijo 算法确定步长
的
最速下降法
所属课程名称最优化方法
实验类型算法编程
实验日期
班级学号姓名成绩
教育资料
一、实验概述：
【实验目的】 1.通过实验掌握最速下降法的 Matlab 算法的基本步骤；
2.通过实验掌握 Armijo 算法确定步长； 3.掌握最速下降法的思想及迭代步骤。
计算dk -f (xk ),然后转步3；步3 由线性搜索计算步长k ; 步4 令xk1 xk kdk , k : k 1, 转步2.
优点：
对于简单的二元二次函数极小化问题，最速下降法在有限次迭代并没有求出其精确最优解, 但能以较慢的速度无限接近最优解.
最速下降法的收敛性：
全局收敛性：
由于最速下降法的搜索方向与负梯度方向一致,即k 0,且 || f (xk ) || || dk ||
9
对于验证性实验，要写明依据何种原理、操作方法进行实验，要写明需要经过哪几个步骤来实现其操作。对于设计性和综合性实验，在上述内容基础上还应该画出流程图、设计思路和设计方法，再配以相应的文字说明。对于创新性实验，还应注明其创新点、特色。 6．实验过程（实验中涉及的记录、数据、分析）：写明具体实验方案的具体实施步骤，包括实验过程中的记录、数据和相应的分析。 7．实验结论（结果）：根据实验过程中得到的结果，做出结论。 8．实验小结：本次实验心得体会、思考和建议。 9．指导教师评语及成绩：指导教师依据学生的实际报告内容，给出本次实验报告的评价。
【实验小结】（收获体会）
这次的实验报告，使得我们对这些算法的思想更加了解，在选择线性搜索的方法时，我们深刻体会到各类参数设置对程序效率的重要性，不同的问题要选用合适的参数来求解，这样使得问题求解及程序运行的效率最高。通过不断地翻阅课本，剖析程序，我们最后实现了对程序
5
的修改和完善，对提供的问题作出了较好的解答。总的来说，对无约束最优化的求解，每种方法在解决不同的问题中效果不能都达到最优，所以我们在实际应用中，要根据实际情况选择合适的方法，争取最大可能的尽快的接近最优。
结论：最速下降法的收敛速度比较慢，通常将其用在某些算法的初
始阶段求较好的初始点或作为某些算法的间插步.
【实验环境】
Win 7； Matlab7.0
二、实验内容：
【实验方案】
1、求梯度； 2、向梯度相反的方向移动 x，其中为步长。如果步长足够小，则可以保证每一次迭代都在减小，但可能导致收敛太慢，如果步长太大，则不能保证每一次迭代都减少，也不能保证收敛。
return;
附录 2：实验报告填写说明
1．实验项目名称：要求与实验教学大纲一致。 2．实验目的：目的要明确，要抓住重点，符合实验教学大纲要求。 3．实验原理：简要说明本实验项目所涉及的理论知识。 4．实验环境：实验用的软、硬件环境。 5．实验方案（思路、步骤和方法等）：这是实验报告极其重要的内容。概括整个实验过程。
本次实验不仅使我们基本了解了最优化的实用算法的结构及性能，而且也使得我们对 matlab 的一些编程技巧更加熟悉，收获很大。
三、指导教师评语及成绩：
评语等级
评语
1.实验报告按时完成,字迹清楚,文字叙述流畅,逻辑性强
及
优良中
不及格
格
2.实验方案设计合理
ቤተ መጻሕፍቲ ባይዱ
3.实验过程（实验步骤详细,记录完整,数据合理,分析透彻）
其迭代公式为
,其中代表梯度负方向，表示梯度方向上的搜索
步长。梯度方向我们可以通过对函数求导得到，步长的确定比较麻烦，太大了的话可能会发散，太小收敛速度又太慢。一般确定步长的方法是由线性搜索算法来确定，即把下一个点的坐标 ak+1 看做是的函数，然后求满足 f(ak+1)的最小值的即可。
因为一般情况下，梯度向量为 0 的话说明是到了一个极值点，此时梯度的幅值也为 0.而采用梯度下降算法进行最优化求解时，算法迭代的终止条件是梯度向量的幅值接近 0 即可，可以设置个非常小的常数阈值。