一种加速的广义交替方向乘子法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种加速的广义交替方向乘子法
马龙;廖均淋
【摘要】针对一类特殊的凸优化问题,原始交替方向乘子法收敛较慢,为改善算法的收敛速度,一种加速交替方向乘子法被提出,但是该算法可能会使对偶变量更新步长变得很小,影响算法效果.基于此,本文提出一种加速的广义交替方向乘子法,通过应用Chambolle和Pock提出的惩罚参数更新规则,证明了所提算法在一定假设条件下的全局收敛性以及建立起了在遍历情况下的最坏Ο(1/n2)收敛率.
【期刊名称】《湖北民族学院学报(自然科学版)》
【年(卷),期】2019(037)002
【总页数】8页(P174-180,205)
【关键词】凸优化;加速交替方向乘子法;全局收敛性
【作者】马龙;廖均淋
【作者单位】重庆师范大学数学科学学院,重庆401331;重庆师范大学数学科学学院,重庆401331
【正文语种】中文
【中图分类】O224
交替方向乘子法(ADMM)是解决带有线性约束的可分离凸优化问题的一种有效工具,可广泛的应用于机器学习[1]、图像处理[2]等领域.本文考虑以下凸优化问题:
(1)
其中X⊂Rd是闭凸集,f:X→(-,]和g:Rm→(-,]是闭正常凸函数,g光滑且g是梯度Lipschitz连续的,矩阵A∈Rm×d为列满秩,并假设问题(1)的解集非空.引入辅助变量y∈Rm,问题(1)可以等价地写成:
min f(x)+g(y)
s.t. Ax-y=0
x∈X,y∈Rm,
(2)
则求解问题(2)的原始ADMM算法[3]迭代方式如下:
(3)
其中β>0是惩罚参数,λ∈Rm是Lagrange乘子.由于原始ADMM算法的最坏收敛率为Ο(1/n),其收敛速度较慢,所以许多学者在此基础之上加以改进[4-6].而对于问题(1)本身可用原始-对偶算法进行求解,Chambolle等分别在文献[7]和[8]中提出可加速的原始-对偶算法,通过动态的调整参数,证明了在遍历情形下的最坏Ο(1/n2)收敛率.最近,Tian等[9]基于文献[7-8]提出加速交替方向乘子法:
(4)
其中Q∈Rd×d为半正定矩阵,βn在每k次迭代时的更新规则为:
(5)
其中k>0为整数,为不超过的最大整数,且序列由以下式子产生,
(6)
其中γ>0.当k=1时,有:
这意味着此时序列{βn}是根据如右式子迭代更新的,
当k>1时,有:
则对任意的正整数n,都可以分解为n=sk+j(0<j≤k-1).因此{βn}的更新规则如下:
(7)
显然有{βn}是单调不增的.特别的,当γ较大时,对偶变量更新步长将会变得很小,可能会导致算法(4)的效果变差.
1 一种加速的交替方向乘子法
用R,Rd,Rm×d分别表示实数集,d维实的列向量集和m×d的实矩阵集.‖·‖表示
l2-范数,用上标“T”表示矩阵或向量的转置.对任意的n维向量x和y,用
<x,y>=xTy来定义向量的内积.给定一个半正定矩阵M,定义为了方便起见,用I和0分别表示单位矩阵和零矩阵.
假设1 f(x)和g(x)均为闭正常凸函数,g光滑且g是Lipschitz连续的,并以1/γ
为Lipschitz常数,矩阵A∈Rm×d为列满秩.
基于算法(4),提出一种加速的广义交替方向乘子法(GFADMM):
(8)
其中α∈[1,+)是一个松弛变量,Q∈Rd×d为半正定矩阵,惩罚参数βn更新规则与算法(4)相同.当α=1时,即为算法(4);当α=1,βn=β和Q=0时,即为原始ADMM算法(3).所提算法在惩罚参数βn前引入一个松弛变量α,可用来调节算法(4)中当γ过大时,对偶变量更新步长很小的情况.
2 收敛性分析
本节证明所提算法的全局收敛性.
基于假设1,并根据文献[10]中的定理18.15可知:
g(y1)-g(y2)-〈∀y1,y2∈Rm.
(9)
对于问题(2)的Lagrangian函数为:
L(x,y,λ)=f(x)+g(y)+<λ,Ax-y>,
(10)
其中λ∈Rm为Lagrange乘子.那么求解问题(2)相当于找到(10)的一个鞍点,再由凸优化的一阶最优性条件可知,问题(2)等价于一个混合变分不等式问题:求
(x*,y*,λ*)∈Ω满足:
∀(x,y,λ)∈Ω,
(11)
其中θ(x,y)=f(x)+g(y),Ω=X×Rm×Rm.
为了证明算法的收敛性,首先给出一个引理.
引理1 令序列{(xn,yn,λn)}由算法GFADMM产生,则有:
∀(x,y,λ)∈Ω.
(12)
证明根据算法(8)中x-子问题的最优化条件可得:
f(x)-f(xn+1)+〈AT(αβn(Axn+1-yn)+βnQ(xn+1-xn),x-xn+1〉≥0,∀x∈X,(13)
再将式(8)中λn+1带入式(13)有:
f(x)-f(xn+1)+〈AT(αβn(Axn+1-yn)+βnQ(xn+1-xn),x-xn+1〉≥0,∀x∈X. (14)
而且,由式(8)中的y-子问题的最优性条件及λn+1式子可得:
λn+1=g(yn+1),
(15)
结合式(9)和式(15)有:
∀y∈Rm,
(16)
又因为:
(λn+1-λn)-Axn+1+yn+1=0,
(17)
根据式(14)、(16)和式(17)便可得式(12).
定理1 设(x*,y*,λ*)为(10)的一个鞍点,并且序列{(xn,yn,λn)}由算法GFADMM产生及α∈[1,+),则有:
(18)
证明由式(15)可知:
λ*=g(y*),
那么在式(12)中令(x,y,λ)=(x*,y*,λ*)有:
(19)
在式(11)中令(x,y,λ)=(xn+1,yn+1,λn+1)并结合以下等式:
可得:
(20)
根据算法式(8)中λn+1的定义及光滑函数g的梯度g的单调性,可以得到:
〈yn+1-yn,λn+1-λn〉=〈yn+1-yn,g(yn+1)-g(yn)〉≥0,
(21)
则结合式(19)、(20)和式(21)可得:
(22)
根据式(22)及以下等式:
即有:
(23)
由式(7)和α∈[1,+)可知:
(24)
根据式(23)和式(24)可得式(18).
引理2[9] 在算法GFADMM中使用{βn}的更新规则(5)和(6),则有βn~O(k/n).
以下便由引理2得到一个算法收敛性定理.
定理2 令序列{(xn,yn,λn)}由算法GFADMM产生,矩阵A为列满秩,则序列{(xn,yn,λn)}可收敛到(10)的一个鞍点,而且有:
(25)
证明在式(18)两边同时让n从0到N求和,可得:
(26)
则可得到:
(27)
故有:
(28)
由式(18)知有界,并根据式(17)可知‖Axn-Ax*‖2有界.因为矩阵A列满秩和引理2中βn~O(k/n),则可得到序列{(xn,yn,λn)}必有一极限点,不妨设为(x*,y*,λ*).根据式(28)在式(12)两边取极限可得:
∀(x,y,λ)∈Ω,
这意味着(x*,y*,λ*)是(10)的一个鞍点,进一步,由式(17)和式(28)即可得:
(29)
接着在式(11)中令(x,y,λ)=(xn,yn,λn)有:f(xn)+g(yn)≥f(x*)+g(y*)-〈λ*,Axn-
yn〉,
故有:
(30)
而且在式(12)中令(x,y,λ)=(x*,y*,λ*),并经过简单的化简有:
f(x*)+g(y*)≥f(xn+1)+g(yn+1)+〈λ*,Axn+1-yn+1〉+
αβn〈yn+1-yn,Axn+1-yn+1〉+βn〈Q(xn+1-xn),xn+1-x*〉+
因此,再由的有界性,公式(27)~(29)及引理2便可得到:
(31)
所以,根据式(29)~(31)即可得证式(25).
3 最坏收敛率分析
本节建立了所提算法的最坏Ο(1/n2)收敛率.由文献[7]可知,问题(1)等价于一个鞍点问题:
(32)
其中g*(λ)=supy{〈y,λ〉-g(y)}是g(y)的Fenchel共轭函数[11],并且可用以下原始-对偶间隙估计由算法(8)产生的迭代序列的精确度,
(33)
其中B1×B2是X×Rm的一个有界子集,并包含式(32)的一个解(x*,λ*).并且文献[7]中提及对于如果有则也是式(32)的一个解.因此,如果便定义是式(32)的一个精度为ε的近似解.
接下来通过两个引理建立所提算法的最坏Ο(1/n2)收敛率.
引理3 令序列{(xn,yn,λn)}由算法GFADMM产生,则有:
βnQ(xn+1-xn),x-xn+1〉≥0,∀x∈X,
(34)
λn+1=g(yn+1),
(35)
∀λ∈R m,
(36)
证明该引理的证明与文献[9]引理4.1类似.
引理4 令序列{(xn,λn)}由算法GFADMM产生且V=X×Rm,且α∈[1,+),则有:
∀(x,λ)∈V,
(37)
其中并且:
(38)
证明根据引理3中的式(34)和式(36)可得:
(f(x)+(Ax,λn+1)-g*(λn+1))-(f(xn+1)+(Axn+1,λ)-g*(λ))+
∀(x,λ)∈V,
(39)
再将式(32)中L(·,·)的定义及以下等式:
〈A(x-xn+1),λn-λn-1〉=〈A(x-xn),λn-λn-1〉-〈A(xn+1-xn),λn-λn-1〉,代入式(39)即有:
-(L(xn+1,λ)-L(x,λn+1))+αβn〈A(xn+1-xn),A(x-xn+1)〉+
∀(x,λ)∈V,
(40)
进一步使用下面三个等式:
可以得到:
(L(xn+1,λ)-L(x,λn+1)),∀(x,λ)∈V,
(41)
再根据式(5)~(7)及α∈[1,+)知:
(42)
故结合式(38)、(41)和式(42)即可得式(37).
现在,通过以下定理建立算法GFADMM在遍历情形下的最坏Ο(1/n2)收敛率. 定理3 令序列{(xn,λn)}由算法GFADMM产生,且:
则对任意V=X×Rm的有界子集B1×B2中的序列有:
(43)
其中c>0是一个常数.
证明定理3的证明与文献[9]的定理4.1类似.
式(43)就意味着是式(42)的一个精确度为O(1/n2)近似解,因此对于所提算法GFADMM建立起了在遍历情形下的最坏O(1/n2)收敛率.
4 结语
文章所提算法GFADMM通过引入松弛变量α,改善了原有算法中当γ过大时,对偶变量更新步长很小的情况,并且该松弛变量拥有较大的调节范围.在一定条件下,该算法具有全局收敛性以及在遍历情形下具有最坏O(1/n2)收敛率.注意到本文是基于原始ADMM建立起的结果,未来希望在多块ADMM及Peaceman-Rachford分裂法中建立相应的结果.
参考文献:
【相关文献】
[1] SCARDAPANE S,WANG D,PANELLA M.A decentralized training algorithm for echo state networks in distributed big data applications[J].Neural Networks,2016:65-74. [2] HAN D R,KONG W W,ZHANG W X.A partial splitting augmented lagrangian method for low patch-rank image decomposition[J].Journal of Mathematical Imaging and Vision,2014,51(1):145-160.
[3] GABAY D,MERCIER B.A dual algorithm for the solution of nonlinear variational problems via finite element approximatios[J].Computers and Mathematics With Applications,1976,2(1):17-40.
[4] WANG X,YUAN X.The linearized alternating direction method of multipliers for dantzig selector[J].SIAM Journal on Scientific Computing,2012,34(5):A2792-A2811.
[5] BAI J C,LI J C,XU F M,et al.Generalized aymmetric ADMM for separable convex optimization[J].Computational Optimization and Applications,2018,70(1):129-170.
[6] JIANG F,WU Z M,CAI X J,et al.Generalized ADMM with optimal indefinite proximal term for linearly constrained convex optimization[J].Journal of Industrial and Management Optimization,2017,13(5):1-22.
[7] CHAMBOLLE A,POCK T.A first-order Primal-Dual algorithm for convex problems with applications to imaging[J].Journal of Mathematical Imaging and Vision,2010,40(1):120-145.
[8] CHAMBOLLE A,POCK T.On the ergodic convergence rates of a first-order primal-dual algorithm[J].Mathematical Programming,2016,159(1/2):253-287.
[9] TIAN W,YUAN X M.An alternating direction method of multipliers with a worst-case
O(1/n2) convergence rate[J].Mathematics of Computation,2018,318(88):1685-1713. [10] BAUSCHKE H H,COMBERTTES P L.Convex analysis and monotone operator theory in Hilbert spaces[M].New York:Springer,2011.
[11] ROCKAFELLAR R T.Convex analysis[M].Princeton:Princeton University Press,1997.。

相关文档
最新文档