凸优化——无约束问题的梯度方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三周读书笔记
1. 牛顿法
Pure Newton's Method
在上一章中具体讨论了梯度方法,该类方法只应用了一阶最优条件的信息,即梯度。此外,在讨论标度梯度法时还简单地讨论到Newton方法,该类方法进一步地应用到二阶最优条件地信息,即Hessian矩阵。该章重点介绍牛顿法,与梯度方法利用梯度进行新点迭代的方法不同,牛顿法的点更新方法如下:若假设函数在处的Hessian矩阵是正定矩阵,即。那上面的最小化问题有唯一的稳定点,也是全局最小点:
其中,向量也被称作牛顿方向,利用以上更新公式进行迭代的方法也被称作纯粹牛顿方法。算法流程图如下:
牛顿法要求在每次更新处的Hessian矩阵为正定矩阵。或者我们可以放宽一点条件——即在定义域内的任意点处的Hessian矩阵均为正定,这说明了存在一个唯一的最优解。但是,这并不能保证算法的收敛性。
事实上,牛顿法在某些假设下具备很好的收敛性能(称局部二次收敛)——令在上二阶连续可导,假设:
存在,对任意有
存在,对任意,有
令是牛顿方法得到的序列,是在上唯一最小值。那么对任意,以下不等式成立:
此外,如果,那么
证明如下:
事实上,对于某些不满足上述条件(正定、李普希兹连续)的优化问题,牛顿方法也能表现出收敛性。但是,总的来说,当缺少这些严格假设时收敛性无法得到保障。为了解决即使在Hessian矩阵正定也无法保障牛顿法的收敛性问题下,进一步地提出一种步长解决方案,即阻尼牛顿法。
阻尼牛顿法
在纯粹牛顿法的基础上,我们在进行迭代更新时,重新加入步长选择机制,如利用回溯法进行步长选择的阻尼牛顿法,算法流程如下:
cholesky分解
这一小节是针对前部分的补充知识——在利用牛顿法解决相关优化问题的时候,我们会遇到判断Hessian矩阵是否正定,以及求解线性系统的问题,这两个问题都可以通过cholesky分解来解决。
给定一个的正定矩阵,cholesky分解的形式为,其中是一个的下三角矩阵且其对角元素为正数。一般利用cholesky分解去解决线性系统分为以下两步:
1. 找到的解
2. 找到的解
可以通过一个简单的递推公式计算cholesky因子。如下:
在求解L的过程中,需要保证L的对角线元素为正数。
此前我们讨论的牛顿方法都是建立在Hessian矩阵正定的基础上,因此,可以改进牛顿方法——将其与梯度方法结合,判断Hessian矩阵是不是正定的。若是正定则利用牛顿法迭代,若不是正定则利用梯度方法。
2.凸集
凸分析和凸优化的基础需要我们对基础的凸集理论知识有一定的认识,本章即介绍相关的知识点。
定义和例子
首先,定义凸集——如果集合C中任意两点之间的线段仍在C中,即对于任意和满足,有。通俗的讲,即集合中的每一点都可以被其他点沿着它们之间的一条无阻碍的路径达到(所谓无阻碍,即整条路径都在集合中)。
例:(直线为凸集)
事实上,如果从直观的角度来看的话,直线中任意两点连成的线段一定在该直线上,因此,直线一定是一个凸集。当然,也可以从定义的角度进行证明,首先,定义在上的直线可以用集合
来表示,接着证明其凸性。
任取两点,则两点依次对应使得。对任意,有
。
得证。
同样的,常见的凸集还有闭线段、开线段、空集、全空间、超平面以及半空间。
以下再给出两个典型的凸集
例:(范数球为凸集)
令且,为定义在上的范数。则open ball为
closed ball为
以上均为凸集。(利用凸集的定义、范数的齐次性以及三角不等式可证)例:(椭球为凸集)
首先,椭球的定义——椭球是具备以下形式的集合,
其中,为一个半正定矩阵,。
以下证明其为凸集。
凸集的代数运算
首先介绍交集这种保凸运算。
引理:令有限个集合均为凸集,那么他们的交集也是凸集。
由该引理可以得到一个主要的凸集——多面体。
上一节中,我们提到一个重要的凸集——半空间,有限个半空间的交集即为多面体,可用如下公式表示。
所以多面体是一个凸集。
当然,凸集不仅对交运算封闭,对加法、笛卡尔积、线性映射和逆线性映射也是封闭的。
凸包
首先,引入凸组合的概念——对于k个向量,凸组合可以表示为
,其中且和为1。
因此,之前提到凸集的定义可以重新定义为包含集合中任意两点凸组合的集合即为凸集。该定义可以进一步引申为集合中任意数量的点。定理如下:
令为一个凸集,其中有个点。那么,对于任意和为1的,有
。(可用数学归纳法证明)
凸包的定义:集合S的凸包即为S中所有点的凸组合的集合,记为。(其中,所有点的概念是指任意正数数量的点)。凸包是包含集合S的最小凸集。
接下来是é。可以解释为,某给定集合的子集的凸包中的任意元素可以用中不超过个矩阵的凸组合表示出来。
定理:令,并令。那么存在,有
,即。
凸锥
集合,当它满足以下性质:对于任意,。
引理:当且仅当以下性质满足时,S是凸锥。
A:
B:
常见的凸锥有诸如非负象限、冰淇淋锥、非负多项式。
与凸集有凸组合一样,凸锥也有锥组合。以下给出定义:
给定空间中的个点,这个点的锥组合可以表示为,其中为非负数。
进一步地,可以给出锥包的概念。令,则由中所有点的锥组合的集合,通常记作。有以下表达式:
锥包是包含的最小凸锥。
接下来是conic representation theorem。令且,那么存在个线性无关的向量,有,即存在,使得。