函数的极值条件
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
函数的极值条件
前言
我们处理的各种优化问题可以大致分为两类:有约束的优化问题和无约束的优化问题。
工程优化问题往往都是有约束的,但经过适当的处理可以用无约束的优化方法加以解决。
因此无约束极值点存在的条件是优化理论的基本问题。
关键字:无约束有约束优化
求解无约束优化问题的实质是求解目标函数f(x)在n维空间R n中的极值。
我们先来看看一元函数的极值条件。
1.无约束优化问题的极值条件
1.1一元函数的极值条件
由高等数学可知,任何一个单值、连续、可微的一元函数f(x)在给定区间内某点x=x∗有极值的必要条件,是它在该点处的一阶导数为零,即:
f′(x∗)=0
即函数的极值必须在驻点处取得。
此条件是必要的,但不是充分的,也就是说驻点不一定就是极值点。
如图1.1-1所示,x=0是驻点,但
a b
图1.1-1
其中图a中的x∗点是极小值点,而图b中的x∗并不是极值点。
驻点是否为极值点,还需要函数在该点的二阶导数来判断。
驻点为极小值点的充分条件是,x∗满足不等式:
f′′(x∗)>0
驻点为极大值点的充分条件是,x∗满足不等式:
f′′(x∗)<0
若:
f′′(x∗)=0
则x∗是否为极值点,还需要逐次检验其更高阶导数的符号。
开始不为零的导数阶数为偶数,则为极值点;若为奇次,则为拐点,而不是极值点。
1.2二元函数的极值条件
对于二维无约束优化问题,即对二元函数
f(x)=f(x1,x2)
来说,若在X∗(x1∗,x2∗)处取得极值,其必要条件是:
ðf(x1,x2)
ðx1=
df(x1,x2∗)
dx1
|x
1=x1
∗=0
ðf(x1,x2)
ðx2=
df(x1∗,x2)
dx2
|x
2=x2
∗=0
写成梯度形式可得:
∇f(x)=[ðf(x1,x2)
ðx1,
ðf(x1,x2)
ðx2
]T=0
为推得二元函数极值存在的充分条件,将二元函数f(x)在驻点x∗=[x1∗,x2∗]T作泰勒二次近似展开,得到近似表达式为:
f(x)=f(x∗)+[∇f(x∗)]T(x−x∗)+1
2
(x−x∗)T∇2f(x∗)(x−x∗)
因为驻点满足∇f(x∗)=0,故由上式可得:
f(x)−f(x∗)=1
2
(x−x∗)T∇2f(x∗)(x−x∗)
当f(x)−f(x∗)>0,则由上式可知,应有:
1
2
(x−x∗)T∇2f(x∗)(x−x∗)>0
此时,x∗为极小值。
而为使上式成立,根据二次型的理论可知,只要Hessian矩阵∇2f(x∗)为正定矩阵。
故由此可得二元函数极小值存在的充分条件为:
∇2f(x∗)>0
仿此可推得二元函数极大值存在的充分条件为:
∇2f(x∗)<0
1.3多元函数的极值条件
由之前对二元函数的极值条件的推导不难将二元函数极值存在的充分必要条件推广至n元函数。
n元函数f(x1,x2,……,x n)在点x∗存在极值的充分必要条件为:
条件1:∇f(x∗)=0
条件2:当∇2f(x∗)>0时,x∗为极小值点;而当∇2f(x∗)<0时,x∗为极大值点。
条件1为极值存在的必要条件;条件2为极值存在的充分条件。
图1.2-1表示满足极值存在的必要条件的驻点不是极值点而是鞍点的情况。
图1.2-1
2.有约束优化问题的极值条件
求解约束优化问题的极值条件的实质是在所有约束条件所形成的可行域内,求得目标函数的极值点。
因而约束优化问题比无约束优
化问题更为复杂。
因为约束优化问题的极值点不仅与目标函数的性态有关,而且还与约束条件的性态密切相关,它可能与目标函数的极值点重合(如图2-1a所示),也可能不是目标函数的极值点(如图2-1b 所示)。
图2-1a表示的是有四个不等式约束的二维约束优化问题。
其目标函数是凸函数,且目标函数的极值点x∗处于可行域内,故x∗即为该约束优化问题的极值点。
图2-1b所示的目标函数和约束函数都是凸
图2-1
函数。
约束边界g(x)=0与目标函数的等值线x∗点相切,而目标函数的自然极值点隔到了可行域之外。
因此,此约束优化问题的极值点不是目标函数的自然极值点,而是切点x∗。
若目标函数或约束函数的性态不同,致使求解约束优化问题带来许多困难。
为了研究约束优化问题的求解方法,有必要介绍约束优化问题的极值条件。
先阐述等式约束优化问题的极值条件,然后导出不等式约束优化问题的极值条件。
2.1等式约束优化问题的极值条件
求解等式优化问题:
minf(X)
s.t.ℎk(X)=0 (k=1,2,……l)
需要导出极值存在的条件,这是求解等式约束优化问题的理论基础。
一般处理这一类问题有两种方法:消元法(降维法)和拉格朗日乘子法(升维法)。
2.1.1消元法
二元函数只有一个等式约束的简单情况:
minf(x1,x2)
s.t.ℎ(x1,x2)=0
求解这一问题可采用消元法。
根据等式约束条件将其中一个变量x1表示成另一个变量x2的函数关系x1=φ(x2),然后将此关系式带入目标函数f(x1,x2)消去x1,变成一元函数F(x2),这样就将等式约束优化问题转化成了无约束优化问题。
目标函数通过消元法由二元函数变成了一元函数,即由二维变成了一维,达到降维的目的。
同理,对于n维函数:
minf(x1,x2,……,x n)
s.t.ℎk(x1,x2,……,x n)=0 (k=1,2,……l)
由l个约束方程将n个变量中的前l个变量用其余n−l个变量表示:
x1=φ1(x l+1,x l+2,……,x n)
x1=φ2(x l+1,x l+2,……,x n)
……
x l=φl(x l+1,x l+2,……,x n)
将这些函数关系代入目标函数,从而得到只含x l+1,x l+2,……,x n 共n−l个变量的函数F(x l+1,x l+2,……,x n),这样就可以利用无约束优化问题的极值条件求解。
消元法是一种间接寻求优化的方法,其实质是利用等式约束消去某些变量,把等式约束优化问题变换成无约束优化问题的一种最简单的方法。
若约束条件是比较简单的函数,消元法是十分方便的,但若约束条件是复杂的多维高次隐函数,这种方法就显得相当不便,有时甚至根本不可能。
2.1.2拉格朗日乘子法
拉格朗日乘子法,其实质也是将有约束优化问题转换成无约束优化的问题来求解,同样也是一种间接求解法,但由于引进了一个待定系数(乘子),其结果是简化了数学变化过程,因此是一种更为有效的方法。
拉格朗日乘子法通过增加变量,将等式约束优化问题变成无约束优化问题,所以又称升维法。
先考虑只有一个等式约束的二维优化问题:
min f(x)=f(x1,x2)
s.t. ℎ(x)=ℎ(x1,x2)=0
为推导出此问题的极值条件,引入乘子λ,构造等式约束优化问题的
拉格朗日函数:
L(x1,x2,λ)=f(x1,x2)+λℎ(x1,x2)
从而将约束优化问题转化成无约束优化问题。
可以证明,二者的极值条件是等价的。
而拉格朗日函数极值存在的必要条件为:
∂L(x1,x2,λ)
∂x1=
∂f(x1,x2)
∂x1
+λ
∂ℎ(x1,x2)
∂x1
=0
∂L(x1,x2,λ)
∂x2=
∂f(x1,x2)
∂x2
+λ
∂ℎ(x1,x2)
∂x2
=0
∂L(x1,x2,λ)
∂λ
=ℎ(x1,x2)=0
为将上述条件推广到有p个等式约束的多维优化问题
min f(x) x∈R n
s.t.ℎv(x)=0 (v=1,2,…,p)
引入p个乘子λv (v=1,2,…,p),并构造此问题的拉格朗日函数:
L(x,λ)=f(x)+∑λvℎv(x)
p
v=1
列出次拉格朗日函数极值存在的必要条件为
∂L(x,λ)
∂x i =
∂f(x)
∂x i
+∑λv
∂ℎv(x)
∂x i
(i=1,2,…,n)
p
v=1
∂L(x,λ)
∂λv
=ℎv(x)=0 (v=1,2,…,p)在上述各式中,λ=[λ1,λ2,…,λp]。
若令
ℎ(x)=[ℎ1(x),ℎ2(x),…,ℎp(x)]T
∇ℎ(x)=
[∂ℎ1(x)
∂x1
∂ℎ1(x)
∂x2
⋯
∂ℎ1(x)
∂x n ⋮⋱⋮
∂ℎp(x)
∂x1
∂ℎp(x)
∂x2
⋯
∂ℎp(x)
∂x n]
可将上式简化成梯度和矩阵的形式:
∇f(x)+[∇ℎ(x)]Tλ=0
ℎ(x)=0
此即等式约束优化问题极值存在的必要条件。
为说明等式约束优化问题极值存在的必要条件的几何意义,可将上式写作:
−∇f(x)=∑λvℎv(x)
p
v=1
ℎv(x)=0 (v=1,2,…,p)
该式中的第一项表明目标函数的负梯度−∇f(x)可表示为约束函数梯度ℎv(x),(v=1,2,…,p)的线性组合。
其中p为设计点x处的约束曲面的数目。
图2.1.2-1表示了必要条件的几何意义。
其中ℎ1(x)=0与ℎ2(x)=0分别代表两个约束曲面,E为此二约束曲面的交线,显然最优点x∗必在此交线上,∇ℎ1(x∗)与∇ℎ2(x∗)分别为约束函数ℎ1(x)与ℎ2(x)在点x∗处的梯度,即相应的约束曲面在交线E处的法向量。
根据结果式可知,−∇f(x)与∇ℎ1(x∗)、∇ℎ2(x∗)应是线性相关的。
图2.1.2-1
这一概念在图上表示为:如果x∗是最优点,目标函数在该点处的负梯度−∇f(x∗)一定要处在由约束函数在该点梯度∇ℎ1(x∗)、∇ℎ2(x∗)做确定的平面P上,这是一个过点x∗且与交线E正交的平面。
如果三个向量−∇f(x∗)、∇ℎ1(x∗)、∇ℎ2(x∗)不在同一平面上,显然不存在上述线性相关条件了。
可以这样来理解:如果−∇f(x∗)不在平面P上,而与平面倾斜一个角度,则−∇f(x∗)在点x∗处的交线E的切线上的投影将不为零,因而沿这个投影方向在交线E上作微小移动时,目标函数值将有所下降,故点x∗就不是最优点了。
这是因为−∇f(x)是目标函数等值面的法向量,它在交线E的x∗处切线上的投影不为零,意味着等值面与交线E在x∗处不相切,x∗处不是切点,所以不是最优点。
2.2不等式约束优化问题的极值条件
工程上大多数优化问题都可表示成具有不等式约束条件的优化问题,求解此类问题的实质是在所有约束条件所形成的可行域内求得目标函数的极值点,即约束最优点。
K-T条件是在非线性规划领域中最重要的理论成果之一,通常借助K-T条件来判断和检验约束优化问题中某个可行点是否为约束极值点,即将K-T条件作为确定一般非线性规划问题中某一点是否为极值点的必要条件。
2.2.1 K—T条件
对于多元函数不等式约束优化问题:
min f(X)
s.t.g i(X)≤0(j=1,2,…,m)
其中,设计变量X=[x1x2… x i x n]T为n维向量,它受有m个不等
式约束的限制。
可用拉格朗日乘子法推导出相应的极值条件:
∂f(X∗)∂x i +∑μj
∂g i(X∗)
∂x i
=0 (i=1,2,…,n) m
j=1
μj g i(X∗)=0 (j=1,2,…,n)
μj≥0 (j=1,2,…,n)
其中,μ是对应于不等式约束的拉格朗日乘子向量μ=
[μ1μ2 … μj …μm ]T,并有μj≥0,这就是著名的K—T条件。
若引用约束的下标集合:
J(X∗)={j|g i(X∗)=0(j=1,2,…,n)}
则K—T条件可写成如下形式:
∂f(X∗)∂x i +∑μj
∂g i(X∗)
∂x i
=0 (i=1,2,…,n) m
j=1
g j(X∗)=0 (j∈J)
μj≥0(j∈J)
2.2.2同时具有等式和不等式约束的优化问题的K—T条件
对于
min f(X)
s.t.g i(X)≤0(j=1,2,…,m)
ℎk(X)=0(k=1,2,…,l)
K—T条件可表示为:
∂f ∂x i +∑μj
∂g i
∂x i
+∑λk
l
k=1
∂ℎk
∂x i
=0 (i=1,2,…,n) j∈J
g j(X∗)=0 (j∈J)
μj≥0 (j∈J)
此处对应等式约束的拉格朗日乘子λk并没有非负的要求。
总结
函数的极值条件共有六种情况:无约束的一元函数的极值条件、无约束的二元函数的极值条件、无约束的多元函数的极值条件、等式约束的优化问题、不等式约束的优化问题以及二者共同约束的优化问题。
文章清晰地阐述了应对各种情况下所对应的极值条件,为日后具体优化过程中的计算提供了便利。