第五章 最小二乘问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定理3:设 f : ( x) C 2 (i 1 m), X *为F ( x) f T f 的局部极小点,且
A( x*)T A( x*) 为正定,若GN迭代法产生点列
x 收敛于X*,则当G(x)
(k )
与 A( x)
T
A( x)
在X*的邻域内Lipschitz连续时,有
1
(i ) F t1( i ) , t 2 , tl( i ) , x1 , x2 , xn y ( i )
就是第i个实验点到该曲面的一种“距离”。 为计算方便,通常把 m
i 1
(i ) s( x1 , x2 xn ) [ F (t1 , tl( i ) , x1 xn ) y (i ) ]2
若 则
n
yR
m
t , t t
(i ) 1 (i ) 2
(i ) T l
R l i=1~m
fi ( x) F (t (i ) , x) y(i) ,
i=1~m.
f ( x) ( f1 ( x), f m ( x))T Rm
则上面问题可记为:min f(x)Tf(x) (3) (3) 即为最小二乘法问题一般形式。 当f(x)为线性向量值函数时,称(3)为线性最小 二乘法问题。 否则,原问题称为非线性最小二乘法问题。
5.2 线性最小二乘法问题的解法
当f(x)取线性形式 即f(x)=Ax-b.A是m×n矩阵, b Rm 则(3)为:min||Ax-b||2
(m<n) (6)
定理1 x*是(6)的极小点的充要条件是x*满足向量组: ATAx*=ATb (7) 证:
必要性.对F ( x) || Ax b ||2 ( Ax b, Ax b) X T AT AX 2bT AX bT b 求导为:F ( x) 2 AT AX 2 AT b 若x * 是F ( x)的极小点。则必有F ( x*) 0 由此得AT AX * AT b
而<-1时,由上式可见, xk 不收敛到极小点0
由定理3可见,若||S*||≠0,则收敛仅是线性的,而且||S*||越大收敛越慢, A* 另一方面定理3中不等式表明:若 A*T的最小特征值越小,即
A*T A*
越接近奇异,GN法的收敛就越慢,由于在极小点处g*=0,从而
A*T 为奇异 A* ,所以不能
对于实际一组参数x1,x2…xn的值,(1)给出l+1 维空间中的一个超曲面。第i个实验点 ( t1(i) ,t2(i) ,…tl(i) )在(1)中就确定超曲面上一个点即 相应的函数值:
(i ) (i ) ~ y (i ) F (t1 , t2 ,tl(i ) , x1 xn )
(i ) ~ y 这个函数值 与测量值y(i)之差的绝对值
(*)
可见,若 0,则GN 法只须一步迭代即找到最优解 x* xk 1 0
而这个现象很清楚:因=0时,f1,f2均为线性函数,从而GN法 即化为Newton法. 而当≠0时,若 xk 充分小,则(*)可改写为: 2 xk 1 xk o( xk )
F ( x*) F (0) 2 0 因而可见其收敛速度是线性的,其原因是
h
( k 1)
[ A( x*) A( x*)]
T
1
S ( x*) h
(k )
o( h
(k ) 2
)
其中
h( k ) x ( k ) x *
m i 1
2 F ( x ) f i ( x) 定理4:设
满足上面定理条件,若在极小点X*处 (k ) F(x*)=0,则当初始点充分接近于X*时,GN法产生的点列 x 收 敛于X*,且收敛速度为2阶的. 例: 求解最小二乘问题:
充分性:设 x * 满足( 7)即:AT ( AX * - b) 0 对任意向量V X * Z R n .计算 AV - b
* 2
A( X Z ) - b
* 2
来自百度文库
2
AX - b AX - b
*
AZ AZ
2
2 Z T AT ( AX * - b) 0
2
2 2
T
5.3 Gauss-Newton法
下面讨论 min S ( x) min f T ( x) f ( x) min f ( x) 的非线性最小二乘问题的求解. 在Newton迭代公式中(5)忽略 Sk 得:
2
(9)
AT ( xk ) A( xk )Pk AT ( xk ) f ( xk )
T
正定性知: A A A f
1 T k 1 k T k k
1
gk 0
即 Pk 为下降方向. 为了放松算法对 x0 的要求,保证GN收敛性,作如下修正:
T Ak )1 Ak f k 由(10)给出 Pk ( Ak
不按(11)产生 xk+1 ,而对F(x)进行直线搜索
k
T Fk 1 Fk 2 k Ak fk
X k 1 X k k Pk
P
T
k
成立
其中 0,1 为一给定参数 关于 k 的存在性与算法收敛性在此不加讨论.
可以证明 当 det Ak Ak 0 时,(11)确定的方向 Pk 为(9)的下 降方向,这是因为: 1 T T T det Ak Ak 0, 则Ak Ak 正定,从而Ak Ak 正定
则F ( x) f ( x)T f ( x)的梯度向量g ( x) 2f ( x)T f ( x) 而F ( x)的Hessian矩阵为:G ( x) 2f ( x)T f ( x) 2 f i ( x) 2 f i ( x)
i 1 m
若令S ( x) f i ( x) 2 f i ( x)
从而构成(9)的Gauss-Newton法:
T T Ak Ak Pk Ak fk X k 1 X k Pk
(10)
(11)
而(10)称为法方程
与Newton法不同的是, AkT Ak 至少半正定的,而当 Ak 满秩时, Pk 为一下降方向,但与Newton法一样,并不能保证 Fk 1 Fk ,而 且只有当初始点充分接近于极小点X * 时,才能使算法收敛
A*T f * 0 因此若f*≠0,即F*≠0,则A*必降秩,从而
期望GN有快的收敛速度. 与Newton一样,为了得到全局收敛性,需引进长因子,由
T T Ak Ak Pk Ak fk
A*T A* 确定方向 Pk
并令
其中 k 为线性搜索步长,可采用下面一种不精确线性搜索 即取 2 k ,而 k 为最小的非负整数,使得:
f1 x1 , x2 , xn 0 f x , x , x 0 2 1 2 n f m x1 , x2 , xn 0
min f i 2 x1 , x2 , xn
i 1
m
(3)是有n个变量的无约束极小化问题,一般可 以用前面介绍的最优化方法求解。考虑到(3)的特 殊形式,可以考虑更有效、更简单的方法求解。 f 的Jacobi矩阵:
第五章 最小二乘问题
5.1 引言
在数字处理中经常遇到寻求回归方程的问题,即根据一 组实验数据建立两个或多个物理量(俗称因素)之间的在 统计意义上的依赖关系式。 这类问题的数学模型如下: 设物理量 y 与物理量 t1,t2,…tl 之间的依赖关系式,设 其方程为: y=F(t1,…tl,x1…xn) (1) 其中 x1…xn为待定参数。我们的问题是如何通过m(>n) 个实验点 [t1(i) ,t2(i) ,…tl(i), y(i)]T i=1,2…m 确定(1)中n个 参数x1,x2…xn.从而建立回归方程。
A A正定 rankA n
推论1 当 rankA n, 则X * ( AT A)1 AT b
(8)
推论2
推论3
AAT 正定 rankA m
AT A正定 det AT A 0
但实际中A的秩不可能事先知道,而求rankA与求解 线性方程组几乎等价,因而 AT A 的正定性也不能事先确 定,因此(8)仅具有理论意义,而且即使 AT A 正定,也不用 (8)去求(6)的解. 在 A A 已知正定时,一般可用Cholesky分解求线 性方程组(7). 在 AT A 正定性不能确定时,可用QR分解法求解.
因为 AZ
2
≥ 0.则 AV - b
2
≥ AX - b
*
可见X *是(6)的极小点。
称形如(7)的方程组为最小二乘问题(6)的法方程组.
可见求解线性最小二乘问题等价于求解它的法方程组.
又因为
V R n , 有V
A AV
AV
2
0
故 A A 至少是半正定的.
定理2 A是m×n矩阵(m≤n)则 为(6)的唯一最小二乘解.
即[ AT ( xk ) A( xk ) S ( xk )]Pk AT ( xk ) f ( xk ) X k 1 X k Pk
主要计算量是 Sk 的计算,尽管Sk对称,也包含 (1/2)mn(n+1)个二阶偏导数,但Hesse矩阵中第一项只含 一阶导数的信息。因此为简化计算,我们或者忽略Sk, 或者用一阶导数的信息逼近Sk。 由(4)可知,当 2 fi ( x) 接近0或 fi(x)接近线性从而 接 近于0,此时才可以忽略 Sk,因此这类算法又称为最小余 量算法。 而称逼近Sk的一类算法为大余量算法。
T
又F ( x) 2 f i ( x)f i ( x) 2 A( x)T f ( x)
i 1 T 设g k Ak f k , 当xk 非聚点时,g k 0
m
则F ( x) 2 g k ,由 A Ak
T k
F ( xk ) Pk f ( xk )
T T T 2 g k Ak Ak
f1 x 1 f 2 x1 A f ( x ) f m x1 f1 f1 x2 xn f 2 f 2 x2 xn f m f m x2 xn
i 1
m
则有G ( x) 2 AT ( x) A( x) 2 S ( x) 先考虑无约束最优化的Newton法: 2 f ( xk )( x xk ) f ( xk )
T T 则在此处有 2 A ( x ) A ( x ) 2 S ( x ) P 2 f ( x ) f ( xk ) k k k k k
由(10)可得:Pk
A( xk ) f ( xk )
AT ( xk ) A( xk )
3 2 2 xk 3 xk2 2 xk 2 xk 1 xk pk xk 1 (2 xk 1) 2 3 2 2 xk xk2 2 xk 1 (2 xk 1) 2
min F ( x) ( x 1) 2 ( x 2 x 1) 2 ( x R) 0) 0) 当 1时,x 0为极小点,这是因为:F ( 0,F( 1 〉 0 下面用GN 算法求F ( x)的极小点,因为:f(x)=(( x 1), ( x 2 x 1))T A( x) f ( x) (1, 2 x 1)T , A( x)T A( x) 1 (2 x 1) 2 AT ( x) f ( x) 2 2 x 3 3 x 2 2 x 2
(2)
作为m个实验点到该曲面“总距离”的度量。
如何选择参数 x1…xn 使(2)达到极小这就是最 小二乘法问题。上述问题用向量形式记为:
min F ( x) - Y
其中 F ( x) = [ F (t
(1)
2
, x), F (t ( 2) , x), F (t ( m) , x)]T
t
(i )
xR