高斯牛顿
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高斯牛顿法
●问题描述:高斯牛顿法用于进行非线性最小二乘法拟合,即无约束最优化问题
n是变量数目,目标函数f(x)是由m个辅助剩余函数定义r(x),最小二乘化就是要得到剩余函数平方和的最小值。
很多最优化的问题都是最小二乘法进行最小估计的问题。下面看一个例子:
上述函数是以t为自变量,y为函数值,t为年,y为人口数目;那么剩余函数就是我们所要构建的模型函数与实际函数的差值。
假设人口增长符合指数分布,那么令:
那么剩余函数就是:
●几何描述:最小化的问题就是求解上述函数平方和的最小值。若把r看做是一个向量,
可以得到:
这个问题就可以引申为寻找Rn中点x1和x2来得到模型函数,而且这个点对应在Rm
中的曲线是最接近函数原始值的。
●Gradient and Hessian
⏹Gradient是这样定义的:
雅克比矩阵:在向量微积分中,雅可比矩阵是一阶偏导数以一定方式排列成的矩阵,其行列式称为雅可比行列式。雅可比矩阵的重要性在于它体现了一个可微方程与给出点的最优线性逼近。因此,雅可比矩阵类似于多元函数的导数。
⏹Hessian是这样定义的:
Hessian由两个函数决定,J(x)是一阶偏导数,Q(x)是二阶偏导数。
对于之前提到的那个应用问题:
Hessian是两个部分的和
若r(x)=0,则Q(x)=0,那么结果就会比较接近;
高斯牛顿方法就是用来近似逼近使Q(x)=0,使用如下公式:
如果假设J(X)是满秩的,那么J(x)TJ(x)就是正定的,而且pGN是下降收敛。否则上式就无法得到收敛的结果。
假设r(x)用线性泰勒函数展开近似为:
前面的公式就可以改变为:
那么高斯牛顿线性逼近就如上图,即寻找O点距离模型图距离最近的点,也就是rk,那么就是这条直线与模型的切线。
那么与原来的牛顿方法进行比较:
若f(x)=0,即Q(x)=0,那么高斯牛顿方法就和普通的牛顿方法一样收敛,如果J(x)是满秩的话;
比牛顿方法优秀的地方在于不用计算二阶导数,省去了计算量;
如果二阶导数值较大,那么高斯牛顿迭代的速度比普通的牛顿方法要慢;
对于有些使用高斯牛顿方法局部不收敛的问题,如果没有一个好的全局策略,那么高斯牛顿都不会收敛,不管我们初始化的值距离收敛值多近。
假设;
距离x*较近的地方,v1对上述值影响最大,函数r(x)的值对v1方向也最敏感;
同样,对Vn方向是最不敏感。
●之前函数可定义为:
ε定义为误差,服从N(0, σ2)分布,
误差值较高表示参数的一个较高的不确定性;
参数和方差的估计可以进行置信度的范围限制,可以用于假设实验;对于线性逼近的问题,方差估计值是确定的,而对于非线性的逼近问题,方差估计值也是确定的,但
是置信度范围就是不确定的。