最小二乘法的综述及算例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

题目:最小二乘法的综述及算例院系:航天学院自动化

班级:

学号:

学生签名:

指导教师签名:

日期:2011年12月6日

目录

1.综述 (3)

2.概念 (3)

3.原理 (4)

4.算例 (6)

5.总结 (10)

参考文献 (10)

1.综述

最小二乘法最早是由高斯提出的,这是数据处理的一种很有效的统计方法。高斯用这种方法解决了天文学方面的问题,特别是确定了某些行星和彗星的天体轨迹。这类天体的椭圆轨迹由5个参数确定,原则上,只要对它的位置做5次测量就足以确定它的整个轨迹。但由于存在测量误差,由5次测量所确定的运行轨迹极不可靠,相反,要进行多次测量,用最小二乘法消除测量误差,得到有关轨迹参数的更精确的值。最小二乘法近似将几十次甚至上百次的观察所产生的高维空间问题降到了椭圆轨迹模型的五维参数空间。

最小二乘法普遍适用于各个科学领域,它在解决实际问题中发挥了重要的作用。它在生产实践、科学实验及经济活动中均有广泛应用。比如说,我们引入等效时间的概念,根据Arrhenius 函数和指数函数研究水化热化学反应速率随温度的变化,最后采用最小二乘法回归分析试验数据,确定绝热温升和等效时间的关系式。

为了更好地掌握最小二乘法,我们引入以下两个问题:

(1)假设已知一组二维数据(i i y x ,),(i=1,2,3···n ),怎样确定它的拟合曲线y=f(x)(假

设为多项式形式f(x)=n

n x a x a a +++...10),使得这些点与曲线总体来说尽量接近?

(2)若拟合模型为非多项式形式bx

ae y =,怎样根据已知的二维数据用最小二乘线性拟合确定其系数,求出曲线拟合函数?

怎样从给定的二维数据出发,寻找一个简单合理的函数来拟合给定的一组看上去杂乱无章的数据,正是我们要解决的问题。

2.概念

在科学实验的统计方法研究中,往往要从一组实验数(i i y x ,)(i=1,2,3···m )中寻找自变量x 与y 之间的函数关系y=F(x).由于观测数据往往不准确,此时不要求y=F(x)经过所有点(i i y x ,),而只要求在给定i x 上误差i δ=F (i x )i y -(i=1,2,3···m )按某种标准最小。

若记δ=

()δδ

δm

T

2

,1,就是要求向量δ的范数δ

最小。如果用最大范数,计算上困

难较大,通常就采用Euclid 范数2

δ

作为误差度量的标准。

关于最小二乘法的一般提法是:对于给定的一组数据(i i y x ,) (i=0,1,…m)要求在函数空间Φ=span{

n ϕϕϕ,....,,10}中找一个函数S*(x),使加权的误差平方和22

δ

=

2

)

)()((i

i

m

i i

y x S x -∑=ω最小,其中,0)(>=i x ω是[a,b]上的权函数,它表示反应数据(i i y x ,)

在实验中所占数据的比重。

我们说,S(x)=)()()(1100x a x a x a n n ϕϕϕ+++ (n

在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立经验方程。

为了通过试验数据来估计参数的值,可以采用许多统计方法,而最小二乘法是目前最常用、最基本的。

3.原理

1.最小二乘法原理

简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小.

在我们研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1.x2, y2... xm , ym);将这些数据描绘在x -y 直角坐标系中,若发现这些点在一条直线附近,可以令这条直线方程如(式1-1)。 Y= a0 + a1 X (式1-1) 其中:a0、a1 是任意实数

为建立这直线方程就要确定a0和a1,应用《最小二乘法原理》,将实测值Yi 与利用(式1-1)计算值(Y=a0+a1X)的离差(Yi-Y 计)的平方和〔∑(Yi - Y 计)2〕最小为“优化判据”。

令:

φ = ∑(Yi - Y 计)2 (式1-2)

把(式1-1)代入(式1-2)中得: φ = ∑(Yi - a0 - a1 Xi)2 (式1-3)

当∑(Yi -Y)平方最小时,可用函数 φ 对a0、a1求偏导数,令这两个偏导数等于零。

亦即:

m a0 + (∑Xi ) a1 = ∑Yi (式1-4)

(∑Xi ) a0 + (∑Xi2 ) a1 = ∑(Xi, Yi) (式1-5)

得到的两个关于a0、a1为未知数的两个方程组,解这两个方程组得出:

a0 = (∑Yi) / m - a1(∑Xi) / m (式1-6)

a1 = [m∑Xi Yi - (∑Xi ∑Yi)] / [m∑Xi2 - (∑Xi)2 )] (式1-7)

这时把a0、a1代入(式1-1)中,此时的(式1-1)就是我们回归的元线性方程即:数学模型。

在回归过程中,回归的关联式是不可能全部通过每个回归数据点(x1, y1. x2, y2...xm,ym),为了判断关联式的好坏,可借助相关系数“R”,统计量“F”,剩余标准偏差“S”进行判断;“R”越趋近于 1 越好;“F”的绝对值越大越好;“S”越趋近于0 越好。

R = [∑XiYi - m (∑Xi / m)(∑Yi / m)]/ SQR{[∑Xi2 - m (∑Xi / m)2][∑Yi2 - m (∑Yi / m)2]} (式1-10) *

在(式1-1)中,m为样本容量,即实验次数;Xi、Yi分别任意一组实验X、Y的数值。

从计算的角度看,最小二乘法与插值法类似,都是处理数据的算法.但从创设的思想看,二者却有本质的不同。前者寻求一条曲线,使其与观测数据“最接近”,目的是代表观测数据的趋势;后者则是使曲线严格通过给定的观测数据,其目的是通过来自函数模型的数据来近似刻画该函数.在观测数据带有测量误差的情况下,就会使得这些观测数据偏离函数曲线,结果使得与观测数据保持一致的插值法不如最小二乘法得到的曲线更符合客观实际。

最小二乘法公式

∑(X--X平)(Y--Y平)=∑(XY--X平Y--XY平+X平Y平)=∑XY--X平∑Y--Y平∑X+nX 平Y平=∑XY--nX平Y平--nX平Y平+nX平Y平=∑XY--nX平Y平

∑(X --X平)^2=∑(X^2--2XX平+X平^2)=∑X^2--2nX平^2+nX平^2=∑X^2--nX平^2

Y=kX+b: k=((XY)平--X平*Y平)/((X^2)平--(X平)^2);b=Y平--kX平X平=1/n∑Xi;(XY)平=1/n∑XiYi

2.什么时候用最小二乘法

在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立经验方程.

例如,在现实世界中,这样的情形大量存在着:两个变量X和Y(比如身高和体重)彼此有一些依赖关系,由X可以部分地决定Y的值,但这种关系又是不确定的.人们常常借助统计学中的回归模型来寻找两个变量之间的关系,而模型的建立当然是依据观测数据.首先通过试验或调查获得x和Y的一组对应关系(x1,Y1),(x2,Y2),…,(x n,Y n),然后回答下列5个问题:

1. 这两个变量是否有关系?(画出散点图,作直观判断)

2. 这些关系是否可以近似用函数模型来描述?(利用散点图、已积累的函数曲线形状的知识和试验数据,选择适当的回归模型,如一元线性模型y=b0+b1x,二次函数模型y=b0+b1x+b2x2等)

相关文档
最新文档