最小二乘法的历史回顾与现状

合集下载

最小二乘法概述

最小二乘法概述

最小二乘法一、简介最小二乘法,又称最小平方法,是一种数学技术。

它通过最小误差的平方和寻找数据函数的最佳匹配。

最小二乘法是提供“观测组合”的主要工具之一,它依据对某事件的大量观测而获得“最佳”结果或“最可能”表现形式。

如已知两变量为线性关系bx a y +=,对其进行)2(>n n 次观测而获得n 对数据。

若将这n 对数据代入方程求解a ,b 之值则无确定解。

最小二乘法提供了一个求解方法,其基本思想就是寻找“最接近”这n 个观测点的直线。

最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。

相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。

作为其进一步发展或纠正其不足而采取的对策,不少近现代的数理统计学分支也是在最小二乘法基础上衍生出来的。

最小二乘法之于数理统计学,有如微积分之于数学,这并非夸张之辞。

统计学应用的几个分支如相关分析、回归分析、方差分析和线性模型理论等,其关键都在于最小二乘法的应用不少现代的统计学研究是在此法的基础上衍生出来,作为其进一步发展或纠正其不足之处而采取的对策,如回归分析中一系列修正最小二乘法而产生的估计方法等就是最好的例子。

二、创立思想勒让德在先驱者解线性方程组的基础上,以整体的思想方法创立了最小二乘法;高斯由寻找随机误差函数为突破,以独特的概率思想导出了正态分布,详尽地阐述了最小二乘法的理论依据。

最小二乘法(OLSE)的思想就是要使得观测点和估计点的距离平方和达到最小,在各方程的误差之间建立一种平衡,从而防止某一极端误差,对决定参数的估计值取得支配地位,有助于揭示系统的更接近真实的状态。

这里的“二乘”指的是用平方来度量观测点与估计点的远近,“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小。

三、原理设一组数据(,)i i x y (1,2,,)i n = ,现用近似曲线)(x y ϕ=拟合这组数据,“拟合得最好”的标准是所选择的()x ϕ在i x 处的函数值()i x ϕ(1,2,,)i n = 与i y (1,2,,)i n = 相差很小,即偏差(也称残差)()i i x y ϕ-(1,2,,)i n = 都很小.一种方法是使偏差之和()1ni i i x y ϕ=⎡⎤⎣⎦∑-很小来保证每个偏差都很小.但偏差有正有负,在求和的时候可能相互抵消.为了避免这种情况,还可使偏差的绝对值之和()1||ni i i x y ϕ=-∑为最小.但这个式子中有绝对值符号,不便于分析讨论.由于任何实数的平方都是正数或零,因而我们可选择使“偏差平方和21ni i i x y ϕ=-∑[()]最小”的原则来保证每个偏差的绝对值都很小,从而得到最佳拟合曲线y =()x ϕ.这种“偏差平方和最小”的原则称为最小二乘原则,而按最小二乘法原则拟合曲线的方法称为最小二乘法或称最小二乘曲线拟合法.一般而言,所求得的拟合函数可以使不同的函数类,拟合曲线()x ϕ都是由m 个线性无关函数()1x ϕ,()2x ϕ ,…, ()m x ϕ的线性组合而成,即()()()()1122m m x a x a x a x ϕϕϕϕ=+++…)1(-<n m ,其中1a ,2a ,…,m a 为待定系数.线性无关函数()1x ϕ,()2x ϕ ,…()m x ϕ,称为基函数,常用的基函数有: 多项式:1,x , 2x ,…,m x ;三角函数: sin x ,sin 2x ,…,sin mx ;指数函数:x x x m e e e λλλ,,,21 ,x λ2e,…,x λme.最小二乘法又称曲线拟合,所谓“ 拟合” ,即不要求所作的曲线完全通过所有的数据点,只要求所得的近似曲线能反映数据的基本趋势,它的实质是离散情况下的最小平方逼近.四、运用曲线拟合做最小二乘法 1 一元线性拟合已知实测到的一组数据(,)i i x y (1,2,,)i n = ,求作这组数据所成的一元线性关系式.设线性关系式为y a bx =+,求出a 和b 即可.法一:即要满足则)(令,0,0,,12=∂∂=∂∂--=∑=bsa sb a bx a y s ni i i ,则,a b 要满足s a ∂∂=0,sb∂∂=0.即 11()()ni i i n i i ii sy a bx a s y a bx x b==∂⎧--⎪⎪∂⎨∂⎪--⎪∂⎩∑∑=-2=0=-2=0化简得112111n n i i i i nn ni i i i i i i b a x y n n a x b x x y =====⎧⎪⎪⎨⎪⎪⎩∑∑∑∑∑1+=+= 从中解出1112211111n n n i i i ii i i n n i i i i n n i ii i n x y x yb n x x b a y x n n =======⎧⎪⎪⎪⎛⎫ ⎪⎨⎝⎭⎪⎪⎪⎩∑∑∑∑∑∑∑-=-=- (1) 法二:将i x ,i y 代入y a bx =+得矛盾方程组1122n y a bx y a bx y a bx n=+⎧⎪=+⎪⎨⎪⎪=+⎩ (2) 令A =12111n x x x ⎛⎫ ⎪⎪ ⎪ ⎪⎝⎭ ,B =12n y y y ⎛⎫⎪ ⎪ ⎪ ⎪⎝⎭,则(2)式可写成b B A a ⎛=⎫⎪⎝⎭,则对应的正规方程组为TTa b A B A A ⎛=⎫ ⎪⎝⎭,所以a b ⎛⎫ ⎪⎝⎭=1()T TA A AB -,其中A 称为结构矩阵,B 称为数据矩阵,T A A 称为信息矩阵,TA B 称为常数矩阵.2 多元线性拟合设变量y 与n 个变量1x ,2x ,…,n x (1n ≥)内在联系是线性的,即有如下关系式∑=+=nj j j x a a y 10,设j x 的第i 次测量值为ij x ,对应的函数值为i y (1,2,,)i m = ,则偏差平方和为s ='220111()()mm ni i i i ij i i j y y y a a x ===-=--∑∑∑,为了使s 取最小值得正规方程组011001111011202020m n i j ij i j m n i j ij i i j m n i j ij in i j ns y a a x a s y a a x x a s y a a x x a ======⎧∂⎛⎫=---=⎪ ⎪∂⎝⎭⎪⎪∂⎛⎫=---=⎪⎪∂⎨⎝⎭⎪⎪⎪∂⎛⎫=---=⎪ ⎪∂⎝⎭⎩∑∑∑∑∑∑ (3) 即011101111n m mij j i j i i mn m mik ij ik jik i i j i i ma x a y x a x x a x y =======⎧⎛⎫+= ⎪⎪⎝⎭⎪⎨⎛⎫⎪+= ⎪⎪⎝⎭⎩∑∑∑∑∑∑∑1,2,,k n = . (4) 将实验数据(,)i i x y 代入(4)式,即得m a a a ,,,10 .3 指数函数拟合科学实验得到一组数据(,)i i x y (1,2,,)i n = 时,还可以考虑用指数函数为基函数来拟合,此时设拟合函数具有形式bxy ae =(,a b 为待定系数).对上式两端取自然对数可得:ln ln y a bx =+ (9)令Y =ln y ,0ln b a =,则(9)式可转化为一元线性函数形式0Y b bx =+,此时将指数函数拟合转化成了一元线性拟合,利用一元线性拟合中的两种方法均可求出0b 和b ,继而根据0b a e =可求出a ,从而得出因变量y 与自变量x 之间的函数关系式0b bx bx y ae e +==4 对数函数拟合科学实验得到一组数据(,)i i x y (1,2,,)i n = 时,还可以考虑用对数函数为基函数来拟合,此时设拟合函数具有形式ln y a b x =+(0)x >(,a b 为待定系数).0b >时,y 随x 增大而增大,先快后慢;0b <时,y 随x 增大而减小,先快后慢.当以y 和ln x 绘制的散点图呈直线趋势时,可考虑采用对数函数描述y 与x 之间的非线性关系,式中的b 和a 分别为斜率和截距.这时令X =ln x ,就可以利用一元线性拟合的方法来求解.更一般的对数函数还可设为y =()ln a b x k ++,式中k 为一常量.五 举例例1 使电流通过2Ω的电阻,用伏特表测量电阻两端的电压V .测得数据如下表:t I /A1 2 4 6 8 10 t V /V1.83.78.212.015.820.2试用最小二乘法建立I 与V 之间的一元经验公式(有效数字保留到小数点后第3位). 解:可取一次线性关系式V a bI =+作为I 与V 之间的一元经验公式. 将数据代入得矛盾方程组1.82 3.748.2612.0815.81020.2a b a b a b a b a b a b +=⎧⎪+=⎪⎪+=⎨+=⎪⎪+=⎪+=⎩ 令1112141618110A ⎛⎫ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭, 1.83.78.212.015.820.2B ⎛⎫ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭,则上述矛盾方程组可写成矩阵形式0a A B b ⎛⎫-= ⎪⎝⎭由此得出其正规方程组0T T a A A A B b ⎛⎫-= ⎪⎝⎭,将数据代入即得63161.7031221442.4a b ⎛⎫⎛⎫⎛⎫-= ⎪⎪ ⎪⎝⎭⎝⎭⎝⎭,解之得0.212.032a b =-⎧⎨=⎩,故所求经验公式为0.2152.V I =-+. 例 2 在在开发一种抗过敏性的新药时,要对不同剂量的药效进行实验.10名患者各服用了该新药的一个特定的剂量.药物消失时立即纪录.观测值列于下表中.x 是剂量,y 是症状消除持续的日数.用7个不同的剂量, 其中3个剂量重复给两名患者.试给出y 与x 之间的一元经验公式(保留3位有效数字).1 2 3 4 5 6 7 8 9 10 ∑ /i x mg334566788959/i y d9 5 12 9 14 16 22 18 24 22 1512i x 9 9 16 25 36 36 49 64 64 81 389i i x y271548458496154144192198 1003解:可设y 与x 之间的经验公式为y a bx =+. 由上表可知,101i i x =∑59=,101i i y =∑151=,101i i i x y =∑1003=,1021i i x =∑389=,2101i i x =⎛⎫ ⎪⎝⎭∑3481= 再由(1)式可求得,1010101112101021110101003591512.7410389348110i i i ii i i i i i i x y x y b x x =====-⨯-⨯===⨯-⎛⎫- ⎪⎝⎭∑∑∑∑∑10101111 2.7415159 1.0710101010i i i i b a y x ===-=⨯-⨯=-∑∑所以y 与x 之间的经验公式为 1.07 2.74y x =-+.最小二乘法能将从实验中得出的一大堆看上去杂乱无章的数据中找出一定的规律,拟合成一条曲线来反映所给数据特点。

简述最小二乘法的思想

简述最小二乘法的思想

简述最小二乘法的思想
最小二乘法,简称最小二乘,是一种用于确定数学模型参数的最佳估计方法,由法国数学家费马于1850年提出,以求解任意给定的点集的拟合函数而被广泛使用。

其对样本的拟合精度是极高的,所以被大量应用于科学、工程等技术领域。

最小二乘法在近代数学中扮演着非常重要的角色,有很多学科的理论计算和应用技术都离不开它。

最小二乘法的思想是最小化误差函数。

一般来说,当需要估计多元函数的参数时,我们可以用最小二乘法来解决。

最小二乘法的原理是采用残差平方和来衡量拟合数据的精度,通过最小化残差的平方和来求解待求函数的参数,使得拟合数据精度最高。

最小二乘法通常用于拟合不同尺度的函数,典型的模型包括线性函数模型、多项式模型、径向基函数模型(RBF)等等。

对于线性模型,最小二乘法可以给出最优参数,而对于非线性模型,最小二乘法则可以通过牛顿-高斯迭代算法从初始参数迭代近似求解。

最小二乘法有一些优点:算法简单,实现容易,收敛速度快;样本数量少时,可以拟合出准确的模型;仅需估计观测值的均方根误差;有利于监测和预测。

然而,最小二乘法也有一些缺点,首先,当有噪声时,它不能准确地拟合数据;此外,还存在多重共线性问题;最后,它容易造成过拟合,当给定的样本数量增加时,参数估计精度并不会得到极大程度的改善。

总之,最小二乘法被广泛运用于科学研究,无论是拟合函数还是
拟合参数,它都是一种快速、简单而有效的算法。

它不仅可以节省很多计算量,而且拟合的精度也是极高的,通常可以得到更好的结果。

最小二乘法

最小二乘法

最小二乘法一、最小二乘法概述最小二乘法是1795年高斯在预测星体运行轨道最先提出的,它奠定了最小二乘估计理论的基础.到了20世纪60年代瑞典学者Austron 把这个方法用于动态系统的辨识中,在这种辨识方法中,首先给出模型类型,在该类型下确定系统模型的最优参数。

我们可以将所研究的对象按照对其了解的程度分成白箱、灰箱和黑箱。

于其内部结构、 机制只了解一部分,对于其内部运行规律并不十分清楚,这样的研究对象通常称之为 “灰箱”;如果我们对于研究对象的内部结构、 内部机制及运行规律均一无所知的话,则把这样的研究对象称之为“黑箱”。

研究灰箱和黑箱时,将研究的对象看作是一个系统,通过建立该系统的模型,对模型参数进行辨识来确定该系统的运行规律。

对于动态系统辨识的方法有很多,但其中应用最广泛,辨识效果良好的就是最小二乘辨识方法,研究最小二乘法在系统辨识中的应用具有现实的、广泛的意义。

应用最小二乘法对系统模型参数进行辨识的方法有离线辨识和在线辨识两种离线辨识是在采集到系统模型所需全部输入输出数据后,用最小二乘法对数据进行集中处理,从而获得模型参数的估计值;而在线辨识是一种在系统运行过程中进行的递推辨识方法,所应用的数据是实时采集的系统输入输出数据,应用递推算法对参数估计值进行不断修正,以取得更为准确的参数估计值。

假设一个SISO 系统如下图所示:图1 SISO 系统结构图其离散传递函数为:(1)输入输出的关系为:)()()()(1k y k e z G k u =+•- (2)进一步,我们可以得到:)()()()()(11k e z B k u z A k y +⋅=⋅-- (3)其中,扰动量)(k e 为均值为0,不相关的白噪声。

将式(3)写成差分方程的形式:)()()2()1()()2()1()(2121k e n k u b k u b k u b n k y a k y a k y a k y n n +-⋯+-+-+--⋯-----=(4)令T n k u k u k u n k y k y k y k ])()2()1()()2()1([)(-⋯----⋯----=ϕnn n n z a z a z a z b z b z b z A z B z G ---------+⋯++++⋯++==221122111111)()()(][2121n nb b b a a a ⋯⋯=θ则式(4)可以写为:)()()(k e k k y T+=θϕ (5)将上述式子扩展到N 个输入、输出观测值{)(),(k y k u },k=1,2,…,N+n 。

最小二乘法的创立及其思想方法

最小二乘法的创立及其思想方法

最小二乘法的创立及其思想方法最小二乘法是一种数学统计方法,广泛应用于各种领域,如线性回归、曲线拟合、数据拟合等。

它的创立可以追溯到18世纪末,法国数学家勒让德在其著作《解析力学》中首次提出。

从那时起,最小二乘法逐渐成为数学、统计学和经济学等领域的重要工具。

最小二乘法的基本概念是:找到一个函数或模型,使得它与给定数据之间的平方误差之和最小。

这个函数或模型可以是一次线性、二次曲线或者其他更为复杂的模型。

最小二乘法具有广泛的应用范围,例如在机器学习中的线性回归、时间序列分析中的自回归模型、金融中的资本资产定价模型等。

收集数据:从总体中抽取样本数据,这些数据通常包括自变量和因变量。

建立模型:根据数据的特征和问题的实际情况,选择一个合适的函数或模型作为预测模型。

计算平方误差:将实际观测值与模型预测值之间的差距平方,计算出平方误差。

最小化误差:通过最小化平方误差之和,找到一个最优的模型参数,使得预测值与实际观测值之间的差距尽可能小。

求解最优参数:通常使用代数方法或迭代方法来求解最小二乘问题,例如线性回归中的正规方程法或梯度下降法。

评估模型:使用诸如R-squared等统计指标来评估模型的拟合优度,并检查是否存在过拟合或欠拟合。

最小二乘法在各个领域都有广泛的应用实例。

例如,在机器学习中,我们可以使用最小二乘法来训练线性回归模型,预测连续型变量的值;在经济学中,最小二乘法可以用于估计资产价格受各种因素影响的关系;在测量学中,最小二乘法可以用于拟合实验数据,得到更加精确的测量结果。

最小二乘法是一种非常实用的数学方法,它通过最小化平方误差之和来找到最佳的模型参数,从而提高了模型的拟合优度和预测准确性。

在实际应用中,我们需要根据具体的领域和数据特征来选择合适的函数或模型,并根据实际数据情况进行参数调整和优化。

在统计学和数据分析领域,最小二乘法是一种常用的参数估计方法,用于拟合线性模型并预测数据。

然而,在某些情况下,经典最小二乘法可能无法提供完全准确的结果,这时需要使用全最小二乘法。

10 勒让德发明最小二乘法

10 勒让德发明最小二乘法

勒让德发明最小二乘法勒让德是法国大数学家,在数学的许多领域,包括椭圆积分,数论和几何等方面,都有重大的贡献。

最小二乘法最先出现在他于1805年发表的一本题为《计算彗星轨道的新方法》著作的附录中,该附录占据了这本长80页著作的最后9页。

勒让德在这本书前面几十页关于彗星轨道计算的讨论中没有使用最小二乘法,可见在他刚开始写作时,这一方法尚未在他头脑中成形。

历史资料还表明,勒让德在参加量测过巴黎子午线长这项工作很久以后还未发现这个方法。

考虑到此书发表于1805年且该法出现在书尾的附录中,可以推测他发现这个方法当在1805年或之前不久的某个时间。

勒让德在该书72~75页描述了最小二乘法的思想、具体作法及方法的优点。

他提到:使误差平方和达到最小,在各方程的误差之间建立了一种平衡,从而防止了某一极端误差(对决定参数的估计值)取得支配地位,而这有助于揭示系统的更接近真实的状态。

的确,考察勒让德之前一些学者的做法,都是把立足点放在解出一个线性方程组上。

这种做法对于误差在各方程之间的分布的影响如何,是不清楚的。

在方法的具体操作上,勒让德指出,为实现20111()ni i ki k i xx x θθ=+++=∑ 最小而对各i θ求偏导数所形成的线性方程组⎪⎪⎩⎪⎪⎨⎧=====+∑∑==.,,1,,,1,0,,,,1,0110k j k r x x s k j s ni ji ri rj kr j r rj θθ (13)只涉及简单的加、乘运算,至于解线性方程组,这是当时已知的其他方法也不免的。

现今我们把(13)叫做正则方程组,这是后来高斯引进的称呼。

关于最小二乘法的优点,勒让德指出了以下几条。

一是通常的算术平均值是其一特例。

第二,如果观察值全部严格符合某一线性方程,则这个方程必是最小二乘法的解。

第三,如果在事后打算弃置某些观察值不用或增加了新的观察值,对正则方程的修改易于完成。

从现在的观点看,这方法只涉及解线性方程组是其最重要的优点之一(其他的重要优点包括此法在统计推断上的一些优良性质,以及其广泛的适用性)。

最小二乘法的发展历史

最小二乘法的发展历史

最小二乘法的发展历史最小二乘法是数学中的一种方法,是用来解决方程组的,通俗地可以理解为“最小化误差”。

它在数据处理、工程、统计学等领域得到了广泛的应用。

下面,我们将会简单地介绍一下最小二乘法的发展历程。

首先,我们需要了解一下最小二乘法的基本思想:通过寻找一个最小的误差平方和,来确定各项系数的值,使方程组成立。

这个思想其实早在17世纪就有人想到了,但是真正用于实际应用的时间却比较晚。

到了18世纪,高斯提出了正态分布和标准误差等概念,为发展最小二乘法打下了基础。

19世纪初,高等代数中出现的矩阵理论,更加严谨地推动了最小二乘法的发展。

1870年左右,德国数学家高斯、佩林和赫尔姆霍兹等人,开始将最小二乘法应用于天文学和导航上。

随后,英国物理学家爱德华·阿德金斯和法国数学家勒让德分别提出了关于最小二乘法的重要理论。

20世纪初,统计学家费歇尔提出了关于回归分析的最小二乘法模型,并在实际应用中取得了一定的成果。

此后,最小二乘法在统计学和数学中的应用更加广泛。

除了最小二乘法本身的理论不断完善之外,人们还提出了各种改进方案。

例如,使用非线性的最小二乘法可以更好地解决数据拟合问题;而广义最小二乘法则可以应用于时间序列分析等领域。

总的来说,最小二乘法的发展历程可以概括为:17世纪“最小化误差”的基本思想出现;18-19世纪逐步形成理论基础,应用于天文学和导航;20世纪则进一步推广至回归分析和数据拟合,随着计算机技术的进步,最小二乘法在实际应用中的地位更加重要。

总之,最小二乘法的发展历程表明了人类不断探索的精神和对于数学思想的不懈追求。

同时,也证明了最小二乘法的实用性和重要性。

未来,我们相信最小二乘法还将继续得到发展和应用,为人类的科学探索和日常工作提供更加完善的支持。

浅谈最小二乘法的原理及其应用【文献综述】

浅谈最小二乘法的原理及其应用【文献综述】

文献综述信息与计算科学浅谈最小二乘法的原理及其应用最小二乘法最早是由高斯提出来的, 主要用于天文学和地测学, 在早期数理统计方法的发展中, 这两门科学起了很大的作用, 故丹麦统计学家霍尔把它们称为“数理统计学的母亲”.随着现代电子计算机的发展, 也使得最小二乘法的运用变得更为普及, 在参数估计、系统辨识以及预测、预报等众多领域都有着广泛的作用.最小二乘法(又称最小平方法)是一种数学优化技术.它通过最小化误差的平方和寻找数据的最佳函数匹配. 传统的曲线最小二乘法的原理是成对等精度地测得一组数据, 试找出一条最佳的拟合曲线, 使得这条拟合曲线上的各点的值与测(,)(1,2,...,)i i x y i n 量值的差的平方和在所有拟合曲线中最小.虽然最小二乘法简单易行, 应用广泛, 但仍然存在一些问题: 计算量较大, 当观测数据 较多时, 计算会显得复杂, 尤其是要进行矩阵求逆, 矩阵阶数高时更为复杂; 容易受系统误差的影响, 系统误差的存在导致了最小二乘估计不再是无偏估计, 使得估计无效; 受测量误差相关性的影响, 从理论上讲, 当观测误差相关时, 取权矩阵为协方差矩阵的逆, 便可得到线性无偏最小方差估计. 但在实际情况中, 协方差矩阵是未知的; 当观测数据含较大异常值时, 将严重影响最小二乘估计结果.经过长期的发展研究, 针对传统最小二乘法存在的问题, 人们对其做了进一步的探究并提出了一些改进方法:1. 移动最小二乘法移动最小二乘法是形成无网格方法逼近函数的方法之一, 已在无网格方法中得到广泛 应用. 其优点是有很好的数学理论支持, 因为基于最小二乘法, 所以数值精确度较高. 对于每个固定点, 移动最小二乘法即为通常的最小二乘法. 移动最小二乘法和最小二乘法具有同样的缺点, 即易形成病态或奇异的方程组.程玉民等人在文[6]中对移动最小二乘法做了进一步的研究探讨, 对移动最小二乘法做了改进, 同时还评述了各种移动最小二乘法的优缺点, 并概述各种移动最小二乘法形成的无网格方法的研究进展. 运用各种移动最小二乘法求解静态和动态断裂力学, 求解弹塑性等问题.2. 加权最小二乘法如果模型被检验证明存在异方差性, 则需要发展新的方法估计模型, 最常用的方法是加权最小二乘法. 加权最小二乘法是对原模型加权, 使之变成一个新的不存在异方差性的模型, 然后采用普通最小二乘法估计其参数.在文[7]中, 王淑英、高永胜为了达到所有实测点与拟合曲线间的相对误差尽量不超过某一百分比的原则要求, 提出了非线性的加权最小二乘法及线性相关方程的最小距离平方和法, 探讨改进了传统的最小二乘法达到优化的效果.3. 偏最小二乘法偏最小二乘法是通过最小化误差的平方和找到一组数据的最佳函数匹配. 其特点为: 能够在自变量存在严重多重相关性的条件下进行回归建模; 允许在样本点个数少于变量个数的条件下进行回归建模; 偏最小二乘回归在最终模型中将包含原有的所有自变量; 偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声); 在偏最小二乘回归模型中, 每一个自变量的回归系数将更容易解释.另外, 在文[8]中, 宋殿瑞等人结合一元线性拟合、多元线性拟合、非线性拟合等多个问题提出了最小二乘法在应用时应该注意的几个问题: 一个是慎重选择拟合关系式; 另一个则是注意自变量的选择. 孙彦清在文[9]中对最小二乘法线性拟合应注意的两个问题中从理论上分析了最小二乘法原理及其在实际曲线拟合问题中的应用, 指出了最小乘法处理线性拟合应注意的两个问题: 拟合应用条件和误差比较. 在文[10]中, 张庆海等人通过实验观测, 用一种新型的实验方法表明了弹簧振子系统中弹簧的惯性质量对小振动系统的减震周期(或减震频率)有影响, 其振动有效质量系数在误差范围内和理论推导一致. 在文[11]中, 学者代锦辉对最小二乘法在实验数据处理和在数学研究上面的应用做了相应的介绍和研究, 使人们认识到: 在科学实验中处理数据时, 在自变量有误差的情况下, 用最小二乘法的几种方法处理实验数据, 这样可以降低在实际测量中由于测量数据无法避免的误差, 从而提高科学实验的准确性, 更加突出实验的科学性. 这也使得最小二乘法在数学研究及科学实验中有着更为广泛的运用. 在文[12]中, 张红贵等人有效地解决了传统最小二乘法在线性相关分析中出现的不合理问题, 使分析结果与实际符合良好, 回归方程具有良好的可逆性.为解决各种实际问题, 人们还提出了很多其他改进, 如主成份估计(用较少的变量去估算原来模型中大部分的数据, 将我们手中相关性很高的变量转化成彼此相互独立或不相关的变量)、全最小二乘估计、模糊最小二乘估计等. 所有这些方法, 各有特色和针对性, 但每种方法或多或少都存在一些问题, 所以还需要对其继续研究, 并进行相应的改进, 使其能更好地应用于实际问题的解决中.参考文献[1] GU Xiangqian,KANG Hongwen,CAO Hongxing.The least-square method in complexnumber domain[J].Progress in Natural Science.2006,1:59-63.[2] LI Guo-qing,MENG Zhao-ping,MA Feng-shan,ZHAO Hai-jun,DING De-min,LIUQin,WANG Cheng.Calculation of stratum surface principal curvature based on moving least square method. Journal of China University of Mining&Technology.2008,3:307-312.[3] 陈希孺.最小二乘法的历史回顾与现状[J].中国科学院研究生院学报.1998,1:4-11.[4] 张玉祥.最小二乘法述评[J].飞行器控制技术.1993,1:19-25.[5] 贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法[J].西北大学学报.2006,3:507-511.[6] 程玉民.移动最小二乘法研究进展与评述[J].计算机辅助工程.2009,2:5-11.[7] 王淑英,高永胜.改进的最小二乘法在水文分析计算中的应用[J].水文.2003.5:5-9.[8] 宋殿瑞,宋文臣,刘朋振.最小二乘法应用探讨[J].青岛化工学院学报.1998,3:296-301.[9] 孙彦清.最小二乘法线性拟合应注意的两个问题[J].汉中师范学院学报.2002,1:59-61.[10] 张庆海,潘华锦,齐建英.用最小二乘法测弹簧的有效质量[J].大学物理.2002,11:33-34.[11] 代锦辉. 最小二乘法处理自变量误差实验数据的方法 [J]. 实验科学与技术学报, 2006,4(4): 21-46.[12] 张红贵,宋志尧,章卫胜.潮位相关分析中的最小二乘法研究[J].水道港口.2007,3:153-155.。

【文献综述】最小二乘法及其应用

【文献综述】最小二乘法及其应用

文献综述信息与计算科学最小二乘法及其应用计算方法是应用数学的重要专业基础课,它讨论的是如何运用现代计算工具高效求解科学与工程中的数值计算问题。

今天,科学与实验、理论分析一起成为当今科学活动的主要方式。

在物理、化学、力学、材料科学、环境科学、信息科学和生物科学等领域,计算方法和技术已经成为被广泛接受的科学研究手段。

现在,计算在科学研究和工程设计中几乎无所不在,对科技的发展起到举足轻重的作用。

[1]最小二乘法作为计算方法中一个重要的数学方法,得到了广泛的研究与应用。

发现最小二乘法的动因是天文学和测地学中处理数据的需要。

陈希孺先生所著《数理统计学简史》中记载了这样一段历史。

在18世纪,天文学和测地学中的一些数据分析问题可以描述如下:有(m+1)个可以测量的量x0,x1,…,xm,和m个未知的参数β1,β2,…,βm。

按照某种理论,它们之间应有线性关系。

⑴但是由于实际工作中对x0,x1,…,xm的测量存在误差,而且⑴式只是理论上的近似而非严格成立。

也就是说,⑴式左边的表达式实际上不等于0,其真实值与测量有关,可视为一种误差。

若进行了n次测量,在实际问题中,n总是大于甚至是远远大于m,目的是多提供一些信息,以便对参数β1,β2,…,βm作出较精确的估计。

设在第i次测量中,x0,x1,…,xm分别取值x0i,x1i,…,xmi,则按照⑴式,应有(i=1,2,…,n)⑵若⑵式严格成立,则只要从上述n个方程中任意挑出m个就可以解出β1,β2,…,βm的值。

但⑵式并非严格成立,于是需要设计合适的算法来估计参数的值。

1750年,天文学家梅耶发表了一种方法,他在研究海上航行船只的定位问题时,得到了一个包含3个未知参数的形如⑴式的关系式以及27组观测数据。

梅耶把这27个方程分成3组,然后把每组中的9个方程相加,共得到3个方程,这样可以解出3个未知参数。

至于分组的方法,梅耶以其中一个系数为准,按各方程中此系数的大小分组:最大的9个,最小的9个和剩下的9个各成一组。

【文献综述】最小二乘法的原理和应用

【文献综述】最小二乘法的原理和应用

文献综述数学与应用数学最小二乘法的原理和应用一、国内外状况天文学自古代至18世纪是应用数学中最发达的领域。

观测和数学天文学给出了建立数学模型及数据拟合的最初例子,在此种意义下,天文学家就是最初的数理统计学家。

天文学的问题逐渐引导到算术平均,以及参数模型中的种种估计方法,以最小二乘法为顶峰。

1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。

经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。

随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。

时年24岁的高斯也计算了谷神星的轨道。

奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。

勒让德是法国军事学校的教授,曾任多界政府委员,后来成了多科工艺学校的总监,直至1833年逝世。

有记载最小二乘法最早出现在勒让德1805年发表的论著《计算彗星轨道的新方法》附录中。

他在该书中描述了最小二乘法的思想、具体做法及其优点。

勒让德的成功在于它从一个新的角度来看待这个问题,不像其前辈那样致力于找出几个方程(个数等于未知数的个数)再去求解,而是考虑误差在整体上的平衡。

从某种意义讲,最小二乘法是一个处理观测值的纯粹代数方法。

要将其应用于统计推断问题就需要考虑观测值的误差,确定误差分布的函数形式。

勒让德曾与高斯为谁最早创立最小二乘法原理发生争执。

1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,因此被称为高斯-莫卡夫定理。

最小二乘法是提供“观测组合”的主要工具之一,它依据对某事件的大量观测而获得“最佳”结果或“最可能”表现形式。

如已知两变量为线性关系y=a+dx,对其进行n(n>2)次观测而获得n对数据,若将这n对数据代入方程求解a 、b 之值则无确定解。

最小二乘问题的研究现状

最小二乘问题的研究现状
贡 平 邺
( 淮北师范大学数学科学 学院 , 安徽淮北 2 5 0 ) 3 0 0
\ ● ● ● ●● ●’ 、

述.
要 :实际 中,经常遇到最 小二乘 的求解问题 . 对于最小二乘问题的最优解法 , 家学者们都在积极地研 究、 专
论证 . 了能对 最小二 乘 问题有初步的 了解 ,本 文就最 小二 乘 问题 的基 本解 法和 近几年 的成 果进 行 简单 的阐 为
1 1 1 线性无 约束 最 小 二乘 问题 的解 法 . .
对 于线 性无 约束 最 小二 乘 问题 的解 法 ,主要 介
收 稿 日期 : 0 I一1 21 0—1 4
作者简 介 : 贡平邺 ( 97一) 男 , , 18 , 汉 安徽 蚌埠人 , 士研 究生 , 硕 研究 方 向: 融数 学 金
关 Байду номын сангаас 词 : 小二 乘 ;线 性 ;非 线 性 最
中图分类号:24 0 2
文献标识码: A
文章编号: 0 9— 9 0 2 1 ) 2— 0 1一 5 10 4 7 ( 0 2 0 0 1 O
实践 中大 量 的最优 化 问题都 是 以最 小二 乘 问题 形 式存 在 的 , 于无 约 束最 优 化 问 题 , 小 二 乘 的 对 最
一 b
( 6 )
R = g 得 Lg n 乘子A . N ar g ae
算 法 2( 性 等 式 约 束 最 小 二 乘 问 题 的 L— 线 a
ga g 乘 子法 ) rn e
我 们主 要介 绍有效 集方 法 . 算法 如下 算 法 ( 性不 等式 约 束 最 小二 乘 问 题 的有 效 集 线
r( 是 的非线 性 函数 时 ,( ) 为 非 线性 最 d -- ) 1称  ̄ '

最小二乘法简介

最小二乘法简介
一般而言,拟合函数φ(x)可以使不同的函数 类,由m个线性无关函数φ1(x),φ2(x),...,φm(x)的 线性组合而成,即
x a11 x a22 x… amm x (m n 1)
其中,a1,a2,...,am为待定系数,φ1(x),φ2(x),...,φm(x) 称为基函数。常用的基函数有: 多项式:1,x, x2,…,xm; 三角函数:sinx,sin2x,...,sinmx;
i1
(
yi

a

bห้องสมุดไป่ตู้i
)=0

s
b
n
=-2
i1
(
yi

a

bxi
)xi=0
b=
n
n
n
n xi yi- xi yi
i 1
i 1 i 1
n
n
i 1
xi2-
n

i 1
xi
2
a=
1 n
n

i 1
yi-
b n
n

i 1
xi
2、多元性拟合
n
s (i yi a bxi)2 i 1
令 s 0, s 0 a b
四、最小二乘法应用
利用实际试验采集到的数据,建立 回归模型,运用最小二乘估计进行趋势 分析及预测,比如经济趋势预测,工业 产量控制等等。
高斯
由寻找随机误差函数为突破,以独特的概率思想导出 了正态分布,详尽地阐述了最小二乘法的理论依据。

设一组数据(xi ,yi)(i=1,2,...,n),现用近似
曲线y=φ(xi)拟合这组数据,“拟合得最好”的标
准是所选择的φ(xi)在xi处的函数值

最小二乘法的综述及算例

最小二乘法的综述及算例

百度文库•让每个人平等地捉升口我题目:最小二乘法的综述及算例院系:航天学院自动化班级: 学号:学生签名: 指导教师签名:日期:2011年12月6日目录1・综述 (3)2.概念 (3)百度文邮-让每个人平零地捉升口我3.原理 (4)4.算例 (6)5・总结 (10)参考文献 (10)1.综述最小二乘法最早是由髙斯提出的,这是数据处理的一种很有效的统汁方法。

高斯用这种方法解决了天文学方面的问题,特别是确立了某些行星和彗星的天体轨迹。

这类天体的椭圆轨迹由5个参数确龙,原则上,只要对它的位苣做5次测量就足以确定它的整个轨迹。

但由于存在测量误差,由5次测量所确定的运行轨迹极不可靠,相反,要进行多次测量,用最小二乘法消除测量误差,得到有关轨迹参数的更精确的值。

最小二乘法近似将几十次甚至上百次的观察所产生的髙维空间问题降到了椭圆轨迹模型的五维参数空间。

最小二乘法普颯适用于各个科学领域,它在解决实际问题中发挥了重要的作用。

它在生产实践、科学实验及经济活动中均有广泛应用。

比如说,我们引入等效时间的概念,根据Arrhenius函数和指数函数研究水化热化学反应速率随温度的变化,最后采用最小二乘法回归分析试验数据,确定绝热温升和等效时间的关系式。

为了更好地掌握最小二乘法,我们引入以下两个问题:(1)假设已知一组二维数据(“片),(i=l,2,3・・・n),怎样确定它的拟合曲线y=f(x)(假设为多项式形式f(x)=4 +®Y +...+“”X"),使得这些点与曲线总体来说尽量接近?(2)若拟合模型为非多项式形式,怎样根据已知的二维数据用最小二乘线性拟合确定其系数,求出曲线拟合函数?怎样从给左的二维数据岀发,寻找一个简单合理的函数来拟合给泄的一组看上去杂乱无章的数据,正是我们要解决的问题。

2.概念在科学实验的统汁方法研究中,往往要从一组实验数(兀,儿)(i=1.2,3・・・m)中寻找自变量x 与y之间的函数关系y=F(x).由于观测数拯往往不准确,此时不要求戶F(x)经过所有点(心,儿),而只要求在给立心上误差J. =F ( x, ) (i=l,2,3・・・m)按某种标准最小。

最小二乘法的历史回顾与现状

最小二乘法的历史回顾与现状

收稿日期: 1997-12-30第15卷第1期1998年5月 中国科学院研究生院学报Jour nal of Graduate Schoo l,Academia Sinica V o l.15 N o.1M ay 1998最小二乘法的历史回顾与现状陈希孺 院士(本院数学教学部)摘 要 对最小二乘法的意义、发现经过及与之有关的高斯正态误差理论的发展情况,作了简要论述;对这个方法在应用上的意义、理论上的进展以及与之相关的一些数理统计学问题,也作了概括性的介绍.关键词 最小二乘法,线性统计模型,M 估计1 最小二乘法的定义假定在研究一个问题时,从某种理论或假定出发,得到了一个模型.根据这个模型,我们感兴趣的某个量有其理论值,同时我们可以对这个量进行实际观测,而得出其观测值.由于种种原因——例如模型不完全正确以及观测有误差等,理论值与观测值会有差距,这差距的平方和H = (理论值-观测值)2(1)可以作为理论与实测符合程度的度量.(1)式中的求和是针对若干次不同的观测,通常,理论值中包含有未知参数(或参数向量)θ.最小二乘法(Least Squa res Method,以下简记为LSE)要求选择这样的θ值θ ,使H 达到最小.因此,LSE 的直接意义,是作为一种估计未知参数的方法.举一个简单例子.设有一个未知量θ,对它作了n 次测量,分别得出x 1,…,x n .在此,理论值是θ,观测值为x i ,(1)式定义的H =H (θ)= n i =1(x i -θ)2,使H (θ)达到最小的θ值为θ =(x 1+…+x n )/n =x -.因此,按LSE 应取各次观察值的平均值x -去估计θ.这就是常用的取算术平均的方法从LSE 角度的解释.本例中最小值为H (θ )= n i =1(x i -x -)2,其大小可以作为测量精度(因而x -这个估计的精度)的一种指标:此值愈大,表示测量的精度愈小,因而x -的精度也愈小.但还要注意一个情况,有可能各次测量很接近,但都有系统偏差.比方说,一架天平没有调好,1g 的东西,秤出来总在1.1g 左右.因此,以H (θ )之值去衡量测量精度(因而估计精度)有一个条件,即测量没有系统误差,在数理统计上把这称为无偏性(unbiasedness ).如果以e 记测量的随机误差,则无偏性的统计表述是Ee =0,E 是所谓数学期望.直观上说,就是在多次测量之下,正负偏差都可能出现并在概率意义上相互抵消.当这个条件满足时,H (θ )确实可以作为刻划估计精度的指标,具体如何做,在数理统计学中有仔细介绍,此处不多说了.在统计上使用LSE 时,一般都要假定这种无偏性成立,当然,在实际操作中要保证这个条件,需要细心地做好有关的工作,以消除系统误差可能的来源.举一个稍复杂一点的例子.设有两个相关的量x ,y (例如人的身高、体重),对之进行n 次观测,得(x i ,y i ),i =1,…,n .在直角坐标系中,这些点大体上沿一条直线分布,因此有一定理由4图1把这问题的理论模型设定为直线y =θ1+θ2x .按这个模型,在x i 处y 的理论值应为θ1+θ2x i ,而实际观测结果为y i .因此,对本问题,(1)式定义的H 为H (θ1,θ2)= ni =1(y i -θ1-θ2x i )2,利用求极值的方法不难确定使H 达到最小的值θ 1和θ 2,它们是θ 1=y --θ 2x -,θ 2= ni =1(x i -x -)y i / n i =1(x i -x -)2.所定出的直线y =θ 1+θ 2x 与观测点{(x i ,y i ),1≤i ≤n }的拟合程度如何,可由最小值H (θ1,θ 2)刻划,此值愈大,表示点群的直线趋势并不强.此处看来没有涉及观测误差的问题,其实不然,很可能有这样的情况:原本x ,y 之间有直线关系(例如说)y =2x+1,但由于对x ,y 的观测有系统误差,从图上看,点群可能仍是聚集在一条直线附近,但这条直线与正确的直线y =2x +1偏离很远.当然,即使没有系统误差,但由于测量有随机误差,由LSE 所决定的直线y =θ 1+θ 2x 仍会与正确的直线y =θ1+θ2x i 有差距.但这种差距一般说比较小,且当观测次数n 较大时会很小.而系统误差存在时差距会较大,且不随测量次数的增加而降低.此例还值得注意的一点是:虽说x ,y 都是被观测的量,但在我们用LSE 去处理时,其地位不同,表现在理论值与观测值的偏差是以y 值为准而不以x 值为准.形式上,我们也可以倒过来,即以x 值为准来计偏差.这时用LSE 所拟合的直线,与刚才以y 为准所得者会不同.这个现象乍看似乎有些难于理解,但从统计学角度看是完全自然的,此处不详加说明.在统计上,把此处的x 叫做“解释变量”或“自变量”,而y 叫做“目标变量”或“因变量”.偏差以目标变量为准.在实用上,何者取为解释变量或目标变量,并非完全任意的,要看问题的性质而定.当x ,y 分别有“因”和“果”的含义时,一般总是取y 为目标变量.这个例子在统计学上称为“一元线性回归”.一元,指模型中只有一个自变量x ,它很容易推广到多个自变量的情况y =θ0+θ1x 1+…+θk x k ,其中x 1,…,x k 是自变量,叫“多元线性回归”.局限于这种线性情况,LSE 在计算上只涉及解线性方程组,因而不难实施.由于这个原因,加上高斯的正态误差理论,二者结合构成了应用统计中最强有力的方法,涵盖了应用统计中许多重要的分支,故有的统计学家把LSE 在统计学中的地位,比作微积分在数学中的地位.当然,LSE 也可用于非线性模型等一些更复杂的模型,但在计算上比较繁重,其统计理论也更为复杂.2 发现的历史在介绍了LSE 的基本概念后,我们来稍稍谈一下这个方法产生的历史过程.可以说,LSE 源于天文学和测地学上的应用需要.在早期数理统计方法的发展中,这两门科学起了很大的作用,故丹麦统计学家霍尔把它们称为“数理统计学的母亲”.5 1998年陈希孺:最小二乘法的历史回顾与现状5月 第15卷中国科学院研究生院学报第1期这种应用的一般模式,实际上就是我们上节讲到的多元线性回归,只是在解释上有所不同(从严格的统计理论观点上说,二者有很大的不同,但在应用上一般不加区别).假定在某个问题中,有一些不能或不易观测的量θ1,…,θk,另有一些容易观测的量x0,x1,…,x k,按理论(例如牛顿力学理论),它们应有严格的线性关系x0+x1θ1+…+x kθk=0(2)问题归结为:要根据(x0,x1,…,x k)的观测数据(x0i.…,x ki), i=1,…,n(3)去估计θ1,…,θk,它们被视为模型中的参数,按(2)式,由(3)中的观测值(x\-0i,…,x ki)将得出方程x0i+x1iθ1+…+x kiθk=0, i=1,…,n(4)共有n个方程.但是,由于观测有误差以及理论并非完全确切,代替(4)式实际上是x0i+x1iθ1+…+x kiθk=X i, 1≤i≤n(5)其中X1,…,X n为随机误差,这里要求n≥k,即观测次数应不少于未知参数,否则无法估计.如果误差不存在,即(4)式确切成立,那么问题好办,只须从(4)中的n个方程挑出k个,形成联立线性方程组,解出来即得到θ1,…,θk,的确切值.但因误差存在,我们实际上有的是(5).在这种情况下,如果仍沿用误差为0时的作法,即挑出k个方程去求解,则将得出一个低效率的解,因为没有把n个观测结果都利用上.这一点可以从本文开始那个简单例子中清楚看到:对一未知值θ作了n次测量得x1,…,x n,如果毫无误差,将得到n个方程x1-θ=0, x2-θ=0,…, x n-θ=0,(6)实际情况为x1-θ=X1,…,x n-θ=X n.如果只挑出一个方程,例如x1-θ=0,去求解,将得θ= x1,即只用第一个观测值x1去估计θ,其余皆弃之不用.这显然是很大的浪费.LSE的作法是相当于把(6)中n个方程相加,得n i=1x i-nθ=0,解出θ=x-.因此,问题在于怎样充分利用全部的观测结果(3),以期得到一个效率更高的估计.这个问题曾困扰了18世纪的一些学者,包括像欧拉和拉普拉斯这样的伟大数学家.例如,梅耶(J.T.Mayer)在1750年由确定地球上一点的经度问题,引出形如(4)(其实是(5))的一组方程,其中n=27而k= 3.梅耶把这27个方程分成3组,每组9个,将各组方程相加得出一个方程,这样共得到3个方程,可以解出θ1,θ2,θ3.这个方法在18世纪下半叶曾很为流行,但由于分组的方法无定规可循,在应用上不方便,因为不同的分组方法可得出差异很大的解.又如,欧拉(L.Euler)在1749年研究木星对土星轨道的影响时,得到n=75和k=8的一组方程.拉普拉斯也研究过这同一问题,得到n=24和k=4的一组方程.他们处理这个问题的方法与梅耶相似,即要设法从全部n个方程中构造出k个方程,以便解出θ1,…,θk.但他们的做法比梅耶更缺乏规则性,因而不能为解决这类问题指出一个一般的途径.现行的LSE是勒让德(A.M.Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的.该书有80页,包含8页附录,LSE就包含在这个附录中.勒让德之所以能作出这个发现,是因为他没有因袭前人的想法——要设法构造出k个方程去求解.他认识到关键不在于使某一方程严格符合,而在于要使误差以一种更平衡的方式分配到各个方程.具体地说,他寻求这样的θ值,使(5)式各误差的平方和,即n i=1(x i0+x i1θ1+…+x ikθk)2,达到最小.为什么取平方,而不取绝对值、四次方或其他函数?这就只能从计算的观点来解释了——至少在勒让德时代,不可能知道从统计学的角度看,选择平方这个函数有何优点,这方面的研究是那以后很久的事情.6图2 c 为子午线上一点;l 2为过该点的切线;l 1过c 指向天顶;h 为l 1、l 2的夹角,即c 点处的纬度;a 点的纬度比b 点高1°,且c 是a b 弧的中点虽然勒让德在1805年以前很久,就因天文学上的问题而遇到(5)式这样的方程组,但看来他并不是在与这些问题打交道时,才发现了LSE,因为在其上述著作正文中,他基本上没有提到这个方法.他发现这个方法,可能是在他参加的一项测地学工作中,即从1792年开始持续了10余年的量测过巴黎子午线之长的工作(当时把1米定义为此线长的4000万分之一).这个工作所用的模型,是根据地球略微有些椭性这个事实.如图2,由椭圆方程出发,根据地球椭性甚小而略去高次项,不难证明下面的近似公式:l (h )=θ1+θ2sin 2h ,式中h 为c 点的纬度,l (h )为子午线上以c 为中心1度的弧长,θ1,θ2为参数.若记x 0=-l (h ),x 1=1,x 2=sin 2h ,则上式成为x 0+x 1θ1+x 2θ2=0,即有(4)式的形状.在这项工作中,共在5个位置处测定了其纬度h 和l (h ),从而可用LSE 解出θ1和θ2的估值θ 1和θ 2,然后子午线的全长可用360l(45°)去估计之.从一种“事后诸葛亮”的眼光,我们现在看起来会觉得这个方法似乎平淡无奇,甚至是理所当然的.这正说明了创造性思维之可贵和不易.从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难.欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功.除了在思想上囿于“解方程”这一思维定势之外,也许还因为,这是一个实用性质的问题而非纯数学问题.解决这种问题,需要一种植根于实用而非纯数学精确性的思维.例如,按数学理论,容器以做成球形最省,但基于实际以至美学上的原因,在现实中有各种形状的容器存在.总之,从LSE 发现的历史中,使我们对纯数学和应用数学思维之间的差别,多少有一些启示.3 高斯的正态误差理论勒让德在其著作中,对LSE 的优点有所阐述.然而,到此为止,这个方法仍有其不足之处,即它纯是一个计算方法,缺少误差分析.我们不知道,使用这个方法引起的误差如何,因此也就无法知道,除了若干表面上的优点(例如计算上方便)之外,LSE 还有何深层次的优点.要研究这些问题,就需建立一种误差分析理论.从(5)式显然看到,误差X i 的大小对θi 的估计有重大影响,X i 的概率性质决定了θi 估计的统计性质.因此,要对X i 的概率性质给予适当的描述,这一点是德国大数学家高斯(C.F.Gauss)的功绩.早在17世纪,伽利略在其名著《关于两个世界的对话——托雷密与哥白尼》(1632)中,就讨论了随机误差及其分布的问题.虽然他并未提出这个名词,但他提出了随机误差的分布曲线应有图3的形状:f 关于0对称(即f (-X )=f (X ),这表示正负误差有同等出现的机会),f 在两边单调地衰减至0,即大误差出现的机会较小,很大误差的机会几乎为0.以后的学者在研究7 1998年陈希孺:最小二乘法的历史回顾与现状5月 图3a 是误差大小;f (a )是a 这样的误差发生的概率,或更确切地说,f (a )与这个概率成比例.图4误差理论时,多遵循这个出发点.但满足这种性质的函数很多,如何决定出一个具体形式是一个困难问题.最早接触这个问题的是辛普森(T .Simpso n ).1755年,他为了回答“算术平均优于一次观测”这个问题,考虑了图4那种三角形误差曲线.他用n =6的特例,通过计算证明了P (| 6i =1X i /6|<d )>P (|X 1|<d ), d >0这里X 1,…,X 6是6次观测的误差.上述不等式表明:算术平均的误差取小值的机会,比一次观测误差取小值的机会大,因而在这个意义上证明了取平均的优越性.以后拉格朗日(J .L .La-g rang e )考虑过f (X )=p 2-X 2(|X |≤p )和f (X )=co s X (|X |≤π/2)的形状,但在这个问题上用力最多的是拉普拉斯.他的出发点是要为函数f 规定一些应当满足的条件,以据此确定f .例如,他考虑的一种条件是,当X >0时,f (X )下降,f ′(X )也下降.他要求二者保持常数比例,这样定出f 有如下的形式:f (X )=m 2ex p(-m |X |), m >0为参数.这个分布如今在概率论中很有名,叫拉普拉斯分布.然而,用之作为误差分布却很不成功.拉普拉斯曾用它去分析3次观测的算术平均的误差,结果导致很复杂的分析问题,更一般的情况就不用说了.拉普拉斯后来还根据其他的考虑提出过另外的误差曲线的形式,也很不成功.现在轮到高斯,他不从单纯“把f 作为一个函数而要设法找出一些条件去决定它”这个思维定势出发,而是径直假定这样的“公理”:在多次观测中取平均是天然合理的.由此出发,再配合他的“极大似然”的想法(见下.极大似然的概念最初源出于此,但作为一个估计参数的一般方法提出来,应归功于费歇尔(R.A.Fisher)1912年的工作,很容易决定出f 应有f (X )=12πeexp -X 22e 2的形式.这就是概率论中最重要、最著名的正态分布,又称高斯分布.根据这个分布,按(5)式,(X1,…,X n )的联合密度为L =(2π)-n /2e -n ex p -12e2 n i =1(x 0i +x 1i θ1+…+x ki θk )2为要使L 达到最大(即极大似然),必须使n i =1(x 0i +x 1i θ1+…+x ki θk )2达到最小,从而引出LSE .当然,高斯理论的意义,并不在于给LSE 这样一个形式上的推证.其8 第15卷中国科学院研究生院学报第1期 1998年陈希孺:最小二乘法的历史回顾与现状5月意义在于:(1)无论从实际与理论(见下)看,正态误差是合理的选择;(2)在正态误差下,有一套严格简洁的小样本理论(其发展是本世纪的事),因而大大提高了LSE在实用上的方便和广泛性.可以说,没有高斯的正态误差理论配合,LSE的意义和重要性可能还不到其现今所具有的十分之一.LSE方法与高斯误差理论的结合,是数理统计史上最重大的成就之一,其影响直到今日也尚未过时.高斯的上述理论发表于其1809年的著作《关于绕日行星运动的理论》中.在此书中,他把LSE称为“我们的方法”,并声称他自1799年以来就使用这个方法,由此爆发了一场与勒让德的优先权之争.近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面形式的,以勒让德为早.然而,现今教科书和著作中,多把这个发明权归功于高斯.其原因,除了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义.在德国10马克的钞票上有高斯像,并配了一条正态曲线.在高斯众多伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响.在高斯发表其1809年著作之前,约在1780年左右,拉普拉斯已发现了概率论中的“中心极限定理”.根据这个定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态.测量误差正具有这种性质.一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加.因此,中心极限定理给误差的正态性提供了一种合理的理论解释.这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免给人一种不自然的感觉.耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯,都没有从这个结果的启示中去考察误差分布问题.对前者而言,可能是出于思维定势的束缚,这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布这个形式最早是狄莫弗(De M oiv re)1730年在研究二项概率的近似计算时得出的.以后也有其他学者使用过,但都没有被冠以他们的名字.高斯之所以获得这一殊荣,无疑是因为他把正态分布与误差理论联系了起来).4 应用和理论的拓展美国统计史学家斯蒂格勒(S.M.Stig ler)指出,LSE是19世纪数理统计学的压倒一切的主题.1815年时,这方法已成为法国、意大利和普鲁士在天文和测地学中的标准工具,到1825年时已在英国普遍使用.他指出,一个方法得到如此迅速的推广和接受,在科学方法的历史上鲜有类似的例子.这中间最重大的事情莫过于以下两件:(1)19世纪后期,约在1874~1890年之间,英国学者高尔顿(F.Galto n)从遗传现象的研究发现了相关回归,但高尔顿不善长数学,未能把有关的统计概念用确切的数学形式表达出来.这后一步工作稍后由英国统计学家皮尔逊(K.Pea rson)和约尔(U.Yule)所完成.结果显示:有关的计算完全是LSE的一种应用;(2)自1923年起,英国统计学家因分析农业试验的需要而发明了方差分析法.这方法的大意是:设y1,…,y n是一批通过试验或观测而得的数据,它们各各不同,在统计学上用T=n i=1(y i-y-)2去刻划这批数据变异的程度,称为总(变差)平方和.而y1,…,y n之所以有不同,除随机误差外,还可能因为受到一些系统性因素的影响.例如几块试验地上小麦亩产不同,可能由于使用的种子品种不同,所施肥料种类和数量不同等.试验的目的正在于考察这些因素对目标变量影响的有无及大小.方差分析法通过把总平方和分解为一些部分:T=Q1+…+Q R+E,每个Q i9 第15卷中国科学院研究生院学报第1期及E都是数据y1,…,y n的非负定二次型,使得Q i值的大小反映系统因素i的影响之大小,而E则反映随机误差影响之大小.这种分解式,从概念到计算,完全是基于LSE.目前相关回归方差分析及其他一些与LSE有密切关系的统计方法,仍占据了应用统计方法武库中的主导地位,因而LSE对数理统计学关系之重大,就可想而知了.至于LSE在理论上的进展,主要是本世纪的事情,且基本上是在线性统计模型的框架下.这种模型有形状Y i=x T i U+e i, 1≤i≤n(6)这里x1,x2,…是已知的p维向量,U是未知的p维参数向量,Y i是目标变量的观测值,而e i为随机误差.这个模型,随着x i取值性质的不同,包含了前述相关回归和方差分析等几个主要的统计分支.所取得的成就大略可分为三个方面:一是正态小样本理论,即假定e1,…,e n独立并各有正态分布N(0,e2).在这个情况下,发展了完善的抽样分布理论,可据以进行小样本统计推断,与应用的关系最直接;二是n固定时的代数(矩阵)理论,这个理论可以说发端于高斯,其特点是不对误差的分布作特定的假定.高斯于1823年在误差e1,…,e n独立同分布的假定下,证明了LSE的一个最优性质:在U的一切线性估计类中,在无偏的前提下,LSE是其中方差最小者.这个结果经过本世纪初马尔科夫的推广,称为高斯-马尔科夫定理,是模型(6)中LSE理论的基本定理.代数理论主要以矩阵方法为工具,沿着这个基本定理的线索向前发展,也涉及误差方差的二次型估计问题,LSE在线性估计类中的可容许性问题等.目前这方面的工作仍未终结;三是大样本理论,即有关在样本量n很大(在数学上是n→∞)时,LSE的渐近性质的研究.这种研究,除了在理论上有揭示LSE的深层次性质的意义外,还有其应用上的重要意义.因为在e1,…,e n不是正态分布时,有关统计量的分布定不出来,因而无法进行确切的统计推断.大样本理论提供了一个近似,可以在样本量n足够大时使用.目前这方面的理论已发展到很精深的程度,但还存在一些没有解决的困难问题.5 由改进最小二乘法所引起的研究自19世纪初至本世纪中叶,可以说LSE统治了应用统计的多数领域,这一点到目前可以说仍基本成立.但近几十年来,LSE的统治地位已开始有所动摇,其原因有内在和外在的.内在的原因是,应用上的经验及理论研究表明:LSE有一些缺憾,在有些情况下表现不好;外在的原因是,其他方法的研究有了重大进展,尤其是快速计算机的应用,使一些以往由于计算困难而无法使用的方法,如今也得以使用.因此LSE已不再是唯一可能的选择.先说前者.考虑模型(6),若记S=n i=1x i x T i,这是一个p阶方阵,则U的LSE可表为U= S-1n i=1x i y i.在有些情况下方阵S呈病态或接近退化,这时S-1的数值计算的精度很差.理论研究也表明,这时LSE的均方误差可以很大.针对这种情况及其他问题,统计学者提出了一些对策.它们仍是以LSE为基础,但作一些调整.例如由霍尔(A.E.Hoerl)和肯纳德(R.W.Kennard)在1970年提出的岭估计(Ridge Es-timate),用U(k)=(S+k I)-1n i=1x i y i取代LSE U去估计U,这里k>0而I为p阶单位阵.这样做的目的,是在S上加上k I后,降低其病态性.关于这个估计有不少研究,例如如何决定k 以及这个估计的性质如何.除此以外,学者们还提出了压缩估计、主成份估计、特征根估计等,都是基于LSE,但对它有所修改.10LSE缺憾的深层次原因,在于它选用了平方这个函数去衡量偏差,因而加大了数据中异常值(outlier)破坏性的影响.所谓异常值,是指由于系统性原因及人为错误而使某一数据严重失真.例如某一数据本是2.473,由于小数点位置记错而写成24.73,为对付这个问题,统计学家研究了发现数据中异常值的方法,以便在计算前将其剔除.但是,除了最简单的模型以外,有效的方法不容易作出,于是就想到用另外更根本的措施,即用其他方法取代LSE.或者说,用增长较慢的函数去取代平方,以压低异常值的影响,这就是所谓稳健(Robust)方法.这些方法中,最重要的一个要推最小一乘法,即用绝对值去取代平方来衡量偏差.例如,对一个未知量θ测量n次得x1,…,x n.按最小一乘法,应当找θ,使表达式ni=1|x i-θ|达到最小.不难证明,这个θ就是x1,…,x n按大小居于正中的那一个(n为奇数时),或是居于正中那两个的算术平均(n为偶数时),这个量称为x1,…,x n的样本中位数.如果数据中有个别异常值,它对算术平均的影响可能很大,但对样本中位数可能没有影响,或影响不大.这就是稳健性的含义:一个统计方法受到其少量异常值的影响愈小,则其稳健性愈好.从历史上说,最小一乘法的提出比LSE更早:它是波斯科维奇(R.J.Boscovitch)于1755年在处理一个测地学问题时提出的.他的问题相应于(5)式中的k=2,提出的极值准则是ni=1X i=0, ni=1|X i|最小.(7)他用一种几何的考虑解决了这个问题,但对更多的参数无能为力,后来人们废弃了(7)式中的前一条件.由于计算上的困难,这方法后来没有得到重视.直到本世纪50年代,发现了用线性规划求解最小一乘的方法.计算机的出现,理论研究上的突破,以及它在某些领域,特别是计量经济应用上的良好表现,这个方法日益受到应用者的重视.到1964年,统计学家休伯(P.J.Huber)推广了这个概念,提出在估计一个未知值的情况下,用一个特别选定的函数d取代平方:设对一个未知量θ作了n次测量得到x1,…,x n,则用使表达式n i=1d(x i-θ)达到最小的θ值去估计θ.d一般是一个偶函数,在正实轴上增加,增加的速度比平方为慢.一般说,增加愈慢,解的稳健性愈好.但稳健性有时是以牺牲效率为代价的,在实用上需要在这二者之间求得折衷.到1973年,休伯又把这个方法用于(6)式所定义的线性统计模型.这类估计在统计学上总称为M估计,是近若干年来统计研究的前沿和热点之一,目前在大样本理论方面已取得了不少深入的成果.istorical Backgrounds and Present State of the Least Squares MethodChen Xiru(The Gra duate School at B eijin g,University of Science and Tec h nology of China,B eijin g 100039)Abstract This paper gives a brief acco unt of the history of develo pment of Least Squares M ethods and Gaussian no rm al-error theo ry.A brief surv ey is also giv en fo r the prac-tical applications,theoretical dev elopments of the Least Squares Methods,and so me to pic in m ethematical sta tistics rela ted to this m ethod.Key words least squares method,linear statistical m odel,M-estimation11 1998年陈希孺:最小二乘法的历史回顾与现状5月。

最小二乘法的创立及其思想方法

最小二乘法的创立及其思想方法

最小二乘法的创立及其思想方法一、本文概述1、介绍最小二乘法的历史背景及其在统计学和数据分析中的重要性。

最小二乘法,这一数学分析方法的历史可以追溯到19世纪初的欧洲。

当时,天文学家、数学家和统计学家们正面临着如何从有限的观测数据中提取最大信息的问题。

最小二乘法的出现,为这一难题提供了有效的解决方案,并迅速在统计学、数据分析以及众多科学领域中得到广泛应用。

最小二乘法最初由法国数学家阿德里安-马里·勒让德在1805年提出,他尝试使用这一方法来预测行星轨道。

随后,在1809年和1810年,意大利天文学家朱塞普·皮亚齐分别独立地发表了最小二乘法在天文学领域的应用。

到了19世纪中叶,英国统计学家卡尔·弗里德里希·高斯重新发现了这一方法,并详细阐述了其在测量误差分析中的优势,进一步推动了最小二乘法在统计学中的普及。

随着计算机技术的飞速发展,最小二乘法在数据分析领域的应用也日益广泛。

它不仅被用于线性回归分析,还扩展到了非线性回归、时间序列分析、信号处理等多个领域。

通过最小二乘法,研究者可以从数据中提取出隐藏在背后的规律,为科学研究和决策提供有力支持。

因此,最小二乘法在统计学和数据分析中的重要性不言而喻。

它不仅是一种有效的数学工具,更是一种科学的思维方法,帮助我们更好地理解和分析现实世界中的复杂数据。

2、阐述本文的目的和结构,为读者提供文章的整体框架。

本文的主要目的是对最小二乘法的创立过程及其背后的思想方法进行深入的探讨和阐述。

最小二乘法作为一种数学优化技术,广泛应用于回归分析、数据拟合、预测分析等多个领域,具有极高的实用价值。

通过揭示最小二乘法的创立背景、发展脉络和思想内涵,本文旨在为读者提供一个全面、系统的理解框架,以便读者能够更好地掌握和应用这一重要的数学工具。

在结构上,本文首先将对最小二乘法的历史背景进行简要回顾,介绍其创立的时代背景和数学基础。

接着,本文将详细阐述最小二乘法的数学原理,包括其基本假设、求解方法以及与其他数学方法的联系和区别。

从现象到本质:最小二乘法

从现象到本质:最小二乘法

从现象到本质:最小二乘法作者:黄瑞来源:《文理导航·教育研究与实践》 2018年第7期揖摘要】最小二乘法又称最小平方法,是数学中求解最优化问题的一种有效便捷的方法。

它通过最小化误差的平方和寻找数据的最佳函数模型来匹配。

利用最小二乘法得到的最佳函数模型,可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。

本篇论文主要介绍最小二乘法的基本原理及推广应用。

【关键词】最小二乘法;基本原理一、最小二乘法的起源早在1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。

然而,由于谷神星运行到太阳背后,皮亚齐在跟踪观测40天后失去了谷神星的位置。

随后,成批的科学家利用皮亚齐的观测数据来寻找谷神星,但都不了了之,直到奥地利天文学家海因里希·奥尔伯斯根据24岁的高斯计算出来的轨道才重新寻找到谷神星。

而高斯所用的方法就是最小二乘法。

最小二乘法是用来刻画两个变量之间的线性相互关系的。

在平面直角坐标系中,假设有成对的数据(x1,y1 )(, x2,y2 ),…(, xn,yn ),我们希望能够运用一条直线来近似地刻画他们,我们假设这条直线为y=ax+b,那么关键就在于如何寻找最关键的参数a 和b,在寻找到a、b 这两个参数后,我们就可以根据得到的这条直线模型来对未知的数据进行预测估计。

二、最小二乘法是什么简单来说,最小二乘法采用的思想是使得观测点与估计点的距离的平方和达到最小。

其中,“二乘”在古汉语中就是平方的意思;而“最小”指的是对参数a、b 的估计值,需要保证各个观测点与其对应的估计点的距离的平方和达到最小。

这样做的目的实际上是最小化直线模型和观测点的误差和。

四、为什么要用最小二乘法来求解参数a,b最小二乘法求解参数的过程中,最关键的点在于距离以及平方。

这里我们就会提出一定的疑问:距离为什么用的是观测点到估计点的距离而不是观测点到直线的距离?为什么要。

最小二乘法简介

最小二乘法简介

8
2、多元性拟合
设变量y与n个变量x1,x2,…,xn(n≥1)内在联系是
线性的,即有y=a0+∑ajxj(j=1,...,n)。
m
n
s (yi a0 a j xij)2
i 1
j 1
令 s 0, s 0 a0 a j
s
a
0
m
2
i1
yi
a0
n
j 1
a
j xij
0
s a1
2

yi
a
b
x
)2
i
i 1
令 s 0, s 0 a b
2021/3/10
as =-2in1(yi a bxi )=0 bs=-2in1(yi a bxi )xi=0
b

n
n
n
n
xi
y

i
xi
yi
i1
i1
i1
n
n
i1
x
2 i

n
i1
xi
2
讲解:XaX=
1 n
n
y

i
i1
b n
n
xi
i1
多项式:1,x, x2,…,xm;
三角函数:sinx,sin2x,...,sinmx;
指数函数:eλ1x,eλ2x,...,eλmx。
2021/3/10
讲解:XX
7
1、一元线性拟合
已知实测到的一组数据(xi ,yi)(i=1,2,...,n),
设线性关系式为y=a+bx,最小二乘法求出a,b。
n
s
最小二乘法的思想方法及其应用

最小二乘法

最小二乘法

整理后有:
ˆ (H
T
H) H Y
-1Байду номын сангаас
T
(6-3)
一般情况下,量测次数N远大于待估计的参数的数目n。
例如:当模型形式为 Y=a1x1+a2x2+· · · · · · +anxn
一共进行了N 次量测时:
x1 x x 2 xn x1 (1) x2 (1) x (2) 2 H x1 ( N ) x 2 ( N )
实际过程 (或装置)
现在要使下列目标函数J为最小时,求出参数的估计值 ˆ
J R R
T 1 1 / 2 2 T ˆ ˆ Y H R 1 Y H



(6-2)
上式中R-1 是加权矩阵,在此讨论R=I(单位矩阵)时的最 小二乘估计。为了使J成为最小值,取
J ˆ) 0 H(Y - H
a1 xn (1) a xn (2) 2 x n ( N ) a n
y (1) y ( 2) Y y ( N ) e(1) e ( 2) e e( N )
最小二乘法
最小二乘法自高斯在1795年提出以来,已有二百多年的历
史,但至今仍广泛用于参数估计。其主要原因是这种方法简单 方便,而且是其他几种方法的基础。 设需要估计的模型用下列代数方程表示:
Y H e
(0-1)
上式中:Y—量测向量; θ—参数向量;H—量测矩阵 e—考虑量测误差的随机向量。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期: 1997-12-30第15卷第1期1998年5月 中国科学院研究生院学报Jour nal of Graduate Schoo l,Academia Sinica V o l.15 N o.1M ay 1998最小二乘法的历史回顾与现状陈希孺 院士(本院数学教学部)摘 要 对最小二乘法的意义、发现经过及与之有关的高斯正态误差理论的发展情况,作了简要论述;对这个方法在应用上的意义、理论上的进展以及与之相关的一些数理统计学问题,也作了概括性的介绍.关键词 最小二乘法,线性统计模型,M 估计1 最小二乘法的定义假定在研究一个问题时,从某种理论或假定出发,得到了一个模型.根据这个模型,我们感兴趣的某个量有其理论值,同时我们可以对这个量进行实际观测,而得出其观测值.由于种种原因——例如模型不完全正确以及观测有误差等,理论值与观测值会有差距,这差距的平方和H = (理论值-观测值)2(1)可以作为理论与实测符合程度的度量.(1)式中的求和是针对若干次不同的观测,通常,理论值中包含有未知参数(或参数向量)θ.最小二乘法(Least Squa res Method,以下简记为LSE)要求选择这样的θ值θ ,使H 达到最小.因此,LSE 的直接意义,是作为一种估计未知参数的方法.举一个简单例子.设有一个未知量θ,对它作了n 次测量,分别得出x 1,…,x n .在此,理论值是θ,观测值为x i ,(1)式定义的H =H (θ)= n i =1(x i -θ)2,使H (θ)达到最小的θ值为θ =(x 1+…+x n )/n =x -.因此,按LSE 应取各次观察值的平均值x -去估计θ.这就是常用的取算术平均的方法从LSE 角度的解释.本例中最小值为H (θ )= n i =1(x i -x -)2,其大小可以作为测量精度(因而x -这个估计的精度)的一种指标:此值愈大,表示测量的精度愈小,因而x -的精度也愈小.但还要注意一个情况,有可能各次测量很接近,但都有系统偏差.比方说,一架天平没有调好,1g 的东西,秤出来总在1.1g 左右.因此,以H (θ )之值去衡量测量精度(因而估计精度)有一个条件,即测量没有系统误差,在数理统计上把这称为无偏性(unbiasedness ).如果以e 记测量的随机误差,则无偏性的统计表述是Ee =0,E 是所谓数学期望.直观上说,就是在多次测量之下,正负偏差都可能出现并在概率意义上相互抵消.当这个条件满足时,H (θ )确实可以作为刻划估计精度的指标,具体如何做,在数理统计学中有仔细介绍,此处不多说了.在统计上使用LSE 时,一般都要假定这种无偏性成立,当然,在实际操作中要保证这个条件,需要细心地做好有关的工作,以消除系统误差可能的来源.举一个稍复杂一点的例子.设有两个相关的量x ,y (例如人的身高、体重),对之进行n 次观测,得(x i ,y i ),i =1,…,n .在直角坐标系中,这些点大体上沿一条直线分布,因此有一定理由4图1把这问题的理论模型设定为直线y =θ1+θ2x .按这个模型,在x i 处y 的理论值应为θ1+θ2x i ,而实际观测结果为y i .因此,对本问题,(1)式定义的H 为H (θ1,θ2)= ni =1(y i -θ1-θ2x i )2,利用求极值的方法不难确定使H 达到最小的值θ 1和θ 2,它们是θ 1=y --θ 2x -,θ 2= ni =1(x i -x -)y i / n i =1(x i -x -)2.所定出的直线y =θ 1+θ 2x 与观测点{(x i ,y i ),1≤i ≤n }的拟合程度如何,可由最小值H (θ1,θ 2)刻划,此值愈大,表示点群的直线趋势并不强.此处看来没有涉及观测误差的问题,其实不然,很可能有这样的情况:原本x ,y 之间有直线关系(例如说)y =2x+1,但由于对x ,y 的观测有系统误差,从图上看,点群可能仍是聚集在一条直线附近,但这条直线与正确的直线y =2x +1偏离很远.当然,即使没有系统误差,但由于测量有随机误差,由LSE 所决定的直线y =θ 1+θ 2x 仍会与正确的直线y =θ1+θ2x i 有差距.但这种差距一般说比较小,且当观测次数n 较大时会很小.而系统误差存在时差距会较大,且不随测量次数的增加而降低.此例还值得注意的一点是:虽说x ,y 都是被观测的量,但在我们用LSE 去处理时,其地位不同,表现在理论值与观测值的偏差是以y 值为准而不以x 值为准.形式上,我们也可以倒过来,即以x 值为准来计偏差.这时用LSE 所拟合的直线,与刚才以y 为准所得者会不同.这个现象乍看似乎有些难于理解,但从统计学角度看是完全自然的,此处不详加说明.在统计上,把此处的x 叫做“解释变量”或“自变量”,而y 叫做“目标变量”或“因变量”.偏差以目标变量为准.在实用上,何者取为解释变量或目标变量,并非完全任意的,要看问题的性质而定.当x ,y 分别有“因”和“果”的含义时,一般总是取y 为目标变量.这个例子在统计学上称为“一元线性回归”.一元,指模型中只有一个自变量x ,它很容易推广到多个自变量的情况y =θ0+θ1x 1+…+θk x k ,其中x 1,…,x k 是自变量,叫“多元线性回归”.局限于这种线性情况,LSE 在计算上只涉及解线性方程组,因而不难实施.由于这个原因,加上高斯的正态误差理论,二者结合构成了应用统计中最强有力的方法,涵盖了应用统计中许多重要的分支,故有的统计学家把LSE 在统计学中的地位,比作微积分在数学中的地位.当然,LSE 也可用于非线性模型等一些更复杂的模型,但在计算上比较繁重,其统计理论也更为复杂.2 发现的历史在介绍了LSE 的基本概念后,我们来稍稍谈一下这个方法产生的历史过程.可以说,LSE 源于天文学和测地学上的应用需要.在早期数理统计方法的发展中,这两门科学起了很大的作用,故丹麦统计学家霍尔把它们称为“数理统计学的母亲”.5 1998年陈希孺:最小二乘法的历史回顾与现状5月 第15卷中国科学院研究生院学报第1期这种应用的一般模式,实际上就是我们上节讲到的多元线性回归,只是在解释上有所不同(从严格的统计理论观点上说,二者有很大的不同,但在应用上一般不加区别).假定在某个问题中,有一些不能或不易观测的量θ1,…,θk,另有一些容易观测的量x0,x1,…,x k,按理论(例如牛顿力学理论),它们应有严格的线性关系x0+x1θ1+…+x kθk=0(2)问题归结为:要根据(x0,x1,…,x k)的观测数据(x0i.…,x ki), i=1,…,n(3)去估计θ1,…,θk,它们被视为模型中的参数,按(2)式,由(3)中的观测值(x\-0i,…,x ki)将得出方程x0i+x1iθ1+…+x kiθk=0, i=1,…,n(4)共有n个方程.但是,由于观测有误差以及理论并非完全确切,代替(4)式实际上是x0i+x1iθ1+…+x kiθk=X i, 1≤i≤n(5)其中X1,…,X n为随机误差,这里要求n≥k,即观测次数应不少于未知参数,否则无法估计.如果误差不存在,即(4)式确切成立,那么问题好办,只须从(4)中的n个方程挑出k个,形成联立线性方程组,解出来即得到θ1,…,θk,的确切值.但因误差存在,我们实际上有的是(5).在这种情况下,如果仍沿用误差为0时的作法,即挑出k个方程去求解,则将得出一个低效率的解,因为没有把n个观测结果都利用上.这一点可以从本文开始那个简单例子中清楚看到:对一未知值θ作了n次测量得x1,…,x n,如果毫无误差,将得到n个方程x1-θ=0, x2-θ=0,…, x n-θ=0,(6)实际情况为x1-θ=X1,…,x n-θ=X n.如果只挑出一个方程,例如x1-θ=0,去求解,将得θ= x1,即只用第一个观测值x1去估计θ,其余皆弃之不用.这显然是很大的浪费.LSE的作法是相当于把(6)中n个方程相加,得n i=1x i-nθ=0,解出θ=x-.因此,问题在于怎样充分利用全部的观测结果(3),以期得到一个效率更高的估计.这个问题曾困扰了18世纪的一些学者,包括像欧拉和拉普拉斯这样的伟大数学家.例如,梅耶(J.T.Mayer)在1750年由确定地球上一点的经度问题,引出形如(4)(其实是(5))的一组方程,其中n=27而k= 3.梅耶把这27个方程分成3组,每组9个,将各组方程相加得出一个方程,这样共得到3个方程,可以解出θ1,θ2,θ3.这个方法在18世纪下半叶曾很为流行,但由于分组的方法无定规可循,在应用上不方便,因为不同的分组方法可得出差异很大的解.又如,欧拉(L.Euler)在1749年研究木星对土星轨道的影响时,得到n=75和k=8的一组方程.拉普拉斯也研究过这同一问题,得到n=24和k=4的一组方程.他们处理这个问题的方法与梅耶相似,即要设法从全部n个方程中构造出k个方程,以便解出θ1,…,θk.但他们的做法比梅耶更缺乏规则性,因而不能为解决这类问题指出一个一般的途径.现行的LSE是勒让德(A.M.Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的.该书有80页,包含8页附录,LSE就包含在这个附录中.勒让德之所以能作出这个发现,是因为他没有因袭前人的想法——要设法构造出k个方程去求解.他认识到关键不在于使某一方程严格符合,而在于要使误差以一种更平衡的方式分配到各个方程.具体地说,他寻求这样的θ值,使(5)式各误差的平方和,即n i=1(x i0+x i1θ1+…+x ikθk)2,达到最小.为什么取平方,而不取绝对值、四次方或其他函数?这就只能从计算的观点来解释了——至少在勒让德时代,不可能知道从统计学的角度看,选择平方这个函数有何优点,这方面的研究是那以后很久的事情.6图2 c 为子午线上一点;l 2为过该点的切线;l 1过c 指向天顶;h 为l 1、l 2的夹角,即c 点处的纬度;a 点的纬度比b 点高1°,且c 是a b 弧的中点虽然勒让德在1805年以前很久,就因天文学上的问题而遇到(5)式这样的方程组,但看来他并不是在与这些问题打交道时,才发现了LSE,因为在其上述著作正文中,他基本上没有提到这个方法.他发现这个方法,可能是在他参加的一项测地学工作中,即从1792年开始持续了10余年的量测过巴黎子午线之长的工作(当时把1米定义为此线长的4000万分之一).这个工作所用的模型,是根据地球略微有些椭性这个事实.如图2,由椭圆方程出发,根据地球椭性甚小而略去高次项,不难证明下面的近似公式:l (h )=θ1+θ2sin 2h ,式中h 为c 点的纬度,l (h )为子午线上以c 为中心1度的弧长,θ1,θ2为参数.若记x 0=-l (h ),x 1=1,x 2=sin 2h ,则上式成为x 0+x 1θ1+x 2θ2=0,即有(4)式的形状.在这项工作中,共在5个位置处测定了其纬度h 和l (h ),从而可用LSE 解出θ1和θ2的估值θ 1和θ 2,然后子午线的全长可用360l(45°)去估计之.从一种“事后诸葛亮”的眼光,我们现在看起来会觉得这个方法似乎平淡无奇,甚至是理所当然的.这正说明了创造性思维之可贵和不易.从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难.欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功.除了在思想上囿于“解方程”这一思维定势之外,也许还因为,这是一个实用性质的问题而非纯数学问题.解决这种问题,需要一种植根于实用而非纯数学精确性的思维.例如,按数学理论,容器以做成球形最省,但基于实际以至美学上的原因,在现实中有各种形状的容器存在.总之,从LSE 发现的历史中,使我们对纯数学和应用数学思维之间的差别,多少有一些启示.3 高斯的正态误差理论勒让德在其著作中,对LSE 的优点有所阐述.然而,到此为止,这个方法仍有其不足之处,即它纯是一个计算方法,缺少误差分析.我们不知道,使用这个方法引起的误差如何,因此也就无法知道,除了若干表面上的优点(例如计算上方便)之外,LSE 还有何深层次的优点.要研究这些问题,就需建立一种误差分析理论.从(5)式显然看到,误差X i 的大小对θi 的估计有重大影响,X i 的概率性质决定了θi 估计的统计性质.因此,要对X i 的概率性质给予适当的描述,这一点是德国大数学家高斯(C.F.Gauss)的功绩.早在17世纪,伽利略在其名著《关于两个世界的对话——托雷密与哥白尼》(1632)中,就讨论了随机误差及其分布的问题.虽然他并未提出这个名词,但他提出了随机误差的分布曲线应有图3的形状:f 关于0对称(即f (-X )=f (X ),这表示正负误差有同等出现的机会),f 在两边单调地衰减至0,即大误差出现的机会较小,很大误差的机会几乎为0.以后的学者在研究7 1998年陈希孺:最小二乘法的历史回顾与现状5月 图3a 是误差大小;f (a )是a 这样的误差发生的概率,或更确切地说,f (a )与这个概率成比例.图4误差理论时,多遵循这个出发点.但满足这种性质的函数很多,如何决定出一个具体形式是一个困难问题.最早接触这个问题的是辛普森(T .Simpso n ).1755年,他为了回答“算术平均优于一次观测”这个问题,考虑了图4那种三角形误差曲线.他用n =6的特例,通过计算证明了P (| 6i =1X i /6|<d )>P (|X 1|<d ), d >0这里X 1,…,X 6是6次观测的误差.上述不等式表明:算术平均的误差取小值的机会,比一次观测误差取小值的机会大,因而在这个意义上证明了取平均的优越性.以后拉格朗日(J .L .La-g rang e )考虑过f (X )=p 2-X 2(|X |≤p )和f (X )=co s X (|X |≤π/2)的形状,但在这个问题上用力最多的是拉普拉斯.他的出发点是要为函数f 规定一些应当满足的条件,以据此确定f .例如,他考虑的一种条件是,当X >0时,f (X )下降,f ′(X )也下降.他要求二者保持常数比例,这样定出f 有如下的形式:f (X )=m 2ex p(-m |X |), m >0为参数.这个分布如今在概率论中很有名,叫拉普拉斯分布.然而,用之作为误差分布却很不成功.拉普拉斯曾用它去分析3次观测的算术平均的误差,结果导致很复杂的分析问题,更一般的情况就不用说了.拉普拉斯后来还根据其他的考虑提出过另外的误差曲线的形式,也很不成功.现在轮到高斯,他不从单纯“把f 作为一个函数而要设法找出一些条件去决定它”这个思维定势出发,而是径直假定这样的“公理”:在多次观测中取平均是天然合理的.由此出发,再配合他的“极大似然”的想法(见下.极大似然的概念最初源出于此,但作为一个估计参数的一般方法提出来,应归功于费歇尔(R.A.Fisher)1912年的工作,很容易决定出f 应有f (X )=12πeexp -X 22e 2的形式.这就是概率论中最重要、最著名的正态分布,又称高斯分布.根据这个分布,按(5)式,(X1,…,X n )的联合密度为L =(2π)-n /2e -n ex p -12e2 n i =1(x 0i +x 1i θ1+…+x ki θk )2为要使L 达到最大(即极大似然),必须使n i =1(x 0i +x 1i θ1+…+x ki θk )2达到最小,从而引出LSE .当然,高斯理论的意义,并不在于给LSE 这样一个形式上的推证.其8 第15卷中国科学院研究生院学报第1期 1998年陈希孺:最小二乘法的历史回顾与现状5月意义在于:(1)无论从实际与理论(见下)看,正态误差是合理的选择;(2)在正态误差下,有一套严格简洁的小样本理论(其发展是本世纪的事),因而大大提高了LSE在实用上的方便和广泛性.可以说,没有高斯的正态误差理论配合,LSE的意义和重要性可能还不到其现今所具有的十分之一.LSE方法与高斯误差理论的结合,是数理统计史上最重大的成就之一,其影响直到今日也尚未过时.高斯的上述理论发表于其1809年的著作《关于绕日行星运动的理论》中.在此书中,他把LSE称为“我们的方法”,并声称他自1799年以来就使用这个方法,由此爆发了一场与勒让德的优先权之争.近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面形式的,以勒让德为早.然而,现今教科书和著作中,多把这个发明权归功于高斯.其原因,除了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义.在德国10马克的钞票上有高斯像,并配了一条正态曲线.在高斯众多伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响.在高斯发表其1809年著作之前,约在1780年左右,拉普拉斯已发现了概率论中的“中心极限定理”.根据这个定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态.测量误差正具有这种性质.一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加.因此,中心极限定理给误差的正态性提供了一种合理的理论解释.这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免给人一种不自然的感觉.耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯,都没有从这个结果的启示中去考察误差分布问题.对前者而言,可能是出于思维定势的束缚,这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布这个形式最早是狄莫弗(De M oiv re)1730年在研究二项概率的近似计算时得出的.以后也有其他学者使用过,但都没有被冠以他们的名字.高斯之所以获得这一殊荣,无疑是因为他把正态分布与误差理论联系了起来).4 应用和理论的拓展美国统计史学家斯蒂格勒(S.M.Stig ler)指出,LSE是19世纪数理统计学的压倒一切的主题.1815年时,这方法已成为法国、意大利和普鲁士在天文和测地学中的标准工具,到1825年时已在英国普遍使用.他指出,一个方法得到如此迅速的推广和接受,在科学方法的历史上鲜有类似的例子.这中间最重大的事情莫过于以下两件:(1)19世纪后期,约在1874~1890年之间,英国学者高尔顿(F.Galto n)从遗传现象的研究发现了相关回归,但高尔顿不善长数学,未能把有关的统计概念用确切的数学形式表达出来.这后一步工作稍后由英国统计学家皮尔逊(K.Pea rson)和约尔(U.Yule)所完成.结果显示:有关的计算完全是LSE的一种应用;(2)自1923年起,英国统计学家因分析农业试验的需要而发明了方差分析法.这方法的大意是:设y1,…,y n是一批通过试验或观测而得的数据,它们各各不同,在统计学上用T=n i=1(y i-y-)2去刻划这批数据变异的程度,称为总(变差)平方和.而y1,…,y n之所以有不同,除随机误差外,还可能因为受到一些系统性因素的影响.例如几块试验地上小麦亩产不同,可能由于使用的种子品种不同,所施肥料种类和数量不同等.试验的目的正在于考察这些因素对目标变量影响的有无及大小.方差分析法通过把总平方和分解为一些部分:T=Q1+…+Q R+E,每个Q i9 第15卷中国科学院研究生院学报第1期及E都是数据y1,…,y n的非负定二次型,使得Q i值的大小反映系统因素i的影响之大小,而E则反映随机误差影响之大小.这种分解式,从概念到计算,完全是基于LSE.目前相关回归方差分析及其他一些与LSE有密切关系的统计方法,仍占据了应用统计方法武库中的主导地位,因而LSE对数理统计学关系之重大,就可想而知了.至于LSE在理论上的进展,主要是本世纪的事情,且基本上是在线性统计模型的框架下.这种模型有形状Y i=x T i U+e i, 1≤i≤n(6)这里x1,x2,…是已知的p维向量,U是未知的p维参数向量,Y i是目标变量的观测值,而e i为随机误差.这个模型,随着x i取值性质的不同,包含了前述相关回归和方差分析等几个主要的统计分支.所取得的成就大略可分为三个方面:一是正态小样本理论,即假定e1,…,e n独立并各有正态分布N(0,e2).在这个情况下,发展了完善的抽样分布理论,可据以进行小样本统计推断,与应用的关系最直接;二是n固定时的代数(矩阵)理论,这个理论可以说发端于高斯,其特点是不对误差的分布作特定的假定.高斯于1823年在误差e1,…,e n独立同分布的假定下,证明了LSE的一个最优性质:在U的一切线性估计类中,在无偏的前提下,LSE是其中方差最小者.这个结果经过本世纪初马尔科夫的推广,称为高斯-马尔科夫定理,是模型(6)中LSE理论的基本定理.代数理论主要以矩阵方法为工具,沿着这个基本定理的线索向前发展,也涉及误差方差的二次型估计问题,LSE在线性估计类中的可容许性问题等.目前这方面的工作仍未终结;三是大样本理论,即有关在样本量n很大(在数学上是n→∞)时,LSE的渐近性质的研究.这种研究,除了在理论上有揭示LSE的深层次性质的意义外,还有其应用上的重要意义.因为在e1,…,e n不是正态分布时,有关统计量的分布定不出来,因而无法进行确切的统计推断.大样本理论提供了一个近似,可以在样本量n足够大时使用.目前这方面的理论已发展到很精深的程度,但还存在一些没有解决的困难问题.5 由改进最小二乘法所引起的研究自19世纪初至本世纪中叶,可以说LSE统治了应用统计的多数领域,这一点到目前可以说仍基本成立.但近几十年来,LSE的统治地位已开始有所动摇,其原因有内在和外在的.内在的原因是,应用上的经验及理论研究表明:LSE有一些缺憾,在有些情况下表现不好;外在的原因是,其他方法的研究有了重大进展,尤其是快速计算机的应用,使一些以往由于计算困难而无法使用的方法,如今也得以使用.因此LSE已不再是唯一可能的选择.先说前者.考虑模型(6),若记S=n i=1x i x T i,这是一个p阶方阵,则U的LSE可表为U= S-1n i=1x i y i.在有些情况下方阵S呈病态或接近退化,这时S-1的数值计算的精度很差.理论研究也表明,这时LSE的均方误差可以很大.针对这种情况及其他问题,统计学者提出了一些对策.它们仍是以LSE为基础,但作一些调整.例如由霍尔(A.E.Hoerl)和肯纳德(R.W.Kennard)在1970年提出的岭估计(Ridge Es-timate),用U(k)=(S+k I)-1n i=1x i y i取代LSE U去估计U,这里k>0而I为p阶单位阵.这样做的目的,是在S上加上k I后,降低其病态性.关于这个估计有不少研究,例如如何决定k 以及这个估计的性质如何.除此以外,学者们还提出了压缩估计、主成份估计、特征根估计等,都是基于LSE,但对它有所修改.10LSE缺憾的深层次原因,在于它选用了平方这个函数去衡量偏差,因而加大了数据中异常值(outlier)破坏性的影响.所谓异常值,是指由于系统性原因及人为错误而使某一数据严重失真.例如某一数据本是2.473,由于小数点位置记错而写成24.73,为对付这个问题,统计学家研究了发现数据中异常值的方法,以便在计算前将其剔除.但是,除了最简单的模型以外,有效的方法不容易作出,于是就想到用另外更根本的措施,即用其他方法取代LSE.或者说,用增长较慢的函数去取代平方,以压低异常值的影响,这就是所谓稳健(Robust)方法.这些方法中,最重要的一个要推最小一乘法,即用绝对值去取代平方来衡量偏差.例如,对一个未知量θ测量n次得x1,…,x n.按最小一乘法,应当找θ,使表达式ni=1|x i-θ|达到最小.不难证明,这个θ就是x1,…,x n按大小居于正中的那一个(n为奇数时),或是居于正中那两个的算术平均(n为偶数时),这个量称为x1,…,x n的样本中位数.如果数据中有个别异常值,它对算术平均的影响可能很大,但对样本中位数可能没有影响,或影响不大.这就是稳健性的含义:一个统计方法受到其少量异常值的影响愈小,则其稳健性愈好.从历史上说,最小一乘法的提出比LSE更早:它是波斯科维奇(R.J.Boscovitch)于1755年在处理一个测地学问题时提出的.他的问题相应于(5)式中的k=2,提出的极值准则是ni=1X i=0, ni=1|X i|最小.(7)他用一种几何的考虑解决了这个问题,但对更多的参数无能为力,后来人们废弃了(7)式中的前一条件.由于计算上的困难,这方法后来没有得到重视.直到本世纪50年代,发现了用线性规划求解最小一乘的方法.计算机的出现,理论研究上的突破,以及它在某些领域,特别是计量经济应用上的良好表现,这个方法日益受到应用者的重视.到1964年,统计学家休伯(P.J.Huber)推广了这个概念,提出在估计一个未知值的情况下,用一个特别选定的函数d取代平方:设对一个未知量θ作了n次测量得到x1,…,x n,则用使表达式n i=1d(x i-θ)达到最小的θ值去估计θ.d一般是一个偶函数,在正实轴上增加,增加的速度比平方为慢.一般说,增加愈慢,解的稳健性愈好.但稳健性有时是以牺牲效率为代价的,在实用上需要在这二者之间求得折衷.到1973年,休伯又把这个方法用于(6)式所定义的线性统计模型.这类估计在统计学上总称为M估计,是近若干年来统计研究的前沿和热点之一,目前在大样本理论方面已取得了不少深入的成果.istorical Backgrounds and Present State of the Least Squares MethodChen Xiru(The Gra duate School at B eijin g,University of Science and Tec h nology of China,B eijin g 100039)Abstract This paper gives a brief acco unt of the history of develo pment of Least Squares M ethods and Gaussian no rm al-error theo ry.A brief surv ey is also giv en fo r the prac-tical applications,theoretical dev elopments of the Least Squares Methods,and so me to pic in m ethematical sta tistics rela ted to this m ethod.Key words least squares method,linear statistical m odel,M-estimation11 1998年陈希孺:最小二乘法的历史回顾与现状5月。

相关文档
最新文档