矩阵投影与最小二乘方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
题目:《神奇的矩阵——矩阵投影与最小二乘方法》
学校:哈尔滨工程大学
姓名:黎文科
联系方式: QQ群:53937814 联系方式: 190356321@
矩阵投影与最小二乘方法
最小二乘法(Least Squares Method,简记为LSE)是一个比较古老的方法,源于天文学和测地学上的应用需要。在早期数理统计方法的发展中,这两门科学起了很大的作用。丹麦统计学家霍尔把它们称为“数理统计学的母亲”。此后近三百年来,它广泛应用于科学实验与工程技术中。美国统计史学家斯蒂格勒( S. M. Stigler)指出, 最小二乘方法是19世纪数理统计学的压倒一切的主题。1815年时,这方法已成为法国、意大利和普鲁士在天文和测地学中的标准工具,到1825年时已在英国普遍使用。
追溯到1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。高斯于其1809年的著作《关于绕日行星运动的理论》中。在此书中声称他自1799年以来就使用最小二乘方法,由此爆发了一场与勒让德的优先权之争。
近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面形式的,以勒让德为早。然而,现今教科书和著作中,多把这个发明权归功于高斯。其原因,除了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义。勒让德在其著作中,对最小二乘方法的优点有所阐述。然而,缺少误差分析。我们不知道,使用这个方法引起的误差如何,就需建立一种误差分析理论。高斯于1823年在误差e 1 ,… , e n 独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的!在德国10马克的钞票上有高斯像,并配了一条正态曲线。在高斯众多伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响。
现行的最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小:
2
211
()()m m
i i i H y y ===-=-∑∑理论值观测值
我们现在看来会觉得这个方法似乎平淡无奇,甚至是理所当然的。这正说明了创造性思维之可贵和不易。从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难。欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功。
在高斯发表其1809年著作之前,约在1780年左右,拉普拉斯已发现了概率论中的“中心极限定理”。根据这个定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态。测量误差正具有这种性质。一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加。因此,中心极限定理给误差的正态性提供了一种合理的理论解释。这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免给人一种不自然的感觉。
耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯,都没有从这个结果的启示中去考察误差分布问题。对前者而言,可能是出于思维定势的束缚,这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布这个形式最早是狄莫弗( De Moiv re) 1730年在研究二项概率的近似计算时得出的。以后也有其他学者使用过,但都没有被冠以他们的名字。高斯之所以获得这一殊荣,无疑是因为他把正态分布与误差理论联系了起来) 。
可以说,没有高斯的正态误差理论配合, 最小二乘方法的意义和重要性可能还不到其现今所具有的十分之一。最小二乘方法方法与高斯误差理论的结合,是数理统计史上最重大的成就之一,其影响直到今日也尚未过时!由于本文是主要介绍最小二乘法与矩阵投影之间的关系,对于最小二乘和概率之间的关系,请参看靳志辉的《正态分布的前世今生》。
1,2,,)m 代入22b C Da b C Da =+⎪⎨⎪⎪=+ 令
12111
m a a A a ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭,12m b b b b ⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭
, 则可写成 C A b D A x b
⎛⎫= ⎪⎝⎭
↓
从线性代数的角度来看,就是A 的列向量的线性组合无法充满整个列空间,也就是说Ax=b 这个方程根本没有解。从图形上也很好理解:根本没有一条直线同时经过所有蓝色的点!所以为了选取最合适的x ,让该等式"尽量成立",引入残差平方和函数H :
22
min()min()=min()H e b Ax =-
这也就是最小二乘法的思想。我们知道,当x 取最优值的时候,Ax 恰好对应图中线上橙色的点,而b 则对应图中蓝色的点,e 的值则应红色的线长。
看到这里你有没有和之前投影的那部分知识联系在一起呢?最小二乘的思想是想如何选取参数x 使得H 最小。而从向量投影的角度来看这个问题,H 就是向量e 长度的平方,如何才能使e 的长度最小呢?b 和a 1,a 2都是固定的,当然是e 垂直a 1,a 2平面的时候长度最小!换句话说:最小二乘法的解与矩阵投影时对变量求解的目标是一致的!
于是,根据矩阵投影的知识,我们可以直接写出最小二乘法问题的解
1()T T C A A A b D -⎛⎫= ⎪⎝⎭. 其中A 称为结构矩阵,b 称为数据矩阵,T A A 称为信息矩阵,T
A b 称为常数矩阵。 为了定量地给出y C Dt =+与实验数据之间线性关系的符合程度,可以用相关系数r 来衡量.它定义为
11122221111,m m m
i i j i
i j i m m m m i i i i i i i i m a b a b r a b m a a m b b =======-=<>=⎡⎤⎡⎤⎛⎫⎛⎫--⎢⎥⎢⎥ ⎪ ⎪⎝⎭⎝⎭⎢⎥⎢⎥
∑∑∑∑∑∑∑