最小二乘法在误差分析中的应用0001
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
误差理论综述与最小二乘法讨论
摘要:本文对误差理论和有关数据处理的方法进行综述。并且针对最小二乘法 (LS) 的创立、发展、思想方法等相关方面进行了研究和总结。同时,将近年发展起来的全面最小二乘法(TLS) 同传统最小二乘法进行了对比。
1. 误差的有关概念
对科学而言,各种物理量都需要经过测量才能得出结果。许多物理量的发现,物理常数的确定,都是通过精密测量得到的。任何测试结果,都含有误差,因此,必须研究,估计和判断测量结果是否可靠,给出正确评定。对测量结果的分析、研究、判断,必须采用误差理论,它是我们客观分析的有力工具
1.1 测量基本概念
一个物理量的测量值应由数值和单位两部分组成。按实验数据处理的方式,测量可分为直接测量、间接测量和组合测量。
直接测量: 可以用测量仪表直接读出测量值的测量。
间接测量: 有些物理量无法直接测得,需要依据待测物理量与若干直接测量量的函数关系求出。
组合测量: 如有若干个待求量,把这些待求量用不同方法组合起来进行测量,并把测量结果与待求量之间的函数关系列成方程组,用最小二乘法求出这个待求量的数值,即为组合测量。
1.2 误差基本概念
误差是评定测量精度的尺度,误差越小表示精度越高。若某物理量的测量值
为y,真值为丫,则测量误差dy=y-Y。虽然真值是客观存在的,但实际应用时它一般无从得知。按照误差的性质,可分为随机误差,系统误差和粗大误差三类。随机误差: 是同一测量条件下,重复测量中以不可预知方式变化的测量误差分量。
系统误差: 是同一测量条件下,重复测量中保持恒定或以可预知方式变化的测量误差分量。
粗大误差: 指超出在规定条件下预期的误差。
1.3 等精度测量的随机误差
当对同一量值进行多次等精度的重复测量,得到一系列的测量值,每个测量
值都含有误差,这些误差的出现没有特定的规律,但就误差的总体而言,却有统计规律。
1.3.1正态分布
通过对大量的测量数据的观察,人们发现测量列的随机误差有以下几个特征:
(1)绝对值相等的正误差与负误差出现的次数相等,即误差的对称性;
(2)绝对值小的误差比绝对值大的误差出现的次数多,即误差的单峰性;
(3)在一定的测量条件下,随机误差的绝对值不会超过一定界限,即误差的有界性;
(4)随着测量次数的增加,随机误差的算术平均值趋于零,即误差的抵偿性。正态分布曲线如下图1-1所示。正态分布时区间(片$卩+>的面积占总面积
的68.27%;(片1.96 $卩+1.96)的面积占总面积的95%;区间(片2.58 $卩+2.58帀的面积占总面积的99%。
图1-1.正态分布曲线
1.3.2 t分布
t分布是小样本分布,小样本分布一般是指n<30。t分布适用于当总体标准差$未知时用实验标准差s代替总体标准差$,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等。关于t分布的早期理论工作,是英国统计学家威廉•西利•戈塞特(wiliamsealy Gossep在1900年进行的。
1.4系统误差
系统误差是由固定不变的或按某种规律变化的因素造成的,这些误差因素可
能是由于:
(1)测量装置的原因:仪器设计上的缺欠,仪器零件制造和安装的不正确,仪器附件的制造偏差。
(2)测量环境的原因:测量过程中温度、湿度等按一定的规律变化。
(3)测量方法的原因:采用近似的测量方法或近似的计算公式引起的误差。
(4)测量人员的原因:由于测量人的个人特点导致的测量误差。系统误差具有确定的规律性,这与随机误差有根本区别。
对于测量中存在的较为显著的系统误差,可以通过一些检验方法和手段发现。如:1.通
过实验对比检验系统误差;2.通过理论分析判断系统误差;3.对测量数据进行直接判断;4.用统计方法进行检验。
1.5粗大误差
测量数据中包含随机误差和系统误差是正常的,只要测量误差在一定的范围内,测量结果就是正确的。但当测量者在测量时由于疏忽造成错误读取示值,错
误纪录测量值,错误操作以及使用有缺欠的计量器具时,会出现粗大误差,此数
据的误差分量明显偏大,即明显歪曲测量结果。
对于粗大误差,有以下几种判别方法:
(1)莱依特准则(3c准则):
若对某一物理量等精度重复测量n次,得测量值人,X2, X3……X n,如果某测得值的残差大于3倍的标准差,即|v|>3c,该数据为异常数据,应剔除。莱依特准则的合理性是
显然的,对服从正态分布的随机误差,其残差落在(-3 c, 3 C 以外的概率仅为0.27%,当在有限次测量中发生的可能性很小,认为是不可能发生的。
(2)肖维勒准则:
若对某一物理量等精度重复测量n次,得测量值人,X2, X3……X,,若认为X j为可疑数据,若此数据的残差|v|>Z c,贝吐匕数据为异常数,应剔除。实用中Z<3,这在一定程度上弥补了3 c准则的不足。Z是与测量次数n有关的系数。其关系见表1-2 o
表
(3)t检验准则(罗曼诺夫斯基准则):
罗曼诺夫斯基准则又称t检验准则,其特点是首先剔除一个可疑的测得值,然后按t分布检验被剔除的测量值是否为异常值。
(4)格罗布斯准则。
(5)狄克逊准则。
2. 测量的不确定度
测量数据或经数据处理给出的最终结果都不可能是客观真值,只是被测量的
近似值(或估计量)。因此,只给出被测量的估计值是不够的,还必须对估计值做出精度估计。测量或结果的精度估计用“不确定度”这一参数表征。它表征被测量的真值所处的量值散布范围的评定,反映了由于误差存在而对被测量值不能确定的程度。测量不确定度涉及到测量误差的性质、分布及测量方法等。不确定度的表述是数据处理的基本要求。