粗大误差四种判别准则的比较
粗大误差的判断方法
粗大误差的判断方法
粗大误差啊,这可是个很关键的东西呢!它就像是混入珍珠中的一粒沙子,会让整个结果都变得不准确。
那怎么来判断它呢?这可得好好说道说道。
咱先来说说直观判断法,就好像你一眼就能看出一个人是不是生病了一样。
如果某个测量值明显偏离了其他数据,那它很可能就是粗大误差呀!这不是很明显嘛!比如一群人都在说正常的话,突然有个人大喊大叫一些不着边际的,那他不就很突出嘛!
再来讲讲统计判别法,这就好比是给数据做个“体检”。
通过计算一些统计指标,来看看有没有异常的数据。
如果某个值超出了正常范围,那它可能就是那个“捣乱分子”。
就好像在一个班级里,大家的成绩都在一个范围内波动,突然有个人考了个超级高或者超级低的分数,那是不是就很显眼呀!
还有什么呢?对了,还有格拉布斯准则!这就像是个严格的法官,对数据进行严格的审查。
如果某个值被它判定为异常,那几乎就可以确定是粗大误差了。
想象一下,数据们排着队接受审查,那个不符合标准的一下子就被揪出来了,是不是很形象!
莱以特准则也不能落下呀!它就像是个敏锐的侦探,能从众多数据中发现那个“不寻常”。
一旦它锁定了目标,那这个粗大误差可就无处遁形啦!
你说判断粗大误差重要不重要?要是不把它找出来,那得出的结论能靠谱吗?能放心使用吗?肯定不行呀!所以我们一定要掌握这些判断方法,就像战士要有锋利的武器一样。
只有这样,我们才能在数据的海洋中准确地航行,不会被粗大误差这股“暗流”给带偏了呀!总之,粗大误差的判断方法可太重要啦,我们可不能马虎对待呀!。
对粗大误差和随机误差处理
用matlab 对一组随机数据的随机误差的处理当今社会,人们对测量和仪器的精确性要求越来越高,传统的测量精确度远远不能满足当今科技以及人们生活方面的要求,所以需要一种能够快速分析误差的方法出现。
matlab 可以大大减少人工运算的成本,成本低,可行性高,而且具有普遍性,故采用matlab 来进行误差处理。
等精度测量粗大误差处理粗大误差的判别准则(1)莱以特准则(3σ准则)具体方法:求出平均值和σ,将残差的绝对值与3σ进行比较,大于3σ的测量值都是坏值。
这种方法称为 3σ法则(正态分布)。
适合测量点数较大的情况,计算所有的点。
逐一剔除异常值(2)罗曼诺夫斯基准则具体方法:首先剔除一个可疑的测得值,然后按照t 分布检验被剔除的测量值是否含有粗大误差。
如果是,剔除后,再判断其它的测试结果点。
适合条件:测量次数较少的情况,是逐一剔除的。
等精度测量随机误差处理(1) 算数平均值11==∑n i n i x x大多数情况下,真值未知,用=-i i v x x 来代替误差:σ==σ=sδ=-i i x x n :测量次数(2)测量列算数平均值标准差/σσ=x (3)算数平均值的极限误差:,δδσ==t tlim δσ=±x t t 为置信系数,通过查表可得。
|()d x x |K n -2,a σ-≥1,1=-1n i i i d x x n =≠∑结果表示: lim δ=±X x t x(4(5软件流程设计等精度测量计算流程开始 读取数据文件matlab程序clc;clear;data=load('test.txt'); %v_2=0; %定义残差的平方average_data=0; %定义数据的平均值average_data=mean(data);%计算平均值if(length(data)<10) %判断数据的长度,用罗曼诺夫斯基准则剔除粗大误差while(1)for i=1:length(data) %计算残差和残差的平方和v(i)=data(i)-average_data;v_2=v_2+v(i)^2;end[max_v,I]=max(abs(v));`sum=0;for i=1:length(data)sum=sum+v(i);endaverage_data=sum/(length(data)-1); %计算数据的平均值bzc=(v_2/(length(data)-2))^0.5; %计算数据的标准差alpha=0.05;t=tinv(1-alpha/2,length(data)-2);if(v(I)>=(t*bzc)) %判断数据是否为粗大误差data(I)=[];else break;endv=[];endendif(length(data)>=10)while(1)for i=1:length(data) %计算残差和残差的平方和v(i)=data(i)-average_data;v_2=v_2+v(i)^2;endbzc=(v_2/(k-1))^0.5; %计算标准差bzc_3=3*bzc;[max_v,I]=max(abs(v));if max_v>bzc_3 %根据莱以特准则剔除粗大误差data(I)=[];endv=[];l=length(data);if(k==l)n=0;endendp=0.95/2;t=2.60;enddelta=t*bzc; %极限误差X_max=average_data+delta;X_min=average_data-delta;fid = fopen('result.txt', 'wt');fprintf(fid,'delta=%12.8f\nX_max=%12.8f\nX_min=%12.8f\ndata(I)=%12.8f\ n',delta,X_max,X_min,data(I)); %把数据写入文本文档fclose(fid);用matlab处理数据可以做到效率高,成功率高,节约人力物力,通过此程序进行数据处理,方便快捷,并且可以重复使用在进行研究过程中,由于我们对matlab软件没有深入了解,所以很多函数以及操作没有特别了解,对基本的操作流程也不是很熟悉。
笔记五、粗大误差的处理方法
1 n xi n 1 i 1
i j
v
标准差
i 1 i j
n
2
i
n 1 根据测量次数 n,选取显著度 ,查表得到检验系数
K (n, ) ,若被剔除测量值 x j 满足如下:
x j x K ,则认为含有粗大误差,剔除 x j 是正确的
例子 2:试用此法判断上述例子 1 中的测量值中有无粗大误差?
查表,显著度 =0.05 ,统计临界值 r0 (n, ) r0 (14,0.05) 0.546 判断最大值 x (14) : r22
'
x( n ) x( n2) x( n ) x(3)
x '(14) x '(12) x (14) x (3)
' '
20.43 20.43 0 20.43 20.39
'
x(n) x
'
'
20.43 20.411 1.18 0.016
查表得 g(0) (15-1,0.05) 2.37 g(15) 1.18 则 x(15) 不含有粗大误差,应保留。 ➢ 狄克松准则 适用范围:测量次数少,但可靠性要求高。 优点:判断测量列中的粗大误差的速度较快 判别方法: 测量值: x1 , x2 ,...xn ;次数为 n 将测量值按照从小到大排列: x(1) , x(2) ,...x( n) 选定显著度 (一般为 0.01 或 0.05) ,查表得到临界统计量
判别 r22 0 r0 (15,0.05) 0.525 ,故 x '(14) 不含粗大误差,应保留 判断最小值 x '(1) : r22
1.2.3 粗大误差判别
1.2.3 粗大误差判别
肖维勒准则:假设多次重复测量所得n个测量 值中, 某个测量值的残余误差|vi|>Zcσ,则剔 除此数据。实用中Zc<3, 所以在一定程度上弥 补了3σ准则的不足。
3
1.2.3 粗大误差判别
格拉布斯准则:某个测量值的残余误差的绝对值|vi| >Gσ, 则判断此值中含有粗大误差,据中某个测量值的残余误差的绝对值v则该测量值为可疑值坏值应剔除
1.2.3 粗大误差判别
1. 3σ准则 2. 肖维勒准则 3. 格拉布斯准则
1
1.2.3 粗大误差判别
3σ准则(莱以达准则):如果一组测量数据中某个 测量值的残余误差的绝对值|vi|>3σ时, 则该测量值 为可疑值(坏值), 应剔除。最常用,应用于测量次 数充分多的情况。
4
粗大误差的剔除的四种准则
粗大误差的剔除的四种准则粗大误差的剔除,哎呀,这可是个大话题,咱们平常做实验、搞研究的时候,常常会碰上那些“调皮捣蛋”的数据,它们就像小孩子一样,总爱跑偏。
今天咱们就聊聊,这四种准则,帮助我们把这些“捣乱分子”踢出局。
先说说第一种准则,大家都知道的——极端值法。
这一招就像是大排档里那些大菜,一眼就能看出来,放眼望去,如果某个数据跟其他的完全不搭调,就该打上“叉”了。
想象一下,大家都在吃水饺,结果你一上来就给大家端了个榴莲,这不就是极端值嘛,果断剔除,谁爱吃谁吃去。
再说说第二种准则,标准差法,听上去挺高大上的,其实也没啥,简单来说,就是把数据的波动性考虑进去。
数据之间要有个“家族感”,如果有某个数据孤零零的站在一边,距离其他数据太远,那可就得考虑是不是有问题了。
就像打麻将,四个人围着,突然你有个五个的牌,那肯定不对劲,哎哟,赶紧检查一下。
接着是第三种准则,啥?比值法,这个可以算是个“盲盒”玩法。
你得看看数据之间的比例关系,假如比例失衡,那就得好好瞅瞅了。
就像你跟朋友一起去喝酒,他喝了十瓶,你才喝了一口,那明显不对嘛,赶紧问问怎么回事。
最后一个,离群值法,名字听起来就很神秘,其实就是识别那些不合群的数据。
生活中总有些人,哪怕人群再热闹,他们的存在感也弱得可怜,像个隐形人。
数据也是一样,如果有某个数据跟大多数差得离谱,就得认真思考,究竟是数据出问题,还是测量的过程出了纰漏。
这四个准则,就像咱们生活中的小规则一样,大家都得遵守。
想想看,如果不把这些“糟心”的数据剔除掉,咱们的结论岂不是跟瞎子摸象一样,摸来摸去,根本不知道对不对。
这就好比大家一起去春游,结果你背了个五十斤的包,别的同学轻装上阵,结果到了目的地,你累得跟条狗似的,整场活动都没法好好玩儿了。
所以啊,剔除粗大误差,绝对是研究工作中的一门艺术,也是科学精神的体现,务必不能马虎。
说到底,数据就像一颗颗珍珠,得把那些不合适的剔除,才能串成一条闪闪发光的项链。
四种判别粗大误差准则的比较与讨论
除ꎬ后者更为严格 [5] ꎮ 笔者通过阅读文献发现ꎬ
收稿日期: 2017 ̄04 ̄23 基金项目: 广东省教育科研 十二五 规划 2012 年度研究项目(2012JK241) ∗通讯联系人
106
四种判别粗大误差准则的比较与讨论
除ꎮ 莱依达准则一般适用于测量次数较多的情况 1.3㊀ 肖维勒准则 ( n ⩾ 50) ꎮ 对于可疑数据 x m ꎬ若其残差满足 xm - x > ωn S
2㊀ 四种判断粗大误差准则的比较
2.1㊀ 四种判别粗大误差准则的归纳 准则 的 思 维 方 法 可 以 概 括 为: 首 先 求 出 测 量 值 x 1 ꎬx 2 ꎬ������ꎬx n 的样本均值 x 和样本标准差 S ꎬ 对于 第 i 次测量值ꎬ如果满足: x m - x > KS (9) 观察(3) ㊁(4) ㊁(5) 和 (8) 式ꎬ 不难发现ꎬ 四种
ꎻ另一种方式是比较统计临界值ꎬ
1 ð ( xi - x ) n ̄1 1.1㊀ 格拉布斯准则 xm - x
=
(2)
根据格拉布斯准则 [6ꎬ7] :若统计量 > G ( n ꎬa ) (3) S 则 x m 为异常值ꎬ须剔除ꎮ 式中 G ( nꎬa) 为统 Gm =
计量的临界值ꎬ根据测量次数和取定的显著水平 1.2㊀ 莱依达准则 足下式 a ( 一般为 0.05 或 0.01) ꎬ通过查表 [8] 可知临界值 G ( n ꎬa ) ꎮ 根据莱依达准则 [9] ꎬ测量值 x m 的残余误差满 x m - x > 3S (4) 则认为 x m 是含有粗大误差的异常值ꎬ 须剔
99.7%) ㊁格拉布斯准则( 显著水平为 0.01㊁0.05) ㊁t
㊀ ㊀ 利用 EXCEL 画出莱依达准则 ( 置信概率为 检验法准则( 显著水平为 0.01㊁0.05) 和肖维勒准 则在测量次数落在区间 3 ~ 100 中的 K ̄n 曲线如 图 1 所示
判别粗大误差的准则
判别粗大误差的准则引言在测量和统计领域,精确度和准确度是非常重要的概念。
准确度是指测量结果与真实值之间的接近程度,而精确度是指多次测量结果之间的一致性。
然而,在实际应用中,由于各种原因,可能会出现误差,其中包括粗大误差。
粗大误差是指显著偏离真实值的异常观测值或数据点。
它可能由仪器故障、操作失误、环境变化等多种因素引起。
为了保证数据的可靠性和准确性,判别并排除这些粗大误差是必要的。
本文将介绍判别粗大误差的准则,并提供一些常用的方法和技术来检测和处理这些异常观测值。
判别粗大误差的准则1. 样本点与平均值之间的偏离程度判断一个样本点是否为粗大误差可以通过计算其与平均值之间的偏离程度来进行。
常用的方法有使用标准差或者残差来衡量。
•标准差:计算所有样本点与平均值之间的差异,并根据标准差的大小来判断是否为粗大误差。
一般来说,如果一个样本点与平均值之间的差异超过平均差异的两倍或三倍,就可以被视为粗大误差。
•残差:对于回归分析等情况,可以计算每个样本点的残差(观测值与拟合值之间的偏差),并根据残差的大小来判别是否为粗大误差。
通常情况下,如果一个样本点的残差超过平均残差的两倍或三倍,就可以被视为粗大误差。
2. 离群点检测离群点是指在数据集中与其他数据点明显不同的观测值。
离群点可能是由于异常情况、错误测量、记录错误等原因导致。
判别离群点可以使用以下方法:•离群因子(Outlier Factor):通过计算每个观测值周围其他观测值的密度来判断其是否为离群点。
如果一个观测值周围其他观测值的密度较低,则可以被认为是离群点。
•基于距离的方法:通过计算观测值与其他观测值之间的距离来判断其是否为离群点。
如果一个观测值与其他观测值之间的距离明显大于平均距离,则可以被认为是离群点。
•箱线图(Box Plot):通过绘制数据的箱线图来判断是否存在离群点。
箱线图展示了数据的四分位数和异常值,如果一个观测值超过上下四分位数的1.5倍或3倍,可以被视为离群点。
误差理论第二章-3粗大误差处理
5
§2-4 测量结果的数据处理实例
一、等精度直接测量列测量结果的数据处理实例 例1、对某一轴径等精度测量10次,测得值如下(单位 mm), 26.2025;26.2022;26.2028;26.2025;26.2026;
26.2028;26.2023;26.2025;26.2026;26.2022.
即x 1 x 2 r10 r21
设对一组等精度测量列x1 , x2 , x n x n 1 , x n x 1 x n x n 2 , x n x 2
x n ,当xi 服从正态分布时,得最大值x n 的统计量: r11 r22 x n x n 1 x n x 2 x n x n 2 x n x 3
求最后测量结果。
见备课笔记P25
6
二、不等精度直接测量列测量结果的数据处理 例2、对某一角度进行六组不等精度测量,各组测量结 果如下:
测6次得: 1 751806; 测30次得: 2 751810 测26次得:3 751808; 测12次得: 4 751816 测12次得:5 751813; 44 上的例题
(二)罗曼诺夫斯基准则(t检验准则)测量次数很小时用 当测量次数较少时,按t分布较为合理。先剔除一个可疑的测得 值,按t分布检验被剔除的测量值是否含有粗大误差。
对一等精度测量列,x1 , x2 , 除后计算平均值:
, xn , 若认为xj为可疑数据,将其剔
2
n 1 x xi n 1 i 1,i j
r21
x 1 x 3 x 1 x 3 , r22 x 1 x n 1 x 1 x n 2
粗大误差判断准则
粗大误差判断准则
摘要: 当在测量数据中发现某个数据可能是异常数据时,一般不要不加分析就轻易将该数据直接从测量记录中删除,最好能分析出该数据出现的主客观原因。
判断粗大误差可从定性分析和定量判断两方面来考虑。
定性分析就是对测量环境、测量条...
当在测量数据中发现某个数据可能是异常数据时,一般不要不加分析就轻易将该数据直接从测量记录中删除,最好能分析出该数据出现的主客观原因。
判断粗大误差可从定性分析和定量判断两方面来考虑。
定性分析就是对测量环境、测量条件、测量设备、测量步骤进行分析,看是否有某种外部条件或测量设备本身存在突变而瞬时破坏;测量操作是否有差错或等精度测量过程中是否存在其他可能引发粗大误差的因素;也可由同一操作者或另换有经验操作者再次重复进行前面的(等精度)测量,然后再将两组测量数据进行分析比较,或再与由不同测量仪器在同等条件下获得的结果进行对比,以分析该异常数据出现是否“异常”,进而判定该数据是否为粗大误差。
这种判断属于定性判断,无严格的规则,应细致和谨慎地实施。
定量判断,就是以统计学原理和误差理论等相关专业知识为依据,对测量数据中的异常值的“异常程度”进行定量计算,以确定该异常值是否为应剔除的坏值。
这里所谓的定量计算是相对上面的定性分析而言,它是建立在等精。
粗大误差四种判别准则的比较
粗大误差四种判别准则的比较粗大误差是指在测量过程中,偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。
含有粗大误差的数据会干扰对实验结果的分析,甚至歪曲实验结果。
若不按统计的原理剔除异常值,而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值,就会错估了仪器的精确等级。
因此,系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提。
排除异常数据有四种较常用的准则,分别是拉伊达准则、格拉布斯准则、肖维勒准则和狄克逊准则。
每种判别准则都有其处理方法,导致用不同准则对异常值判别的结果有时会不一致。
目前异常值的剔除还没有统一的准则,本文综合判别粗大误差四种方法的特点,系统归纳各种准则的应用,以便更好地发现和判别含有粗大误差的数据.1。
四种判别粗大误差准则的特点1.1拉伊达准则拉伊达准则[4]是以三倍测量列的标准偏差为极限取舍标准,其给定的置信概率为99。
73%,该准则适用于测量次数n>10或预先经大量重复测量已统计出其标准误差σ的情况。
Xi为服从正态分布的等精度测量值,可先求得它们的算术平均值 X、残差vi和标准偏差σ。
若|Xi- X|>3σ,则可疑值Xi含有粗大误差,应舍弃;若|Xi— X|≤3σ,则可疑值Xi为正常值,应保留。
把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差,然后继续使用判别依据判断,依此类推.1.2格拉布斯准则格拉布斯准则适用于测量次数较少的情况(n<100),通常取置信概率为95%,对样本中仅混入一个异常值的情况判别效率最高。
其判别方法如下:先将呈正态分布的等精度多次测量的样本按从小到大排列,统计临界系数G(a,n)的值为G0,然后分别计算出G1、Gn:G1=( X-X1)/σ,Gn=(Xn- X)/σ (1)若G1≥Gn且G1〉G0,则X1应予以剔除;若Gn≥G1且Gn>G0,则Xn应予以剔除;若G1<G0且Gn〈G0,则不存在“坏值”。
判断粗大误差的三个准则
判断粗大误差的三个准则
判断粗大误差的三个准则包括:
1. 实质性误差:通过对数据进行验证和比对,确定是否存在实质性误差。
其中包括数值的偏离和异常值,以及与其他相关数据的不一致性。
2. 逻辑一致性:对数据进行逻辑分析,判断数据之间是否存在逻辑矛盾或不一致的情况。
例如,某个数据值远远超出合理范围,或者一个事件的发生时间在前后存在矛盾。
3. 内在规律性:根据统计原理和经验规律,对数据进行分析,判断数据是否符合预期的分布或趋势。
如果数据的分布与预期不符,或者存在异常的波动,可能存在粗大误差。
这三个准则可以帮助我们发现可能存在的粗大误差,并进行相应的修正和调整,以提高数据的准确性和可靠性。
笔记五、粗大误差的处理方法
当测量列中,有 2 个以上的测量值含有粗大误差时,判别时,应该 先剔除含有最大误差的测得值,然后再重新计算测量列中的算术平 均值、 标准差; 然后再对余下的测得值进行判别, 直至所有测得值都 不含粗大误差为止。
r0 (n, ) ;
判断最大值 x( n ) :计算极差比 rij ,若 rij r0 (n, ) ,则该值含 有粗大误差,应剔除;否则保留。 判断最小值 x(1) :计算极差比 rij ,若 rij r0 (n, ) ,则该值含 有粗大误差,应剔除;否则保留。 剔除完数据后,再重新排序计算最大值、最小值极差,查表 得临界统计量 r0 (n ' , ) (注意:次数发生了变化) ,重复上述判 断方法,直至最大、最小值不含有粗大误差为止。 参数选择: ①测量次数 n 7 ,使用 r10 判断; 8 n 10 ,使用 r11 判断; 测量次数 11 n 13 ,使用 r21 判断; n 14 ,使用 r22 判断;
x(1) x
所以应该先怀疑 x(1) : g(1)
20.404 20.30 3.15 0.033
选取显著度 0.05 ,查表得 g(0) (15,0.05) 故此测量值含有粗大误差, 应该 g(1) 3.15 g(0) (15,0.05) 2.41 , 剔除。 剔除后再重新计算平均值、标准差: x 20.411 , ' 0.016 计算 g( n )
x1 , x2 ,..., xn
计算平均值、残余差、标准差:
x
1 v2 x , vi =xi x , = n 1 n
将测量值 xi (i=1,2,3…n)按照从小到大进行排序,找到最小值
x(1) 和最大值 x(n)
粗大误差判断准则
粗大误差判断准则摘要: 当在测量数据中发现某个数据可能是异常数据时,一般不要不加分析就轻易将该数据直接从测量记录中删除,最好能分析出该数据出现的主客观原因。
判断粗大误差可从定性分析和定量判断两方面来考虑。
定性分析就是对测量环境、测量条...当在测量数据中发现某个数据可能是异常数据时,一般不要不加分析就轻易将该数据直接从测量记录中删除,最好能分析出该数据出现的主客观原因。
判断粗大误差可从定性分析和定量判断两方面来考虑。
定性分析就是对测量环境、测量条件、测量设备、测量步骤进行分析,看是否有某种外部条件或测量设备本身存在突变而瞬时破坏;测量操作是否有差错或等精度测量过程中是否存在其他可能引发粗大误差的因素;也可由同一操作者或另换有经验操作者再次重复进行前面的(等精度)测量,然后再将两组测量数据进行分析比较,或再与由不同测量仪器在同等条件下获得的结果进行对比,以分析该异常数据出现是否“异常”,进而判定该数据是否为粗大误差。
这种判断属于定性判断,无严格的规则,应细致和谨慎地实施。
定量判断,就是以统计学原理和误差理论等相关专业知识为依据,对测量数据中的异常值的“异常程度”进行定量计算,以确定该异常值是否为应剔除的坏值。
这里所谓的定量计算是相对上面的定性分析而言,它是建立在等精度测量符合一定的分布规律和置信概率基础上的,因此并不是绝对的。
下面介绍两种工程上常用的粗大误差判断准则。
1.拉伊达准则拉伊达准则是依据对于服从正态分布的等精度测量,其某次测量误差|Xi -X0|大于3σ的可能性仅为0.27%。
因此,把测量误差大于标准误差σ(或其估计值)的3 倍的测量值作为测量坏值予以舍弃。
由于等精度测量次数不可能无限多,因此,工程上实际应用的拉伊达准则表达式为(1)式中,Xk 为被疑为坏值的异常测量值;为包括此异常测量值在内的所有测量值的算术平均值;为包括此异常测量值在内的所有测量值的标准误差估计值;KL(=3)为拉伊达准则的鉴别值。
粗大误差四种判别准则的比较和应用
粗大误差四种判别准则的比较和应用
熊艳艳;吴先球
【期刊名称】《大学物理实验》
【年(卷),期】2010(023)001
【摘要】目前数据处理中异常值的剔除方法有多种,并没有统一的规范标准,分析了判别粗大误差的四种方法的特点,通过综合归纳给出了应用这些判别准则的建议.【总页数】3页(P66-68)
【作者】熊艳艳;吴先球
【作者单位】华南师范大学,广东广州510006;华南师范大学,广东广州510006【正文语种】中文
【中图分类】G642.423
【相关文献】
1.常用费歇判别准则的比较 [J], 周静芋;宋世德;郭满才
2.粗大误差判别准则在H-ADCP流速关系率定中的应用比较 [J], 陈澄;杨阳
3.四种判别粗大误差准则的比较与讨论 [J], 赵海霞;周少娜;肖化
4.基于支持向量的判别准则的比较 [J], 陈姣姣;范丽亚
5.基于粗大误差判别准则的测量列数据的处理与优化 [J], 唐伟;钟伟;段国艳
因版权原因,仅展示原文概要,查看原文内容请购买。
粗大误差的检验与坏值的剔除
变值系统误差存在与否的检验(续)
3用阿贝准则检验 按测量先后顺序排列测量值, 按测量先后顺序排列测量值,求出测量 列标准残差估计值S 列标准残差估计值S,计算统计量
C = ∑ vi vi +1
i =1 =1
n −1
若
C > n −1 × S
2
则可以认为该测量列中含有周期性系统 误差。 误差。
例题
格拉布斯准则临界值T(n,a)表 , 表 格拉布斯准则临界值
0.05 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1.153 1.463 1.672 1.822 1.938 2.032 2.110 2.176 2.234 2.285 2.331 2.371 2.409 2.443 0.01 1.155 1.492 1.749 1.944 2.097 2.221 2.323 2.410 2.485 2.550 2.607 2.659 2.705 2.747 17 18 19 20 21 22 23 24 25 30 35 40 45 50 0.05 2.475 2.504 2.532 2.557 2.580 2.603 2.624 2.644 2.663 2.745 2.811 2.866 2.914 2.956 0.01 2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.103 3.178 3.240 3.292 3.336
vi = xi − Байду номын сангаас > 3σ
_
故又称为3Ơ准则,实际使用时标准误差 可用其估计值 代替。 可用其估计值S代替 故又称为 准则,实际使用时标准误差Ơ可用其估计值 代替。 准则 按上述准则剔除坏值后, 按上述准则剔除坏值后,应重新计算提出坏值后测量列的算术平均 值和标准误差估计值S,再行判断,直至余下测量值中无坏值存在。 值和标准误差估计值 ,再行判断,直至余下测量值中无坏值存在。 准则判断粗大误差的存在, 用3Ơ准则判断粗大误差的存在,虽然方法简单,但它是依据正 准则判断粗大误差的存在 虽然方法简单, 态分布得出的。当子样容量不很大时,由于所取界限太宽, 态分布得出的。当子样容量不很大时,由于所取界限太宽,坏值不 能剔除的可能性较大。特别是当子样容量n<10时,尤其严重,所以 能剔除的可能性较大。特别是当子样容量 时 尤其严重, 目前都推荐使用以t分布为基础的格拉布斯准则。 目前都推荐使用以 分布为基础的格拉布斯准则。 分布为基础的格拉布斯准则 二、格拉布斯准则 将重复测量值按大小顺序重新排列, 将重复测量值按大小顺序重新排列,
粗差定位及方法分类
1、粗差定位及方法分类粗差定位是在平差过程中,自动发现粗差的存在,并正确的指出粗差的位置,从而将它从平差中剔除。
它不仅仅是个理论问题,而更主要的是算法上的问题,要针对不同平差系统和可能出现的不同类型的粗差,进行由程序控制的自动探测过程。
处理观测值中的粗差有两种不同的模型,一种是所谓“数学期望平移”模型,另一种是“方差扩大”模型。
一、数学期望平移模型这种方法的思想是在正式进行最小二乘平差之前探测和定位粗差,然后剔除含粗差的观测值,得到一组比较净化的观测值,然后再作最小二乘平差。
含粗差的观测值可以看作与其它同类观测值具有相同的方差、不同的期望的一个子样,即:i L ~)),((2σi L E N (1)j L ~),)((2σj g j L E N ∆+ (2)i L 为正常观测值,j L 为含粗差的观测值。
它意味着将粗差视为函数模型的一部分。
可见,平均漂移模型是将含粗差的观测值j L 看作为与正常观测值i L 有相同方差不同期望。
对此模型,可根据平差的结果严格构建相应的统计量,在给定得显著水平0α下,便可与临界值a K 相比较,从而判断相应的观测值是否包含粗差。
二、方差扩大模型含粗差的观测值可以看作与其它同类观测值具有相同的期望,但不同的方差的子样,含粗差观测值的方差将异常得大,即:i L ~)),((2σi L E N (3)j L ~1),),((222>a a L E N j σ (4)可见,方差扩大模型是将含粗差的观测值j L 与正常观测值i L 视为有相同的期望, 不同的方差,而且2a 通常比1大的多。
因此,平均漂移模型可以解释为将粗差归入函数模型,方差扩大模型则解释为将粗差归入随机模型。
2、粗差归入函数模型时的粗差检测方法当粗差归入函数模型时,单个粗差的检测方法即知名的数据探测法。
一、经典粗差检测法对于观测数据中可能存在的粗差进行检验,传统上大多采用几何条件闭合差W 。
在常规大地测量中,由于粗差和极限误差的界限难以清晰的区分,因此用W 探测粗差存在着一定的困难,特别是对于那些接近极限误差的W ,情况更是如此。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
粗大误差四种判别准则的比较
粗大误差是指在测量过程中,偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。
含有粗大误差的数据会干扰对实验结果的分析,甚至歪曲实验结果。
若不按统计的原理剔除异常值,而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值,就会错估了仪器的精确等级。
因此,系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提。
排除异常数据有四种较常用的准则,分别是拉伊达准则、格拉布斯准则、肖维勒准则和狄克逊准则。
每种判别准则都有其处理方法,导致用不同准则对异常值判别的结果有时会不一致。
目前异常值的剔除还没有统一的准则,本文综合判别粗大误差四种方法的特点,系统归纳各种准则的应用,以便更好地发现和判别含有粗大误差的数据。
1.四种判别粗大误差准则的特点
1.1拉伊达准则
拉伊达准则[4]是以三倍测量列的标准偏差为极限取舍标准,其给定的置信概率为99.73%,该准则适用于测量次数n>10或预先经大量重复测量已统计出其标准误差σ的情况。
Xi为服从正态分布的等精度测量值,可先求得它们的算术平均值X、残差vi和标准偏差σ。
若|Xi- X|>3σ,则可疑值Xi含有粗大误差,应舍弃;
若|Xi- X|≤3σ,则可疑值Xi为正常值,应保留。
把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差,然后继续使用判别依据判断,依此类推。
1.2格拉布斯准则
格拉布斯准则适用于测量次数较少的情况(n<100),通常取置信概率为95%,对样本中仅混入一个异常值的情况判别效率最高。
其判别方法如下:
先将呈正态分布的等精度多次测量的样本按从小到大排列,统计临界系数G(a,n)的值为G0, 然后分别计算出G1、Gn:G1=( X-X1)/σ,Gn=(Xn- X)/σ (1)
若G1≥Gn且G1>G0,则X1应予以剔除;
若Gn≥G1且Gn>G0,则Xn应予以剔除;
若G1<G0且Gn<G0,则不存在“坏值”。
然后用剩下的测量值重新计算平均值和标准偏差,还有G1、Gn和G0,重复上述步骤继续进行判断,依此类推。
1.3肖维勒准则
肖维勒准则是建立在频率p=m/n趋近于概率P{|Xi- X|>Zcσ}的前提下的(其中m是绝对值大于Ecσ的误差出现次数,P是置信概率)。
设等精度且呈正态分布的测量值为Xi,若其残差vi ≥Zcσ则Xi可视为含有粗大误差,此时把读数Xi应舍弃。
把可疑值舍弃后再重新计算和继续使用判别依据判断,依此类推。
1.4狄克逊准则
狄克逊准则是一种用极差比双侧检验来判别粗大误差的准则。
它从测量数据的最值入手,一般取显著性水平a为0.01.此准则的特点是把测量数据划分为四个组,每个组都有相应的极端异常值统计量R1、R2的计算方法,再根据测量次数n和所对应的统计临界系数D(a,n)按照以下方法来判别:
若R1>R2,R1>D(a,n),则判别X1为异常值,应舍弃;
若R2>R1,R2>D(a,n),则应舍弃Xn;
若R1<D(a,n)且R2<D(a,n),则没有异常值。
2.四种判别粗大误差准则的比较
2.1四种判别粗大误差准则的归纳
实际上教学实验中的测量样本大多比较小,四种准则所要求的正态分布前提不容易满足,标准偏差会由于偏离正态分布而不准确。
若不考虑具体的临界系数与置信水平,这四种准则的思维方法都可归纳为:首先计算某组测量值X1,X2,X3……Xn的平均值x、残差vi和标准偏差σ。
对于第i次测量值,如果vi>kσ (2)则可判别为含有粗大误差,其中k为统计临界系数。
狄克逊准则是用极差比来检测异常值的,它的统计临界系数与其他准则不具有可比性。
除狄克逊准则外,作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3≤n≤250的曲线关系,见图1。
2.2四种判别粗大误差准则的比较讨论
拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数,各判别准则的统计临界系数各不相同,以拉伊达准则的统计临界系数3为线索,当n=25时,格拉布斯准则(a=0.01)的统计临界系数刚好到达3以上,而当n=185时,肖维勒准则的统计临界系数刚好也到达3。
因此可把总范围分为以下三个小范围。
(1)在3≤n<25这个范围内,建议用狄克逊准则或格拉布斯准则(a=0.01)来判别可疑数据。
在少量样品时,拉伊达准则的统计临界系数相对比较大,不易及时发现异常数据,使用它会比较苛刻。
而肖维勒准则的统计临界系数太小,容易剔除仅含有较大正常误差的测量值。
因此用可一次性剔除多个异常值且无需求出样本平均值X、残差vi和标准偏差σ的狄克逊准则或格拉布斯准则(a=0.01)来判别可疑数据是合适的。
(2)在25≤n≤185的范围内,建议用格拉布斯准则(a=0.05)或肖维勒准则来判别可疑数据。
统计临界系数最大的是格拉布斯准则(a=0.01),虽然肖维勒准则的统计临界系数偏小,但在这一范围内肖维勒准则可以补充拉伊达准则的不足,因此判别数据时采用格拉布斯准则(a=0.05)或肖维勒准则比较合适。
(3)在测量次数n>185时,建议采用拉伊达准则。
因为此时肖维勒准则的统计临界系数偏大,在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。
因此,为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息,可以采用以下方法:
判别前最好先按照从小到大排列测量数据。
首先怀疑最值,如果最值不是异常值则其他值也就不会含有粗大误差了。
对此四种准则的综合判别方法,见表1。
表1综合判别方法
结论
综上所述,由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的,它们的检
验范围和判别效果不同,在不同的情况下应用不同的准则的严格程度不同,但不加比较随便使用某一种准则来判别测量值是否含有粗大误差,这样有时会得到相对不准确的结论,可能把仅包含正常误差的可疑值剔除了,或者保留了含有粗大误差的异常值。
本文中的图1直观明了、使用方便,因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依,并使剔除异常数据的效率有所提高,得出相对准确的测量计算结果。
在目前还没有一个适用于所有情况的判别粗大误差的准则,因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。
本文的建议和尝试,仍需理论研究分析和进一步完善。