秒表测时法—数据处理:格拉布斯准则剔除异常值
试论计量测试中异常数据剔除的措施
试论计量测试中异常数据剔除的措施发表时间:2018-09-18T16:18:06.730Z 来源:《基层建设》2018年第25期作者:陈佩茹[导读] 摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
深圳供电局有限公司广东省深圳市 518133摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
本文首先对计量测试中异常数据的产生原因进行简单分析,进而研究其剔除方法,包括拉依达准则法、格拉布斯准则法、狄克逊准则法、肖维勒准则法等,并结合具体实例进行应用分析。
关键词:计量测试;异常数据;剔除方法前言:计量测试工作对数据准确性有较高要求,完成一项计量测试工作后,会得到大量数据,需要对其进行整理和分析,准确筛选出其中存在的异常数据,否则将会对最终的测量结果产生较大影响。
同时,对数据进行评判也是检验仪器状态的主要方法,在实际应用过程中具有重要意义。
由于计量测试在实际生产中应用广泛,相关研究也受到了高度重视,并形成多种异常数据判断准则,可以有效剔除异常数据。
一、计量测试中异常数据的产生原因计量测试仪器均属于高精密仪器,受外部环境影响较大,可能在外部环境发生变化时,导致测量结果出现较大偏差。
另一方面,如果仪器自身存在故障,也会导致测量结果不准确。
因此,在实际的计量测试工作中,异常数据普遍存在,需要在完成测量后,剔除异常数据,确保结果的准确性。
计量测试中的异常数据产生原因主要包括:(1)测试过程中仪器受到震动影响,比如机械振动或人力作用等;(2)仪器供电电压不稳定,或在测试中受到电磁干扰,导致仪器出现故障问题,产生较大的结果偏差;(3)测试操作人员缺乏操作经验,在测试过程中未按规定流程进行测试;(4)仪器自身存在零件松动、元件损坏等缺陷问题,操作人员无法正常测量,即使能够测出结果也会存在较大偏差[1]。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
1)(2--=∑n x x s▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
格拉布斯法异常值判断
格拉布斯法异常值判断标准化工作室编码[XX968T-XX89628-XJ668-XT689N]格拉布斯法—判断(2009-04-0716:38:20) 标签:?▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而参与平均值的计算,那么该“可疑值”就称作“(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号=(x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-——10号;因此G10是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。
格拉布斯法Grubbs检验法
格拉布斯法Grubbs 检验法▲概述:一组测量数据中;如果个别数据偏离平均值很远;那么这个这些数据称作“可疑值”..如果用统计方法—例如格拉布斯Grubbs 法判断;能将“可疑值”从此组测量数据中剔除而不参与平均值的计算;那么该“可疑值”就称作“异常值粗大误差”..本文就是介绍如何用格拉布斯法Grubbs 判断“可疑值”是否为“异常值”.. ▲测量数据:例如测量10次n =10;获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0..▲排列数据:将上述测量数据按从小到大的顺序排列;得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0..可以肯定;可疑值不是最小值就是最大值.. ▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704..计算时;必须将所有10个数据全部包含在内..▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11..▲确定一个可疑值:比较起来;最大值与平均值之差6.11大于平均值与最小值之差3.19;因此认为最大值14.0是可疑值..▲计算G i 值:G i =x i -x - /s ;其中i 是可疑值的排列序号——10号;因此G 10= x 10-x - /s =14.0-7.89/2.704=2.260..由于 x 10-x -是残差;而s 是标准差;因而可认为G 10是残差与标准差的比值..下面要把计算值G i 与格拉布斯表给出的临界值G P n 比较;如果计算的G i 值大于表中的临界值G P n ;则能判断该测量数据是异常值;可以剔除..但是要提醒;临界值G P n 与两个参数有关:检出水平α 与置信概率P 有关和测量次数n 与自由度f 有关..▲定检出水平α:如果要求严格;检出水平α可以定得小一些;例如定α=0.01;那么置信概率P =1-α=0.99;如果要求不严格;α可以定得大一些;例如定α=0.10;即P =0.90;通常定α=0.05;P =0.95..▲查格拉布斯表获得临界值:根据选定的P 值此处为0.95和测量次数n 此处为10;查格拉布斯表;横竖相交得临界值G 9510=2.176..▲比较计算值G i 和临界值G 9510:G i =2.260;G 9510=2.176;G i >G 9510..1)(2--=∑n x x s▲判断是否为异常值:因为G i>G9510;可以判断测量值14.0为异常值;将它从10个测量数据中剔除..▲余下数据考虑:剩余的9个数据再按以上步骤计算;如果计算的G i>G959;仍然是异常值;剔除;如果G i<G959;不是异常值;则不剔除..本例余下的9个数据中没有异常值..对异常值及统计检验法的解释■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量;理论上可以无限次测量下去;可以得到无穷多的测量数据;这些测量数据构成一个容量为无限大的总体;或者换一个角度看;本来就存在一个包含无穷多测量数据的总体..实际的测量只不过是从该无限大总体中随机抽取一个容量为n例如n=10的样本..这种样本也可以有无数个;每个样本相当于总体所含测量数据的不同随机组合..样本中的正常值应当来自该总体..通常的目的是用样本的统计量来估计总体参量..总体一般假设为正态分布..■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体;抽样抽错了;从另外一个总体抽出一个一些数据;其值与总体平均值相差较大;第二种情况异常值虽属于该总体;但可能是该总体固有随机变异性的极端表现;比如说超过3σ的数据;出现的概率很小..用统计判断方法就是将异常值找出来;舍去..■犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去;不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去;就会犯错误..■犯错误2:还有一种情况;不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来;统计检验方法判断不出它是异常值;就会犯另外一种错误..■异常值检验法:判断异常值的统计检验法有很多种;例如格拉布斯法、狄克逊法Q法、偏度-峰度法、拉依达法、奈尔法等等..每种方法都有其适用范围和优缺点..■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2..但是有人做过统计;在所有方法中;格拉布斯法犯这两种错误的概率最小;所以推荐使用格拉布斯法..■多种方法结合使用:为了减少犯错误的概率;可以将3种以上统计检验法结合使用;根据多数方法的判断结果;确定可疑值是否为异常值..■异常值来源:测量仪器不正常;测量环境偏离正常值较大;计算机出错;看错;读错;抄错;算错;转移错误..。
用格拉布斯准则判断异常数据教学内容
1-pc n 5% 1%
1-pc n 5% 1%
表 2-1 格拉布斯检验法 g 值 3 4 5 6 7 8 9 10 11 12 1.15 1.46 1.67 1.82 1.94 2.03 2.11 2.18 2.23 2.29 1.15 1.49 1.75 1.94 2.10 2.22 2.32 2.41 2.48 2.55 13 14 15 16 17 18 19 20 2.33 2.37 2.41 2.44 2.47 2.50 2.53 2.56 2.61 2.66 2.70 2.74 2.78 2.82 2.85 2.85
仅供学习与交流,如有侵权请联系网站删除 谢谢5四、可供选择的仪器与设备
1. 微机
一台
2. C 语言集成开发环境或其它高级语言开发环境
五、实验预习要求
熟悉有关异常数据处理的的基本知识,掌握格拉布斯检验法检验异常数据 的基本方法。
仅供学习与交流,如有侵权请联系网站删除 谢谢3
精品资料
六、实验报告要求
1. 简述实验目的、原理、方法、步骤。 2. 列出全部实验数据,记录实验结果(计算机屏幕显示内容)。 3. 画出程序流程图。
用格拉布斯准则判断 异常数据
精品资料
用格拉布斯准则判断异常数据
一、实验目的
1.通过实验加深对格拉布斯准则的理解。 2.掌握实验中异常数据的处理方法。
二、实验要求
用 C 语言或其它高级语言编写一程序,输入一组测量数据(9~15 个,程序 可设定),根据格拉布斯准则判断有无异常数据。如有,则剔除异常数据并重 新计算,直到无异常数据为止。具体要求如下:
2. 格拉布斯检验法
格拉布斯检验法是在未知总体标准偏差 的情况下,对正态样本或接近
格拉布斯法(Grubbs)检验法【范本模板】
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值"从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)".本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值"是否为“异常值"。
▲测量数据:例如测量10次(n =10),获得以下数据:8。
2、5.4、14。
0、7.3、4.7、9.0、6。
5、10。
1、7.7、6。
0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7。
3、7.7、8。
2、9.0、10。
1、14。
0.可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x —=7.89;标准差s =2。
704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7。
89-4。
7=3.19;最大值与平均值之差为14。
0-7.89=6。
11。
▲确定一个可疑值:比较起来,最大值与平均值之差6。
11大于平均值与最小值之差3.19,因此认为最大值14。
0是可疑值。
▲计算G i 值:G i =(x i -x — )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x — )/s =(14.0-7.89)/2。
704=2。
260。
由于x 10-x —是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除.但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0。
剔除异常值的方法
剔除异常值的方法拉依达准则法,肖维勒准则法,狄克逊准则法,罗马诺夫斯基(t检验)准则法,格拉布斯准则法(Grubbs)各类剔除异常值方法的比较。
1.拉依达准则法(3δ):简单,无需查表。
测量次数较多或要求不高时用。
是最常用的异常值判定与剔除准则。
但当测量次数《=10次时,该准则失效。
如果实验数据值的总体x是服从正态分布的,则式中,μ与σ分别表示正态总体的数学期望和标准差。
此时,在实验数据值中出现大于μ+3σ或小于μ―3σ数据值的概率是很小的。
因此,根据上式对于大于μ+3σ或小于μ―3σ的实验数据值作为异常值,予以剔除。
在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。
与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
在处理数据时,应剔除高度异常的异常值。
异常值是否剔除,视具体情况而定。
在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。
标准化数值(Z-score)可用来帮助识别异常值。
Z分数标准化后的数据服从正态分布。
因此,应用Z分数可识别异常值。
我们建议将Z分数低于-3或高于3的数据看成是异常值。
这些数据的准确性要复查,以决定它是否属于该数据集。
2.肖维勒准则法(Chauvenet):经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是当测量数据值n无穷大时失效。
3.狄克逊准则法(Dixon):对数据值中只存在一个异常值时,效果良好。
担当异常值不止一个且出现在同侧时,检验效果不好。
尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。
4.罗马诺夫斯基(t检验)准则法:计算较为复杂。
5.格拉布斯准则法(Grubbs):和狄克逊法均给出了严格的结果,但存在狄克逊法同样的缺陷。
朱宏等人采用数据值的中位数取代平均值,改进得到了更为稳健的处理方法。
数值修约及格拉布斯准则
数值修约及格拉布斯准则数值修约是指将测量数据或计算结果经过适当处理,得到较为精确且可以被接受的数值。
在科学研究、实验技术和工程应用中,经常需要对测量值或计算结果进行修约,以便提高数据的准确性和可靠性。
数值修约有以下几种常用的方法:1.四舍五入:四舍五入是指根据下一位数字的大小来确定待修约数字的最佳表达方式。
当下一位数字小于5时,舍去末位;当下一位数字大于等于5时,末位数字向上进位;当下一位数字等于5时,末位数字为偶数时舍去,为奇数时进位。
2.或取整:取整是指直接截取指定位数的整数,舍弃小数点后的数字。
取整方法有向下取整(舍去小数部分)、向上取整(进位到下一位整数)和四舍五入取整(根据四舍五入的规则进行修约)。
3.有效数字:有效数字是指数字中对结果有贡献的位数。
在修约过程中,只需保留有效数字,并且保留的位数与不确定度相一致。
常用的有效数字修约规则有:末位数字为0时,舍去;末位数字大于等于5时,上舍入;末位数字小于5时,舍去。
此外,还有个别情况需要特别处理,例如第一位数字是1、2、3时,直接舍去;第一位数字是4、5、6、7、8时,上舍入;第一位数字是9时,进一位。
格拉布斯准则则是对数据中的异常值进行判别和处理的一种方法。
它是基于统计学原理的一种数据修约方法,用来确定一个实验中是否存在显著的离群值。
格拉布斯准则的原理是,对于一个正态分布的数据集,异常值的概率非常低,因此可以通过检验是否存在异常值来评估数据的可靠性。
格拉布斯准则将样本数据与平均值进行比较,计算出数据的偏离程度,并将偏离程度与数据的标准差进行对比。
根据格拉布斯准则,异常值需要满足以下两个条件中的任意一个:1)它与平均值的差异超过3倍标准差;2)它与平均值的差异超过样本数据中绝对差异的极大值。
如果数据中存在异常值,格拉布斯准则建议将异常值排除在外,重新计算平均值和标准差,以获得更准确的结果。
数值修约和格拉布斯准则在科学研究和工程应用中具有重要的意义。
格拉布斯法检验法
格拉布斯法(Grubbs )检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个 (这些)数据称作“可疑值” 如果用统计方法一例如格拉布斯(Grubbs )法判断,能将“可疑值”从此组测量数据中剔除而不参 与平均值的计算,那么该“可疑值”就称作“异常值 (粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs )判断“可疑值”是否为“异常值”。
▲测量数据:例如测量 10次(n = 10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、 10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认 为最大值14.0是可疑值。
▲计算G 值:G 二(X i — x -)/ s ;其中i 是可疑值的排列序号——10 号;因此 G °=(X 10— x -)/ s = (14.0 — 7.89)/2.704 = 2.260。
由于 心一x -是残差,而 s 是标准 差,因而可认为G 。
是残差与标准差的比值。
下面要把计算值 G 与格拉布斯表给出的临界值 G (n ) 比较,如果计算的G 值大于表中的临界值 G (n ),则能判断该测量数据是异常值,可以剔除。
但是 要提醒,临界值G (n )与两个参数有关:检出水平a (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平a :如果要求严格,检出水平a 可以定得小一些,例如定a = 0.01,那么置信概率P =1— a = 0.99 ;如果要求不严格,a 可以定得大一些,例如定a = 0.10,即P = 0.90 ;通常定a =0.05, P = 0.95。
▲查格拉布斯表获得临界值:根据选定的 P 值(此处为0.95)和测量次数n (此处为10),查格拉布 斯表,横竖相交得临界值 G5(10) = 2.176。
秒表测时法—数据处理:格拉布斯准则剔除异常值
秒表测时法——数据处理:根据格拉布斯准则剔除异常值——宋楠使用秒表测时法来确定某一作业单元(工序、工步或操作、动作,下同)的时间消耗,我们一般要针对该作业单元现场实测多个周期,由此获得一组测时数据(实测时间原始值),然后运用统计方法对这一组数据作出适当处理,并依据处理结果(实测时间有效值)来确定该作业单元时间消耗的一个代表值(实测时间代表值),最后通过工时评定对该代表值加以修正,才能获得该作业单元的正常作业时间(Tz),以之为基础加上必要的宽放就可以最终获得标准工时[(T=Tz(1+k)]。
运用统计方法对一组测时数据进行“适当处理”的步骤大体有四:1)判断这组数据(整体)是否稳定——否则需要重新测时;2)判断每个数据(个体)是否正常——否则需要予以剔除;3)判断数据组剩余时间值的数量(或者说测时次数)是否足够——否则需要进行补测;4)确定数据组的代表值——确定这一组实测时间的代表值,即该作业单元时间消耗的实测代表值。
通常取各剩余时间值的平均数(或中位数或众数)。
注意此时数据组中的数据是通过前三步骤处理后的余留数据,其个数不一定与原始数据组的时间值个数相同,既可能因剔除了异常值而减少了,也可能由于补测而增多了。
在上述数据处理过程中,时间数据的转化情况示意如下:现场实测:实测时间原始值(一组,整体可能不稳定、个体可能有异常且数量可能不足)数据处理:A.实测时间有效值(一组,与原始数据的个数不一定相同)B.实测时间代表值(一个)工时评定:正常作业时间(一个)“适当处理”的第二个步骤(判断每个数据是否正常,亦即剔除异常值)的所用方法,目前我国劳动定额的相关资料主要介绍了拉伊达准则(三倍标准差法),这种方法简单方便,无需查表,适合测量次数较多因而测时数据服从正态分布的情况。
当测量次数较少(n=20-100)时,拉依达准则可靠性下降,这时可以采用格拉布斯准则。
当测量次数更少(n 为10次以下)时,测时数据将更接近t分布而不是正态分布,相应可以采用罗曼诺夫斯基准则。
试验数据异常值的检验及剔除方法
目录摘要 (I)关键词 (I)1 引言 (1)2 异常值的判别方法 (1)2.1检验(3S)准则 (1)2.2 狄克松(Dixon)准则 (2)2.3 格拉布斯(Grubbs)准则 (3)2.4 指数分布时异常值检验 (3)2.5 莱茵达准则(PanTa) (4)2.6 肖维勒准则(Chauvenet) (4)3 实验异常数据的处理 (4)4 结束语 (6)参考文献 (7)试验数据异常值的检验及剔除方法摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引言在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍. 2.1 检验(3S )准则t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理.基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ,若认j x 为可疑值.计算余下1n 个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有一组测量数据123nx x x x ≤≤≤,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.表1 狄克松检验统计量计算公式为2.3 格拉布斯(Grubbs )准则设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤,可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n-称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除. 2.4 指数分布时异常值检验设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a (通常取0.5)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑.对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则i x 相对而言误差较大,应舍去; 3i x x σ-≤,i x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于0.003,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.其中,运用DPS软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS表格和EXCELL表格,操作简单,实用性强.如图一下为DPS数据处理系统对话框.图一数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.图二用户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.4结束语由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.参考文献[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].山西师范大学学报,2003,17(1),56—57.[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电子工业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析方法.北京:国防工业出版社,1978。
格拉布斯法—异常值判断
格拉布斯法—异常值判断文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-格拉布斯法—判断(2009-04-07 16:38:20)标签:▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而参与平均值的计算,那么该“可疑值”就称作“(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于10x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i 值大于表中的临界值G P(n),则能判断该测量数据是,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
什么是格拉布斯准则
什么是格拉布斯准则利用格拉布斯(Grubbs)准则进行处理:根据误差理论,要有效地剔除偶然误差,一般要测量10次以上,兼顾到精度和响应速度,取15次为一个单位。
在取得的15个数据中,有些可能含有较大的误差,需要对它们分检,剔除可疑值,提高自适应速度。
对可疑值的剔除有多种准则,如莱以达准则、肖维勒(Chauvenet)准则、格拉布斯(Grubbs)准则等。
以Grubbs准则为例,它认为若某测量值 xi对应的残差Vi满足下式|Vi|=| xi-|>g(n,a)× σ(X)时应将该数据舍去。
式中,为n次采集到的AD 值的平均值,=(∑xi)/n ;σ(X)为测量数据组的标准差,由贝塞尔函数可得:σ(X)=[(∑Vi2 )/(n-1)]1/2;g(n, a)是取决于测量次数n和显著性水平a (相当于犯“弃真” 错误的概率系数),a通常取0.01或0.05。
通过查表可得:当 n=15时,a=0.05, g(n,a)=2.41。
把15次采集到的AD值存入一个数组中然后求平均值,计算残差,求标准差σ(X)。
将残差绝对值与2.41倍的标准差σ(X)比较。
剔除可疑值以后,再求平均值,求出新的平均值以后,应再重复以上过程,验证是否还有可疑值存在。
据我们对测量装置大量的实际测试结果看,这样做没有什么必要,因为一般只有第一遍即可达到要求。
然而这种方法也有它的不足, 利用Grubbs准则需要处理大量的数据,而在一般的工业现场测试设备中,仪表结构大多采用嵌入式结构,如AVR单片机。
这些MCU程序空间和数据空间有限,若处理大量数据,难以满足资源要求。
而且,由于Grubbs准则要求MCU进行大量数据处理,使得系统降低了信号采集速率,影响实时性。
3AD7705内置的数字滤波器上述的几种软件滤波方法对抑制个别的异常数据方面具有一定作用,然而对于由工频干扰引起的平稳随机干扰信号不太理想。
随着近几年来集成电路的快速发展,一些数字滤波器也集成到数据处理芯片当中,而且数字滤波器的设计参数通过软件可编程实现,具有极大的灵活性和实用性。
用格拉布斯准则判断异常数据
用格拉布斯准则判断异常数据一、实验目的1.通过实验加深对格拉布斯准则的理解。
2.掌握实验中异常数据的处理方法。
二、实验要求用C语言或其它高级语言编写一程序,输入一组测量数据(9~15个,程序可设定),根据格拉布斯准则判断有无异常数据。
如有,则剔除异常数据并重新计算,直到无异常数据为止。
具体要求如下:1.数据个数可输入;2.格拉布斯系数g以表的形式存于数组中;3.显示均值、标准偏差等中间结果、被剔除的异常数据、显示无异常数据的测量数据等。
三、实验原理在无系统误差的情况下,测量中大误差出现的概率是很小的。
在正态分布下,误差绝对值超过 2.57的概率仅为1%,误差绝对值超过3的概率仅为0.27%≈1/370。
对于误差绝对值较大的测量数据,就值得怀疑,可以列为可疑数据。
可疑数据对测量值的平均值及实验标准偏差都有较大的影响,造成测量结果的不正确,因此在这种情况下要分清可疑数据是由于测量仪器、测量方法或人为错误等因素造成的异常数据,还是由于正常的大误差出现的可能性。
首先,要对测时过程进行分析,是否有外界干扰,如电力网电压的突然跳动,是否有人为错误,如小数点读错等。
其次,可以在等精度条件下增加测量次数,以减少个别离散数据对最终统计估值的影响。
在不明原因的情况下,就应该根据统计学的方法来判别可疑数据是否是粗差。
这种方法的基本思想是:给定一置信概率,确定相应的置信区间,凡超过置信区间的误差就认为是粗差,并予以剔除。
用于粗差剔除的常见方法有莱特检验方法和格拉布斯检验方法。
1. 莱特检验方法莱特检验法是一种正态分布情况下判别异常值的方法。
判别方法如下:假设在一列等精度测量结果中,第i项测量值x i所对应的残差v i的绝对值,则该误差为粗差,所对应的测量值x i为异常数值,应剔除不用。
此处,残差,标准偏差估计(贝塞尔公式),均值。
本检验方法简单,使用方便,当测量次数n较大时,是比较好的方法。
一般适用于n>10的情况,n<10时,莱特检验法失去判别能力。
浅谈计量检定中异常值的判别与剔除
浅谈计量检定中异常值的判别与剔除摘要:本文解释了异常值的定义及造成异常值的原因,说明了计量检定中剔除异常值的意义,列举了剔除异常值常用的三个统计判别方法,包括拉依达准则、格拉布斯准则和狄克逊准则。
同时,举例比较了统计判别方法的差异,及在计量检定中,怎样选择合适的统计判别法剔除异常值。
关键词:计量检定;异常值;判别;剔除;准则一、异常值的定义及计量检定中造成异常值的原因异常值又称离群值,指在对一个被测量重复观测所获的若干观测结果中,出现了与其他值偏离较远且不符合统计规律的个别值,他们可能属于来自不同的总体,或属于意外的、偶然的测量错误。
也称为存在着“粗大误差”。
造成异常值的原因:震动、冲击、电源变化、电磁干扰等意外的条件变化,人为的读数、记录或计算错误,仪器内部的偶发故障、操作不当等。
二、计量检定中剔除异常值的意义通过计量检定获得的数据中混有异常值,必然会歪曲测量结果,能将该值剔除不用,可使结果更符合客观情况,但若剔除了一些偏离较远但不属于异常值的数据,却适得其反,则不能真实地反映测得值的分散性,所以必须正确地判别和剔除异常值。
三、计量检定中异常值的判别与剔除(一)物理判别法在测量过程中,记错、读错、仪器突然跳动、突然震动等异常情况引起的已知原因的异常值,应该随时发现,随时剔除,即必须是已知原因的明显错误或突发事件造成的数据异常可以随时剔除。
(二)统计判别法有时仅仅是怀疑某个值,对于不能确定哪个是异常值时,必须采用统计判别法进行判别,判定为异常值的才能剔除。
判别异常值常用的统计方法有拉依达准则(或称3σ准则)、格拉布斯准则、狄克逊准则。
1.拉依达准则拉依达准则又称为3σ准则。
当重复观测次数充分大的前提下(n>>10),设按贝塞尔公式计算出的实验标准差为s,若某个可疑值与n个测得值的平均值之差的绝对值大于或等于3s时,判定为异常值,即应满足下式:2.格拉布斯准则设在一组重复观测值中,其残差的绝对值最大者为可疑值,在给定的包含概率为或,也就是显著水平为或时,判定为异常值时应满足下式:——与显著水平和重复观测次数有关的格拉布斯临界值,该临界值需要查格拉布斯准则的临界值表。
试验数据异常值的检验及剔除方法
目录摘要...................................................... 错误!未定义书签。
关键词................................................... 错误!未定义书签。
1 引言...................................................... 错误!未定义书签。
2 异常值的判别方法..................................... 错误!未定义书签。
检验(3S)准则........................................ 错误!未定义书签。
狄克松(Dixon)准则.................................. 错误!未定义书签。
格拉布斯(Grubbs)准则.............................. 错误!未定义书签。
指数分布时异常值检验................................. 错误!未定义书签。
莱茵达准则(PanTa).................................. 错误!未定义书签。
肖维勒准则(Chauvenet)............................. 错误!未定义书签。
3 实验异常数据的处理 .................................. 错误!未定义书签。
4 结束语................................................... 错误!未定义书签。
参考文献.................................................... 错误!未定义书签。
试验数据异常值的检验及剔除方法摘要:在实验中不可避免会存在一些异常数据,而异常数据的存在会掩盖研究对象的变化规律和对分析结果产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值与标准差计算准确性的前提.本文简述判别测量值异常的几种统计学方法,并利用DPS软件检验及剔除实验数据中异常值,此方法简单、直观、快捷,适合实验者用于实验的数据处理和分析.关键词:异常值检验;异常值剔除;DPS;测量数据1 引言在实验中,由于测量产生误差,从而导致个别数据出现异常,往往导致结果产生较大的误差,即出现数据的异常.而异常数据的出现会掩盖实验数据的变化规律,以致使研究对象变化规律异常,得出错误结论.因此,正确分析并剔除异常值有助于提高实验精度.判别实验数据中异常值的步骤是先要检验和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并予以剔除.利用计算机剔除异常值的方法许多专家做了详细的文献[1]报告.如王鑫,吴先球,用Origin 剔除线形拟合中实验数据的异常值;严昌顺.用计算机快速剔除含粗大误差的“环值”;运用了统计学中各种判别异常值的准则,各种准则的优劣程度将体现在下文.2 异常值的判别方法判别异常值的准则很多,常用的有t 检验(3S )准则、狄克松(Dixon )准则、格拉布斯(Grubbs )准则等准则.下面将一一简要介绍. 2.1 检验(3S )准则t 检验准则又称罗曼诺夫斯基准则,它是按t 分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理.基本思想:首先剔除一个可疑值,然后安t 分布来检验被剔除的值是否为异常值.设样本数据为123,,n x x x x ,若认j x 为可疑值.计算余下1n -个数据平均值1n x -及标准差1n s -,即2111,1,1n n i n i i j x x s n --=≠=-∑.然后,按t 分布来判别被剔除的值j x 是否为异常值.若1(,)n j x x kn a -->,则j x 为异常值,应予剔除,否则为正常值,应予以保留.其中:a 为显著水平;n 数据个数;(,)k n a 为检验系数,可通过查表得到.2.2 狄克松(Dixon )准则设有一组测量数据123nx x x x ≤≤≤,且为正态分布,则可能为异常值的测量数据必然出现在两端,即1x 或n x .狄克松给出了不同样本数量n 时检验统计量的计算公式(见表1).当显著水平a 为1%或5%时,狄克松给出了其临界值1()a n D -.如果测量数据的检验统计量1()a n D D ->,则1x 为异常值,如果测量数据的检验统计量'1()a n D D ->,则n x 为异常值.2.3 格拉布斯(Grubbs )准则设有一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤,可能为异常值的测量数据一定出现在最大或最小的数据中.若最小值1x 是可疑的,则检验统计量1()/G x x s =-.式中x 是均值、s 是标准差,即211,n i i x xs n ==∑. 对于检验统计量G ,格拉布斯导出了其统计分布,并给出了当显著水平a 为1%或5%时的临界值(1)()n G n -.(1)()n G n -称格拉布斯系数,可通过抽查表得到.当最小值1x 或最大值n x 对应的检验统计量G 大于临界值时,则认为与之对应的1x 或n x 为可疑异常值,应予以剔除.2.4 指数分布时异常值检验设一组测量数据为指数分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即123n x x x x ≤≤≤.检验最小值或最大值是否为异常值的检验方法如下:当样本量100n ≤时,计算统计量()1/nn n n i i T x x ==∑及(1)11/nn i i T x x ==∑对于给定的显著水平a (通常取)和样本数量n ,通过查表得到()n n T 及(1)n T 分别对应的临界值()(1)n n T a -和(1)()n T a .若()()(1)n n n n T T a >-时,认为n x 为异常值;若(1)(1)()n n T T a <时,认为1x 为异常值. 当样本容量100n >时,计算统计量()111(1)()/()nn n n n i n i E n x x x x --==--+∑及(1)111(1)/()nn i i E n n x x n x ==-+∑. 对于给定显著水平a 和样本数量n ,若11()2,2~2,1(1)(1)n n n n aE F n a --->=--,则判断n x 为异常值;若11(1)2,22,(1)[(1)1]n n n a E F n a --->=---,则判断1x 为异常值. 2.5 莱茵达准则(PanTa )对于实验数据测出值123,,,,nx x x x ,求取其算术平均值11/ni i x n x ==∑及剩余误差值i i v x x =-,然后求出其均方根偏差21/2(/1)i v n σ=-∑. 判别依据(假设v 服从正态分布):3i x x σ->,则i x 相对而言误差较大,应舍去; 3i x x σ-≤,i x 为正常数据,应该保留.有概率论统计可知,如果误差服从正要分布,误差大于3σ的观测数据出现的概率小于,相当大于300次观测中有一次出现的可能.莱茵达准则只是进行粗略的剔除,取舍的概率较小,可能将不合理的异常值保留.2.6 肖维勒准则(Chauvenet )次准则也是建立在实验数据服从正态分布.假设多次测量的n 个测量值中,数据的参与误差i c v Z σ>,则剔除该数据.其中21/2(/1)i v n σ=-∑,样品容量为n 时的判别系数3c Z <,弥补了莱茵达准则的不足,故此准则优胜于莱茵达准则,但条件更为苛刻.3 实验异常数据的处理对于测定中异常数据的处理,必须慎重考虑,不能凭预感任意删除或添加.应该从所学知识上考虑,异常值有时能反映试验中的某些新现象.这类“异常值”正深化人们对客观事物的认识,如果随意删除它,可能深入了解和发现新事物的一次机会,那么对学者深入研究非常可惜.所以对任何异常数据都因首先在技术上寻找原因,如果在技术上发现原因,理应舍去.如在技术上无法作出判断,却可在上述准则中发现其高度异常,也因舍弃.其中,运用DPS 软件进行异常数据的检验与剔除特别方便,而且不许编写程序,它融合了SPSS 表格和EXCELL 表格,操作简单,实用性强.如图一下为DPS 数据处理系统对话框.图一 数据处理系统对话框只要执行菜单命令下的“数据分析——异常值检验”弹出如图二下图的窗口,然后进行选择检验分析方法及显著水平,点击确定即可.图二 用户对话框在测定中,有时发现个别数据离群严重,上述检验原则为异常值,但它与其他测定值的差异在仪器的精度范围内,这种数据不应舍去,应予保留.而对于一些分析而言,需要估计总体参数,异常数据一般都要舍去.对于不同的之心度应作相应的处理,则要据实际情况而定.4结束语由上述可知,用DPS软件进行异常值检验和剔除的过程简单、直观、快捷,适用于大众学生进行各实验数据的处理和分析.将此软件运用于实验教学,可以使学生快速准确判断实验结果,也可以提高教学质量.参考文献[1] 王鑫,吴先球.用Origin剔除线形拟合中实验数据的异常值[J].山西师范大学学报,2003,17(1),56—57.[2] 严昌顺.用计算机快速剔除含粗大误差的“环值”[J].计量技术,1994(5),45—47.[3] 苏金明,傅荣华,周建斌.统计软件SPSS系列应用实战篇[M].电子工业出版社,2002[4] 唐起义.DPS数据处理系统——实验设计、统计分析及数据挖掘[M].科学出版社,2006[5] 何国伟等编著.误差分析方法.北京:国防工业出版社,1978。
格拉布斯法 讲义
格拉布斯法—异常值判断(GB 4883-1985)▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x- )/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
秒表测时法——数据处理:根据格拉布斯准则剔除异常值
——宋楠
使用秒表测时法来确定某一作业单元(工序、工步或操作、动作,下同)的时间消耗,我们一般要针对该作业单元现场实测多个周期,由此获得一组测时数据(实测时间原始值),然后运用统计方法对这一组数据作出适当处理,并依据处理结果(实测时间有效值)来确定该作业单元时间消耗的一个代表值(实测时间代表值),最后通过工时评定对该代表值加以修正,才能获得该作业单元的正常作业时间(Tz),以之为基础加上必要的宽放就可以最终获得标准工时[(T=Tz(1+k)]。
运用统计方法对一组测时数据进行“适当处理”的步骤大体有四:
1)判断这组数据(整体)是否稳定——否则需要重新测时;
2)判断每个数据(个体)是否正常——否则需要予以剔除;
3)判断数据组剩余时间值的数量(或者说测时次数)是否足够——否则需要进行补测;
4)确定数据组的代表值——确定这一组实测时间的代表值,即该作业单元时间消耗的实测代表值。
通常取各剩余时间值的平均数(或中位数或众数)。
注意此时数据组中的数据是通过前三步骤处理后的余留数据,其个数不一定与原始数据组的时间值个数相同,既可能因剔除了异常值而减少了,也可能由于补测而增多了。
在上述数据处理过程中,时间数据的转化情况示意如下:
现场实测:实测时间原始值(一组,整体可能不稳定、个体可能有异常且数量可能不足)
数据处理:A.实测时间有效值(一组,与原始数据的个数不一定相同)
B.实测时间代表值(一个)
工时评定:正常作业时间(一个)
“适当处理”的第二个步骤(判断每个数据是否正常,亦即剔除异常值)的所用方法,目前我国劳动定额的相关资料主要介绍了拉伊达准则(三倍标准差法),这种方法简单方便,无需查表,适合测量次数较多因而测时数据服从正态分布的情况。
当测量次数较少
(n=20-100)时,拉依达准则可靠性下降,这时可以采用格拉布斯准则。
当测量次数更少(n 为10次以下)时,测时数据将更接近t分布而不是正态分布,相应可以采用罗曼诺夫斯基准则。
本文谨介绍格拉布斯准则剔除异常值的完整步骤。
在一组测时数据中,如果个别(或少数)数据(即时间值,下同)偏离这组数据的中心(由平均值确定)很远,而呈现出较大的离群倾向,那么可以暂时视之为该数据组中的“可疑值”(可能属于异常的时间值)。
如果进一步用统计方法能将该“可疑值”从该组数据中
剔除,那么该“可疑值”就确实是该组数据中的“异常值”——不应允许它或它们(一个或几个时间值)继续作为数据组成员参与后续处理或数据组代表值的计算。
我们可将一组测时数据按照从小到大的次序进行排列,得到一个升序数列,若该组测时数据之中存在有异常值,必然位于这个升序数列的两侧处。
这样,对于任意一组测时数据,其可能存在的异常值的分布,可以归纳为下述三种情形:
1)仅有异常小值(不一定唯一),异常值位于升序数列左侧;
2)仅有异常大值(不一定唯一),异常值位于升序数列右侧;
3)既有异常小值又有异常大值(也不一定仅仅各一),异常值位于升序数列两侧。
现假定对某工序的某一作业要素进行秒表测时,获得了一组共十个实测时间值:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0(min),假定数据组的稳定性合乎要求,现采用格拉布斯法判断并剔除其中可能的异常值的步骤如下:
1.对数据组作升序排列,得:
4.7、
5.4、
6.0、6.5、
7.3、7.7、
8.2、
9.0、10.1、14.0。
可以肯定,初步的可疑值位于数列的两侧,不是最小值(左侧的4.7)就是最大值(右侧的14.0)。
2.计算数据组的平均值µ和标准差σ:
1)平均值:µ =(4.7+5.4+...+14.0)/10=7.89;
2)标准差:σ = 2.704
3.计算可疑数据的偏离值——以平均值为基准:
1)最大值与平均值之差:14.0-7.89=6.11
2)平均值与最小值之差:7.89-4.7=3.19
4.确定一个可疑值——具有最大偏离值的数据:
∵ 6.11 > 3.19
∴最大值14.0是可疑值。
注:这里先将偏离值较大者作为最可能的异常值,还只是怀疑而已,还需经过下面的定量判断才能确认。
此外,如果偏离值较小者也是异常值,或者数列两端以内还存在有异常值,按照下面的步骤,并不会放过。
5.计算G i值——公式:G i=残差/标准差=(Xi-µ)/σ,亦即等于残差与标准差的比值。
G10=(X10-µ)/σ=(14.0-7.89)/2.704=2.260
其中i是可疑值在升序数列中的排列序号,本例为第10号数据14.0,i=10。
然后把计算值G i与格拉布斯表(见附表)所给出的临界值G P(n)比较,如果计算的G i 值大于表中的临界值G P(n),则能判断该测时数据是异常值而应予剔除。
但是临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测时次数n (与自由度f有关)。
6.确定检出水平α:
要求严格的话,检出水平α可以定小一些,例如定α=0.01,那么置信概率P=1-α
=0.99;
要求宽松的话,检出水平α可以定大一些,例如定α=0.10,那么置信概率P=0.90;
通常可定α=0.05,P=0.95。
7.查格拉布斯表明确临界值:
根据选定的P值(此处为0.95)和测时次数n(此处为10),查格拉布斯表,得临界值G95(10)=2.176。
8.比较计算值G i和临界值G95(10),作出判断:
∵ G10=2.260 > G95(10)=2.176
∴测时值14.0为异常值;
∴应该将14.0从10个测时数据中剔除。
9.继续判断剩余数据中可能的异常值:
数列剔除最大值14.0之后的剩余数据(还有九个),仍然是一个升序数列,只是右端的最大值变更了:
4.7、
5.4、
6.0、6.5、
7.3、7.7、
8.2、
9.0、10.1
此数列最小值仍为左侧的第1号数4.7,最大值变更为右侧的第9号数10.1。
对此数列重复以上步骤,例如经过步骤2-4,确定第9号数据为新的可疑值,再延续步骤5-8,如果计算的G9>G95(9),那么9号数据也属异常而应予剔除;如果计算的G9<G95(9),则9号数据不属异常值。
依此循环判断处理,结果在去掉14.0之后剩余的九个数据中,没有再发现异常值,倘使剩余数据数量已经足够(亦即适当处理的第三步符合要求),那么这九个剩余数据就是对这一作业单元进行秒表测时的实测时间有效值,就可以放心地使用它们来确定作业单元的实测时间代表值(亦即适当处理的第四步,如下述)。
10.根据有效数据确定代表值:
采用算术平均法(也可用众数法、中位数法等)来确定该组测时数据的代表值,则有
实测时间代表值 = 实测时间有效值之和/实测时间有效值的个数
=(4.7+5.4+6.0+6.5+7.3+7.7+8.2+9.0+10.1)/9
= 7.21(min)
注:本实测时间代表值还需经过工时评定,方可得到作业单元的正常作业时间Tz,例如假设工时评定系数为1.1,则正常作业时间Tz应为
Tz = 7.21 X 1.1 = 7.93(min)
附:格拉布斯表——临界值G P(n)。