格拉布斯法异常值判断
格拉布斯法Grubbs检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。
由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常1)(2--=∑n x x s值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
1)(2--=∑n x x s▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
用格拉布斯准则判断异常数据
用格拉布斯准则判断异常数据一、实验目的1.通过实验加深对格拉布斯准则的理解。
2.掌握实验中异常数据的处理方法。
二、实验要求用C语言或其它高级语言编写一程序,输入一组测量数据(9~15个,程序可设定),根据格拉布斯准则判断有无异常数据。
如有,则剔除异常数据并重新计算,直到无异常数据为止。
具体要求如下:1.数据个数可输入;2.格拉布斯系数g以表的形式存于数组中;3.显示均值、标准偏差等中间结果、被剔除的异常数据、显示无异常数据的测量数据等。
三、实验原理在无系统误差的情况下,测量中大误差出现的概率是很小的。
在正态分布下,误差绝对值超过 2.57的概率仅为1%,误差绝对值超过3的概率仅为0.27%≈1/370。
对于误差绝对值较大的测量数据,就值得怀疑,可以列为可疑数据。
可疑数据对测量值的平均值及实验标准偏差都有较大的影响,造成测量结果的不正确,因此在这种情况下要分清可疑数据是由于测量仪器、测量方法或人为错误等因素造成的异常数据,还是由于正常的大误差出现的可能性。
首先,要对测时过程进行分析,是否有外界干扰,如电力网电压的突然跳动,是否有人为错误,如小数点读错等。
其次,可以在等精度条件下增加测量次数,以减少个别离散数据对最终统计估值的影响。
在不明原因的情况下,就应该根据统计学的方法来判别可疑数据是否是粗差。
这种方法的基本思想是:给定一置信概率,确定相应的置信区间,凡超过置信区间的误差就认为是粗差,并予以剔除。
用于粗差剔除的常见方法有莱特检验方法和格拉布斯检验方法。
1. 莱特检验方法莱特检验法是一种正态分布情况下判别异常值的方法。
判别方法如下:假设在一列等精度测量结果中,第i项测量值x i所对应的残差v i的绝对值,则该误差为粗差,所对应的测量值x i为异常数值,应剔除不用。
此处,残差,标准偏差估计(贝塞尔公式),均值。
本检验方法简单,使用方便,当测量次数n较大时,是比较好的方法。
一般适用于n>10的情况,n<10时,莱特检验法失去判别能力。
格拉布斯法讲义
格拉布斯法—异常值判断(GB 4883-1985)▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs) 法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n = 10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到 4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-= 7.89;标准差s= 2.704。
计算时,必须将所有 1 0个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89 - 4.7= 3.19; 最大值与平均值之差为14.0-7.89= 6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11大于平均值与最小值之差 3.19,因此认为最大值14.0 是可疑值。
▲计算G i值:G i = (X i- x-)/s;其中i是可疑值的排列序号——10 号;因此G io = ( x io- x )/s= (14.0 - 7.89)/2.704 = 2.260。
由于x io —x是残差,而s是标准差,因而可认为G io是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G p(n)比较,如果计算的G i值大于表中的临界值G p(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G p(n)与两个参数有关:检出水平a (与置信概率P有关)和测量次数n (与自由度f有关)。
▲定检出水平 a :如果要求严格,检出水平a可以定得小—些,例如定 a = 0.01,那么置信概率P = 1 — a = 0.99;如果要求不严格,a可以定得大一些,例如定 a = 0.10,即P=0.90;通常定a= 0.05, P= 0.95。
秒表测时法—数据处理:格拉布斯准则剔除异常值
秒表测时法——数据处理:根据格拉布斯准则剔除异常值——宋楠使用秒表测时法来确定某一作业单元(工序、工步或操作、动作,下同)的时间消耗,我们一般要针对该作业单元现场实测多个周期,由此获得一组测时数据(实测时间原始值),然后运用统计方法对这一组数据作出适当处理,并依据处理结果(实测时间有效值)来确定该作业单元时间消耗的一个代表值(实测时间代表值),最后通过工时评定对该代表值加以修正,才能获得该作业单元的正常作业时间(Tz),以之为基础加上必要的宽放就可以最终获得标准工时[(T=Tz(1+k)]。
运用统计方法对一组测时数据进行“适当处理”的步骤大体有四:1)判断这组数据(整体)是否稳定——否则需要重新测时;2)判断每个数据(个体)是否正常——否则需要予以剔除;3)判断数据组剩余时间值的数量(或者说测时次数)是否足够——否则需要进行补测;4)确定数据组的代表值——确定这一组实测时间的代表值,即该作业单元时间消耗的实测代表值。
通常取各剩余时间值的平均数(或中位数或众数)。
注意此时数据组中的数据是通过前三步骤处理后的余留数据,其个数不一定与原始数据组的时间值个数相同,既可能因剔除了异常值而减少了,也可能由于补测而增多了。
在上述数据处理过程中,时间数据的转化情况示意如下:现场实测:实测时间原始值(一组,整体可能不稳定、个体可能有异常且数量可能不足)数据处理:A.实测时间有效值(一组,与原始数据的个数不一定相同)B.实测时间代表值(一个)工时评定:正常作业时间(一个)“适当处理”的第二个步骤(判断每个数据是否正常,亦即剔除异常值)的所用方法,目前我国劳动定额的相关资料主要介绍了拉伊达准则(三倍标准差法),这种方法简单方便,无需查表,适合测量次数较多因而测时数据服从正态分布的情况。
当测量次数较少(n=20-100)时,拉依达准则可靠性下降,这时可以采用格拉布斯准则。
当测量次数更少(n 为10次以下)时,测时数据将更接近t分布而不是正态分布,相应可以采用罗曼诺夫斯基准则。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法之宇文皓月创作▲概述:一组丈量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲丈量数据:例如丈量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述丈量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和尺度差s :x -=7.89;尺度差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
1)(2--=∑n x x s▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是尺度差,因而可认为G10是残差与尺度差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该丈量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
格拉布斯法Grubbs检验法
格拉布斯法G r u b b s检验法集团公司文件内部编码:(TTT-UUTT-MMYB-URTTY-ITTLTY-格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。
由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据1)(2--=∑n x x s是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
格拉布斯法Grus检验法
格拉布斯法G r u s检验法文件编码(GHTU-UITID-GGBKT-POIU-WUUI-8968)格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。
由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据1)(2--=∑n x x s是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。
格拉布斯Grubbs检验法
格拉布斯(Grubbs)法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
用格拉布斯准则判断异常数据教学内容
1-pc n 5% 1%
1-pc n 5% 1%
表 2-1 格拉布斯检验法 g 值 3 4 5 6 7 8 9 10 11 12 1.15 1.46 1.67 1.82 1.94 2.03 2.11 2.18 2.23 2.29 1.15 1.49 1.75 1.94 2.10 2.22 2.32 2.41 2.48 2.55 13 14 15 16 17 18 19 20 2.33 2.37 2.41 2.44 2.47 2.50 2.53 2.56 2.61 2.66 2.70 2.74 2.78 2.82 2.85 2.85
仅供学习与交流,如有侵权请联系网站删除 谢谢5四、可供选择的仪器与设备
1. 微机
一台
2. C 语言集成开发环境或其它高级语言开发环境
五、实验预习要求
熟悉有关异常数据处理的的基本知识,掌握格拉布斯检验法检验异常数据 的基本方法。
仅供学习与交流,如有侵权请联系网站删除 谢谢3
精品资料
六、实验报告要求
1. 简述实验目的、原理、方法、步骤。 2. 列出全部实验数据,记录实验结果(计算机屏幕显示内容)。 3. 画出程序流程图。
用格拉布斯准则判断 异常数据
精品资料
用格拉布斯准则判断异常数据
一、实验目的
1.通过实验加深对格拉布斯准则的理解。 2.掌握实验中异常数据的处理方法。
二、实验要求
用 C 语言或其它高级语言编写一程序,输入一组测量数据(9~15 个,程序 可设定),根据格拉布斯准则判断有无异常数据。如有,则剔除异常数据并重 新计算,直到无异常数据为止。具体要求如下:
2. 格拉布斯检验法
格拉布斯检验法是在未知总体标准偏差 的情况下,对正态样本或接近
格拉布斯法—异常值判断
格拉布斯法—判断(2009-04-07 16:38:20)标签:杂谈▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而参与平均值的计算,那么该“可疑值”就称作“(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-10x-是残差,而s是标准差,因而可认为G是残差与标准差的比值。
下面要把计10算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
异常数据识别-格拉布斯表
数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。
数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。
所谓异常数据就是数据集中与其它数据明显不一致的数据。
异常数据的产生原因有很多,可能是数据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。
异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的失误,带来不可挽回的损失。
因此,异常数据的识别和剔除具有重要意义。
异常数据识别有物理识别法和统计识别法。
物理识别法是根据人们对客观事物已有的认识,识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。
统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除的一种方法。
当物理识别异常数据不易做到时,一般采用统计识别法。
对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺夫斯基(t检验)准则法。
拉依达准则法简单,无需查表,用起来方便,测量次数较多或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。
肖维勒准则是经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷大时,该准则失效。
狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。
格拉布斯法—异常值判断
格拉布斯法—异常值判断文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-格拉布斯法—判断(2009-04-07 16:38:20)标签:▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而参与平均值的计算,那么该“可疑值”就称作“(粗大误差)”.本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”.▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0.▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0.可以肯定,可疑值是最小值就是最大值.▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704.计算时,必须将所有10个数据全部包含在内.▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11.▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值.▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G=( x10-x-)/s=(14.0-7.89)/2.704=2.260.由于10x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值.下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是,可以剔除.但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关).▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95.▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176.▲比较计算值G i和临界值G95(10):G i=2.260,G95(10)=2.176,G i>G95(10).▲判断是否为:因为G i>G95(10),可以判断测量值14.0为,将它从10个测量数据中剔除.▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的G i>G95(9),仍然是,剔除;如果G i<G95(9),是,则剔除.本例余下的9个数据中没有.格拉布斯表——临界值G P(n)对及统计检验法的解释■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体.实际的测量只过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本.这种样本也可以有无数个,每个样本相当于总体所含测量数据的同随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■区分:样本中的正常值应当属于同一总体;而有两种情况:第一种情况属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小.用统计判断方法就是将找出来,舍去.■犯错误1:将本来属于该总体的、第一种情况的判断出来舍去,会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的判断出来舍去,就会犯错误.■犯错误2:还有一种情况,属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断出它是,就会犯另外一种错误.■检验法:判断的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2.但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法.■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为.■来源:测量仪器正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
格拉布斯法异常值判断标准化工作室编码[XX968T-XX89628-XJ668-XT689N]
格拉布斯法—判断(2009-04-0716:38:20) 标签:?
▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而参与平均值的计算,那么该“可疑值”就称作“(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、
7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值是最小值就是最
大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所
有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之
差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小
值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号
=(x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-——10号;因此G
10
是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界
值G P(n),则能判断该测量数据是,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求严格,α可以定得大一些,
例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此
处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。
▲比较计算值G i和临界值G95(10):G i=2.260,G95(10)=2.176,G i>G95(10)。
▲判断是否为:因为G i>G95(10),可以判断测量值14.0为,将它从10个测量数据中剔除。
▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的G i>
G
(9),仍然是,剔除;如果G i<G95(9),是,则剔除。
本例余下的9个数据中
95
没有。
格拉布斯表——临界值G P(n)
对及统计检验法的解释
■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。
实际的测量只过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本。
这种样本也可以有无数个,每个样本相当于总体所含测量数据的同随机组合。
样本中的正常值应当来自该总体。
通常的目的是用样本的统计量来估计总体参量。
总体一般假设为正态分布。
■区分:样本中的正常值应当属于同一总体;而有两种情况:第一种情况属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。
用统计判断方法就是将找出来,舍去。
■犯错误1:将本来属于该总体的、第一种情况的判断出来舍去,会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的判断出来舍去,就会犯错误。
■犯错误2:还有一种情况,属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断出它是,就会犯另外一种错误。
■检验法:判断的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。
每种方法都有其适用范围和优缺点。
■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2。
但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。
■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为。
■来源:测量仪器正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。