格拉布斯表

合集下载

格拉布斯法Grubbs检验法

格拉布斯法Grubbs检验法

格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。

由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常1)(2--=∑n x x s值,可以剔除。

但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法之蔡仲巾千创作▲概述:一组丈量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲丈量数据:例如丈量10次(n =10),获得以下数据:、、、、、、、、、。

▲排列数据:将上述丈量数据按从小到大的顺序排列,得到、、、、、、、、、。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x -和尺度差s :x -=;尺度差s =。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为-=;最大值与平均值之差为-=。

▲确定一个可疑值:比较起来,最大值与平均值之差大于平均值与最小值之差,因此认为最大值是可疑值。

1)(2--=∑n x x s▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=-=。

由于x10-x-是残差,而s是尺度差,因而可认为G10是残差与尺度差的比值。

下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i 值大于表中的临界值G P(n),则能判断该丈量数据是异常值,可以剔除。

但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=,那么置信概率P=1-α=;如果要求不严格,α可以定得大一些,例如定α=,即P=;通常定α=,P=。

▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和丈量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=。

▲比较计算值G i和临界值G95(10):G i=,G95(10)=,G i>G95(10)。

格拉布斯表

格拉布斯表

数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。

数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。

所谓异常数据就是数据集中与其它数据明显不一致的数据。

异常数据的产生原因有很多,可能是数据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。

异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的失误,带来不可挽回的损失。

因此,异常数据的识别和剔除具有重要意义。

异常数据识别有物理识别法和统计识别法。

物理识别法是根据人们对客观事物已有的认识,识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。

统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除的一种方法。

当物理识别异常数据不易做到时,一般采用统计识别法。

对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺夫斯基(t检验)准则法。

拉依达准则法简单,无需查表,用起来方便,测量次数较多或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。

肖维勒准则是经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷大时,该准则失效。

狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。

格拉布斯法检验法

格拉布斯法检验法

格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。

由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。

但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法

【下载本文档,可以自由复制内容或自由编辑修改内容,更 多精彩文章,期待你的好评和关注,我将一如既往为您服务】格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法一例如格拉布斯(Grubbs)法判断,能将“可 疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称 作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n = 10),获得以下数据:8.2、5.4、14.0、7.3、 4.7 、 9.0 、 6.5 、 10.1 、 7.7 、 6.0 。

▲排列数据:将上述测量数据按从小到大的顺序排列, 得到4.7、5.4、6.0、6.5、 7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值X 和标准差s : x = 7.89 ;标准差s = 2.704。

计算时,必须将所有▲计算偏离值:平均值与最小值之差为7.89 — 4.7 = 3.19 ;最大值与平均值之差 为 14.0 — 7.89 = 6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差 6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G 值:G = (X i — x - )/ s ;其中i 是可疑值的排列序号 ——10 号;因此 G o = ( X 10— x )/ s = (14.0 — 7.89)/2.704 = 2.260。

由于 心一 x 是残差,而s 是标准差,因而可认为 G o 是残差与标准差的比值。

下面要把计 算值G 与格拉布斯表给出的临界值 G(n)比较,如果计算的G 值大于表中的临界 值G(n),则能判断该测量数据是异常值,可以剔除。

但是要提醒,临界值G(n) 与两个参数有关:检出水平a (与置信概率P 有关)和测量次数n (与自由度f 有关)。

格拉布斯Grubbs检验法

格拉布斯Grubbs检验法

格拉布斯(Grubbs)法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。

由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。

下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。

但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

格拉布斯法Grus检验法

格拉布斯法Grus检验法

格拉布斯法G r u s检验法集团档案编码:[YTTR-YTPT28-YTNTL98-UYTYNN08]格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。

由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。

但是要提醒,临界值G P (n )与两个参数有关:检出水平α(与置信概率P 有关)和测量次数n (与自由度f 有关)。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法之答禄夫天创作▲概述:一组丈量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算,那么该“可疑值”就称作“异常值(粗年夜误差)”. 本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”.▲丈量数据:例如丈量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0.▲排列数据:将上述丈量数据按从小到年夜的顺序排列,获得4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0.可以肯定,可疑值不是最小值就是最年夜值.▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704.计算时,必需将所有10个数据全部包括在内. ▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最年夜值与平均值之差为14.0-7.89=6.11.1)(2--=∑n x x s▲确定一个可疑值:比力起来,最年夜值与平均值之差6.11年夜于平均值与最小值之差3.19,因此认为最年夜值14.0是可疑值.▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260.由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值.下面要把计算值G i与格拉布斯表给出的临界值G P(n)比力,如果计算的G i值年夜于表中的临界值G P(n),则能判断该丈量数据是异常值,可以剔除.可是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关).▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得年夜一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95.▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和丈量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176.▲比力计算值G i和临界值G95(10):G i=2.260,G95(10)=2.176,G i >G95(10).▲判断是否为异常值:因为G i>G95(10),可以判断丈量值14.0为异常值,将它从10个丈量数据中剔除.▲余下数据考虑:剩余的9个数据再按以上步伐计算,如果计算的G i>G95(9),仍然是异常值,剔除;如果G i<G95(9),不是异常值,则不剔除.本例余下的9个数据中没有异常值.格拉布斯表——临界值G P(n)对异常值及统计检验法的解释■丈量过程是对一个无限年夜总体的抽样:对固定条件下的一种丈量,理论上可以无限次丈量下去,可以获得无穷多的丈量数据,这些丈量数据构成一个容量为无限年夜的总体;或者换一个角度看,原本就存在一个包括无穷多丈量数据的总体.实际的丈量只不外是从该无限年夜总体中随机抽取一个容量为n(例如n=10)的样本.这种样本也可以有无数个,每个样秘闻当于总体所含丈量数据的分歧随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较年夜;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端暗示,比如说超越3σ的数据,呈现的概率很小.用统计判断方法就是将异常值找出来,舍去.■犯毛病1:将原本不属于该总体的、第一种情况的异常值判断出来舍去,不会犯毛病;将原本属于该总体的、呈现的概率小的、第二种情况的异常值判断出来舍去,就会犯毛病.■犯毛病2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种毛病.■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法(Q法)、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳:每种统计检验法城市犯犯毛病1和毛病2.可是有人做过统计,在所有方法中,格拉布斯法犯这两种毛病的概率最小,所以推荐使用格拉布斯法.■多种方法结合使用:为了减少犯毛病的概率,可以将3种以上统计检验法结合使用,根据大都方法的判断结果,确定可疑值是否为异常值.■异常值来源:丈量仪器不正常,丈量环境偏离正常值较年夜,计算机犯错,看错,读错,抄错,算错,转移毛病.。

异常数据识别-格拉布斯表

异常数据识别-格拉布斯表

数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。

数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。

所谓异常数据就是数据集中与其它数据明显不一致的数据。

异常数据的产生原因有很多,可能是数据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。

异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的失误,带来不可挽回的损失。

因此,异常数据的识别和剔除具有重要意义。

异常数据识别有物理识别法和统计识别法。

物理识别法是根据人们对客观事物已有的认识,识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。

统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除的一种方法。

当物理识别异常数据不易做到时,一般采用统计识别法。

对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺夫斯基(t检验)准则法。

拉依达准则法简单,无需查表,用起来方便,测量次数较多或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。

肖维勒准则是经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷大时,该准则失效。

狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法之邯郸勺丸创作▲概述:一组丈量数据中, 如果个别数据偏离平均值很远, 那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断, 能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算, 那么该“可疑值”就称作“异常值(粗年夜误差)”.本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”.▲丈量数据:例如丈量10次(n =10), 获得以下数据:、、、、、、、、、.▲排列数据:将上述丈量数据按从小到年夜的顺序排列, 获得、、、、、、、、、.可以肯定, 可疑值不是最小值就是最年夜值.▲计算平均值x -和标准差s :x -=;标准差s =.计算时, 必需将所有10个数据全部包括在内.▲计算偏离值:平均值与最小值之差为-=;最年夜值与平均值之差为-=.1)(2--=∑n x x s▲确定一个可疑值:比力起来, 最年夜值与平均值之差年夜于平均值与最小值之差, 因此认为最年夜值是可疑值.▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=-=.由于x10-x-是残差, 而s是标准差, 因而可认为G10是残差与标准差的比值.下面要把计算值G i与格拉布斯表给出的临界值G P(n)比力, 如果计算的G i值年夜于表中的临界值G P(n), 则能判断该丈量数据是异常值, 可以剔除.可是要提醒, 临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关).▲定检出水平α:如果要求严格, 检出水平α可以定得小一些, 例如定α=, 那么置信概率P=1-α=;如果要求不严格, α可以定得年夜一些, 例如定α=, 即P=;通常定α=, P=.▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和丈量次数n(此处为10), 查格拉布斯表, 横竖相交得临界值G95(10)=.▲比力计算值G i和临界值G95(10):G i=, G95(10)=, G i>G95(10).▲判断是否为异常值:因为G i>G95(10), 可以判断丈量值为异常值, 将它从10个丈量数据中剔除.▲余下数据考虑:剩余的9个数据再按以上步伐计算, 如果计算的G i>G95(9), 仍然是异常值, 剔除;如果G i<G95(9), 不是异常值, 则不剔除.本例余下的9个数据中没有异常值.格拉布斯表——临界值G P(n)对异常值及统计检验法的解释■丈量过程是对一个无限年夜总体的抽样:对固定条件下的一种丈量, 理论上可以无限次丈量下去, 可以获得无穷多的丈量数据, 这些丈量数据构成一个容量为无限年夜的总体;或者换一个角度看, 原本就存在一个包括无穷多丈量数据的总体.实际的丈量只不外是从该无限年夜总体中随机抽取一个容量为n(例如n=10)的样本.这种样本也可以有无数个, 每个样秘闻当于总体所含丈量数据的分歧随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体, 抽样抽错了, 从另外一个总体抽出一个(一些)数据, 其值与总体平均值相差较年夜;第二种情况异常值虽属于该总体, 但可能是该总体固有随机变异性的极端暗示, 比如说超越3σ的数据, 呈现的概率很小.用统计判断方法就是将异常值找出来, 舍去.■犯毛病1:将原本不属于该总体的、第一种情况的异常值判断出来舍去, 不会犯毛病;将原本属于该总体的、呈现的概率小的、第二种情况的异常值判断出来舍去, 就会犯毛病.■犯毛病2:还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来, 统计检验方法判断不出它是异常值, 就会犯另外一种毛病.■异常值检验法:判断异常值的统计检验法有很多种, 例如格拉布斯法、狄克逊法(Q法)、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳:每种统计检验法城市犯犯毛病1和毛病2.可是有人做过统计, 在所有方法中, 格拉布斯法犯这两种毛病的概率最小, 所以推荐使用格拉布斯法.■多种方法结合使用:为了减少犯毛病的概率, 可以将3种以上统计检验法结合使用, 根据大都方法的判断结果, 确定可疑值是否为异常值.■异常值来源:丈量仪器不正常, 丈量环境偏离正常值较年夜, 计算机犯错, 看错, 读错, 抄错, 算错, 转移毛病.。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。

由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。

但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。

格拉布斯法(Grubbs)检验法【范本模板】

格拉布斯法(Grubbs)检验法【范本模板】

格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值"从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)".本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值"是否为“异常值"。

▲测量数据:例如测量10次(n =10),获得以下数据:8。

2、5.4、14。

0、7.3、4.7、9.0、6。

5、10。

1、7.7、6。

0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7。

3、7.7、8。

2、9.0、10。

1、14。

0.可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s :x —=7.89;标准差s =2。

704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7。

89-4。

7=3.19;最大值与平均值之差为14。

0-7.89=6。

11。

▲确定一个可疑值:比较起来,最大值与平均值之差6。

11大于平均值与最小值之差3.19,因此认为最大值14。

0是可疑值。

▲计算G i 值:G i =(x i -x — )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x — )/s =(14.0-7.89)/2。

704=2。

260。

由于x 10-x —是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除.但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。

数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。

所谓异常数据就是数据集中与其它数据明显不一致的数据。

异常数据的产生原因有很多,可能是数据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。

异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的失误,带来不可挽回的损失。

因此,异常数据的识别和剔除具有重要意义。

异常数据识别有物理识别法和统计识别法。

物理识别法是根据人们对客观事物已有的认识,识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。

统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除的一种方法。

当物理识别异常数据不易做到时,一般采用统计识别法。

对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺夫斯基(t检验)准则法。

拉依达准则法简单,无需查表,用起来方便,测量次数较多或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。

肖维勒准则是经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷大时,该准则失效。

狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。

罗马诺夫斯基准则法计算较为复杂。

格拉布斯准则和狄克松准则给出了严格的结果,但同样存在狄克逊准则法的缺陷,朱宏等人采用数据的中位数取代平均数,改进得到了更为稳健的处理方法,有效地消除了同侧异常数据的屏蔽效应。

国际上常推荐采用格拉布斯(Grubbs)准则法,对此采用改进型格拉布斯准则法。

▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定,可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。

计算时,必须将所有10个数据全部包含在内。

▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。

▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号
——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。

由于x10-x-是残差,而s
是标准差,因而可认为G10是残差与标准差的比值。

下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。

但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P 有关)和测量次数n(与自由度f有关)。

▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。

▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。

▲比较计算值G i和临界值G95(10):G i=2.260,G95(10)=2.176,G i>G95(10)。

▲判断是否为异常值:因为G i>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。

▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的G i>G95(9),仍然是异常值,剔除;如果G i<G95(9),不是异常值,则不剔除。

本例余下的9个数据中没有异常值。

格拉布斯表——临界值G P(n)
(n, α)值表
T
对异常值及统计检验法的解释
■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体。

实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n=10)的样本。

这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合。

样本中的正常值应当来自该总体。

通常的目的是用样本的统计量来估计总体参量。

总体一般假设为正态分布。

■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。

用统计判断方法就是将异常值找出来,舍去。

■犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

■犯错误2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。

■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。

每种方法都有其适用范围和优缺点。

■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2。

但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值。

■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误。

相关文档
最新文档