Grubbs检验法.pptx
格拉布斯法Grubbs检验法
罿格拉布斯法 (Grubbs) 查验法螇▲概括:一组丈量数据中,假如个别数据偏离均匀值很远,那么这个 ( 这些 ) 数据称作“可疑值” 。
假如用统计方法—比如格拉布斯 (Grubbs) 法判断,能将“可疑值”此后组丈量数据中剔除而不参加均匀值的计算,那么该“可疑值”就称作“异样值 ( 粗大偏差 ) ”。
羄本文就是介绍怎样用格拉布斯法(Grubbs) 判断“可疑值”能否为“异样值”。
蒂▲丈量数据:比如丈量 10 次( n=10) ,获取以下数据: 8.2 、 5.4 、14.0 、7.3 、4.7 、 9.0 、 6.5 、10.1 、7.7 、6.0 。
莀▲摆列数据:将上述丈量数据按从小到大的次序摆列,获取 4.7 、5.4 、6.0 、6.5 、7.3 、7.7 、8.2 、9.0 、10.1 、14.0 。
能够一定,可疑值不是最小值就是最大值。
膅▲计算均匀值 x-和标准差 s:x-= 7.89 ;标准差 s= 2.704 。
计算时,一定将所有 10 个数据所有包括在内。
s ( x x)2 n1螃▲计算偏离值:均匀值与最小值之差为7.89 -4.7 = 3.19 ;最大值与均匀值之差为14.0 - 7.89 =6.11 。
薂▲确立一个可疑值:比较起来,最大值与均匀值之差 6.11 大于均匀值与最小值之差 3.19 ,所以以为最大值 14.0 是可疑值。
螁▲计算 G i值: G i=( x i-x- )/ s;此中 i 是可疑值的摆列序号袇—— 10 号;所以10=(x 10 x -)/ s =-7.89)/2.704 =2.260 。
因为 x 10 x - 是残差,而 s是标G--准差,因此可以为 G是残差与标准差的比值。
下边要把计算值G i 与格拉布斯表给出的临界值( )10值大于表中的临界值 G PG P n比较,假如计算的 G i n ,则能判断该丈量数据是异样值,能够剔除。
可是n ( ) 与置信概率 P 相关 和丈量次数 n 与自由度 f要提示,临界值 G与两个参数相关:检出水平 αP ( )()(相关 ) 。
格拉布斯法Grubbs检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。
由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常1)(2--=∑n x x s值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
数据分析格鲁布斯检验
作业题一
某人在不同时间测定同一样品,得结果(%)为:
第一次:35.74,35.34,34.84,35.14,35.04,34.74; 第二次:34.24,33.74,32.94,33.44,34.04,33.54。
问两次测定结果精密度有无显著性差异?
第13页,此课件共14页哦
第10页,此课件共14页哦
土地生态经济系统分析中的数据检验
4.平均值加减标准差法
5.4d法
第11页,此课件共14页哦
作业题一
❖ 用某法分析汽车尾气中SO2含量(%),得到下列结果:4.88, 4.92,4.90,4.87,4.86, 4.84,4.71,4.86,4.89,4.99。
❖ 用格鲁布斯法判断有无异常值需舍弃?
【例】 各实验室分析同一土壤样品,各实验室测定的平均值为 4.50、 4.41、5.01、 4.51、4.64、4.75、 4.49、 4.81、 4.95、5.39,用格鲁布斯检验法检验是否有异常值。
第4页,此课件共14页哦
土地生态经济系统分析中的数据检验
2.T检验法 (1)置信水平与平均值的置信区间 测定土壤中SiO2的含量,得到下列数据:28.62,
验法判断这两个实验室所测数据的精密度是否存在显著性差异。
实验室号
1
2
1
0.098 0.099
2
0.099 0.101
3 0.098 0.099
4 0.100 0.098
5
x
s
0.099 0.0988 0.00084
0.097 0.0988 0.00148
第9页,此课件共14页哦
土地生态经济系统分析中的数据检验
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
1)(2--=∑n x x s▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
格拉布斯法检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。
即刻法(Grubbs)在室内质控中的应用和问题ppt课件
枣阳市第一人民医院检验科 肖传宇
.
即刻法的引用历史
卫生部临床检验中心于1989年将英国的质 控理论“格拉布斯(Grubbs)”检验法同 Levey-Jennings质控图法一起引入我国并在医 学检验领域室内质控工作中发挥了巨大的作用。
.
即刻法的应用
.
即刻法存在的问题及纠正
1、对异常值的判断滞后
.
.
问题
从表中可以看出,当n=10时,测定值S/CO为 “6.657”,明显过大,用Grubbs法公式计算后,SI上 限=2.133,小于n=10时n2S的值2.18,未被判为警告; 但当数据累积到第12次时,SI上限=2.322,大于n=12 时n2S的值2.29,根据Grubbs判断方法,此批数据的 最大值(即n=10时6.657 )被判警告,当删除6.657 后重新进行计算SI上限、SI下限值均正常。
.
例如上表中的数据,在n=9时, 均值为 4.887,s=0.524, 均值+3s=6.459,当 n=10时, 数据为6.657,超出 ±3s的范围,虽然用即刻 法计算为在控但仍判为“失控”而删去。
.
2、前三次测定对后续质控结果的影响
.
问题
从上表可以发现,前3个质控值的CV对随后的 结果影响很大,特别是对第4个质控值。 1、前3个质控值的CV越小,第4个质控值的允 许CV值也相应缩小。而前3个质控值的CV<2 时,第4个质控值的CV值必须小于6.7,往往 很容易失控; 2、当前3个质控值的CV=25%时,第4个质控值 的CV值高达60%,即刻法对前3个质控值CV 大的结果失去控制意义。
1、假设前3次质控从小到大依次为X1、X2、X3。 其中X1=X2,则SI上限= 12 /3≈1.155
格拉布斯法(Grubbs)检验法
【下载本文档,可以自由复制内容或自由编辑修改内容,更 多精彩文章,期待你的好评和关注,我将一如既往为您服务】格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法一例如格拉布斯(Grubbs)法判断,能将“可 疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称 作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n = 10),获得以下数据:8.2、5.4、14.0、7.3、 4.7 、 9.0 、 6.5 、 10.1 、 7.7 、 6.0 。
▲排列数据:将上述测量数据按从小到大的顺序排列, 得到4.7、5.4、6.0、6.5、 7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值X 和标准差s : x = 7.89 ;标准差s = 2.704。
计算时,必须将所有▲计算偏离值:平均值与最小值之差为7.89 — 4.7 = 3.19 ;最大值与平均值之差 为 14.0 — 7.89 = 6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G 值:G = (X i — x - )/ s ;其中i 是可疑值的排列序号 ——10 号;因此 G o = ( X 10— x )/ s = (14.0 — 7.89)/2.704 = 2.260。
由于 心一 x 是残差,而s 是标准差,因而可认为 G o 是残差与标准差的比值。
下面要把计 算值G 与格拉布斯表给出的临界值 G(n)比较,如果计算的G 值大于表中的临界 值G(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G(n) 与两个参数有关:检出水平a (与置信概率P 有关)和测量次数n (与自由度f 有关)。
格拉布斯法Grus检验法
格拉布斯法G r u s检验法文件编码(GHTU-UITID-GGBKT-POIU-WUUI-8968)格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。
由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据1)(2--=∑n x x s是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
格拉布斯Grubbs检验法
格拉布斯(Grubbs)法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。
Grubbs检验法专业知识课件
数据旳统计处理和解释
Thank you!!
• 总体:研究对象旳全体为总体。其具有: 同质性、大量性、差别性。(有限和无限 总体)
• 样本:从总体中抽取部分个体所构成旳集 合称为样本。具有:代表性、客观性、随 机性。
数据旳统计处理和解释
4、统计离群值旳判断(单侧)
A、当检出Xi或X1为离群值时,拟定剔除水平α* B、查附表1,G1-α*(n)
数据旳统计处理和解释
上侧
当Gn>G1-α*(n)时 •判断Xi为统计离群值
不然
•Xi为歧离值
下侧
•当Gn’>G1-α*(n)时
•判断X1为统计离群值
不然 •不然X1为歧离值
14~30
Dn=r22=
x(n)-x(n-2) x(n)-x(3)
x(3)-x(1)
D’n=r’22= x(n-2)-x(1)
数据旳统计处理和解释
Dixon检验法
确认检出水平α,在附表2中查出临界值D1-α(n)。 当Dn> D1-α(n)时,鉴定Xn为离群值 当D’n> D1-α(n)时,鉴定X1为离群值 不然两者都判未发觉离群值。
数据旳统计处理和解释
2.离群值旳三种情形
a.上侧情形:根据实际情况或以往经验,离群值都为高端值; b.下侧情形:根据实际情况或以往经验,离群值都为低端值; c.双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端 值。
3.检出离群值个数旳上限
应要求在样本中检出离群值个数旳上限(与样品量相比较应较小)当检出离 群值个数超出了这个上限时,对此样本应作谨慎旳研究和处理。
α检验离群值所使用旳明显水平,简称检出水平 α*检验统计离群值所使用旳明显水平,简称剔除水平(α* < α )
Grubbs检验法和Dixon检验法(课堂PPT)
x(i)观测值从小到大排序后的第i个值
δ总体标准差 s 样本标准差 Gn Grubbs 上统计量 Gn’ Grubbs 下统计量 Dn Dixon 上统计量 Dn’Dixon 下统计量
数据的统计处理和解释
数据的统计处理和解释
正态样本离群值的判断和处理
1、 Grubbs检验法 2、 Dixon检验法
数据的统计处理和解释
数据的统计处理和解释(包括12个国标)
正态样本离群值的判断和处理
已知标准差
Nair检测法
未知标准差
离群值<1 离群值>1
Grubbs Dixon 偏度-峰度法 Dixon
数据的统计处理和解释
三:离群值的判断
1.来源与判断
来源 a.第一类离群值是总体固有变异性的极端表现,他与样本中其余观测值 属于同一总体。 b.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果, 或产生于观测、记录、计算中的失误,他与样本中其余观测值不属于同 一总体。 判断
对于离群值的判定通常可根据技术或物理上的理由直接进行,当上述理 由不明确时,可用本判定方法。
离群值 outlier
样本中的一个或几个观测值,他们离开其它观测值较远,暗示他们可能来自不同的总体
检出水平 detection level
为检出离群值而指定的统计检验的显著性水平,用α表示。除非约定,α值应为0.05
注1:用统计的方法检验测定值之间是否存在显著性差异,从而判定结果或分析方法的可靠性,这一 过程称为显著 性检验。
数据的统计处理和解释
a.依据实际情况和以往经验,选定 适宜的离群值检验规则。
grubbs检验法
grubbs检验法格鲁布斯检验(Grubbs检验)是一种统计检验,是检测数据中是否存在异常值的方法。
这种检验最早是在1950年由计算机科学家H.R.Grubbs提出的,因而得名为格鲁布斯检验。
它是一种用来检验单一和多变量样本中异常值的技术,它首先计算样本中偏离均值最多的数据点,然后检验是否太偏离均值而说明该数据为异常值。
格鲁布斯检验的基本步骤是:(1)选择要被检验的统计量,可以选择均值、中位数等。
(2)计算该统计量的偏差,即距离极限的距离。
极限的值可以用平均值或中位数来确定,比如可以计算出最大偏离平均值的偏差,最小偏离平均值的偏差,最大偏离中位数的偏差,最小偏离中位数的偏差等。
(3)计算检验统计量,根据前面步骤计算得出的偏差,检验统计量可以使用格鲁布斯统计量Grubbs‘statistic,G=|X–μ|/σG表示的是被检验的统计量(X)与平均值(μ)的偏差,并且除以标准差,以得到相对的偏差。
(4)检验统计量G的拟合概率和非参数的T检验的拟合概率不同,G的拟合概率than the fit probability of the test statistic G。
(5)当拟合概率小于某一阈值时,统计量G被认为是显著的,即存在异常值;当拟合概率大于某一阈值时,表明不存在异常值。
格鲁布斯检验的优点在于它可以检验任意数量的变量。
它适合于多维度的数据分析,可以检测各维度(特征)之间是否存在异常值。
优点在于它是一种非参数检验,可以检验非正态分布的数据。
缺点也同样存在,因为格鲁布斯检验本质上是一种限定检验,限定条件越小,检验结果越可靠;而限定条件越大,检验结果可能更少可信。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =(14.0-7.89)/2.704=2.260。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P (n )与两个参数有关:检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P =1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P =0.90;通常定α=0.05,P =0.95。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:、、、、、、、、、。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到、、、、、、、、、。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=;标准差s =。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为-=;最大值与平均值之差为-=。
▲确定一个可疑值:比较起来,最大值与平均值之差大于平均值与最小值之差,因此认为最大值是可疑值。
▲计算G i 值:G i =(x i -x - )/s ;其中i 是可疑值的排列序号——10号;因此G 10=( x 10-x - )/s =-/=。
由于 x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值1)(2--=∑n x x sG i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=,那么置信概率P=1-α=;如果要求不严格,α可以定得大一些,例如定α=,即P=;通常定α=,P=。
▲查格拉布斯表获得临界值:根据选定的P值(此处为和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=。
▲比较计算值G i和临界值G95(10):G i=,G95(10)=,G i>G95(10)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.504
5
1.672
1.749
19
2.532
6
1.822
1.944
20
2.557
7
1.938
2.097
21
2.580
8
2.032
2.231
22
2.603
9
2.110
2.323
23
2.624
10
2.176
2.410
24
2.644
11
2.234
2.485
25
2.663
12
2.285
2.550
30
2.745
13
2.331
2.607
35
2.811
14
2.371
2.659
40
2.866
15
2.409
2.705
45
2.914
16
2.443
2.747
50
2.956
0.99
2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.103 3.178 3.240 3.292 3.336
▲计算平均值 x-和标准差 s:x-=7.89;标准差 s=2.704。计算时,必须将所有 10 个数据
全部包含在内。
▲计算偏离值:平均值与最小值之差为 7.89-4.7=3.19;最大值与平均值之差为 14.0- 7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11 大于平均值与最小值之差 3.19, 因此认为最大值 14.0 是可疑值。
▲计算 Gi 值:Gi=(xi-x- )/s;其中 i 是可疑值的排列序号
——10 号;因此 G10=(
x10-x -
)/s=(14.0-7.89)/2.704=2.260。由于
x10-x
-
是残差,
而 s 是标准差,因而可认为 G10 是残差与标准差的比值。下面要把计算值 Gi 与格拉布斯表给
出的临界值 GP(n)比较,如果计算的 Gi 值大于表中的临界值 GP(n),则能判断该测量数据是
▲测量数据:例如测量 10 次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、
6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到 4.7、5.4、6.0、6.5、7.3、7.7、 8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
异常值,可以剔除。但是要提醒,临界值 GP(n)与两个参数有关:检出水平α (与置信概率
P 有关)和测量次数 n (与自由度 f 有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置 信概率 P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即 P= 0.90;通常定α=0.05,P=0.95。
▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可 疑值”。如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数 据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。本文 就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
量数据中剔除。
▲余下数据考虑:剩余的 9 个数据再按以上步骤计算,如果计算的 Gi>G95(9),仍然是异常 值,剔除;如果 Gi<G95(9),不是异常值,则不剔除。本例余下的 9 个数据中没有异常值。
P
格拉布斯表——临界值 GP(nP)
0.95
0.99
0.95
n
n
3
1.135
1.155
17
2.475
——
3
▲查格拉布斯表获得临界值:根据选定的 P 值(此处为 0.95)和测量次数 n(此处为 10),查 格拉布斯表,横竖相交得临界值 G95(10)=2.176。
▲比较计算值 Gi 和临界值 G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
1
▲判断是否为异常值:因为 Gi>G95(10),可以判断测量值 14.0 为异常值,将它从 10 个测
对异常值及统计检验法的解释
■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测 量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者 换一个角度看,本来就存在一个包含无穷多测量数据的总体。实际的测量只不过是从该无
限大总体中随机抽取一个容量为 n(例如 n=10)的样本。这种样本也可以有无数个,每个样
2
本相当于总体所含测量数据的不同随机组合。样本中的正常值应当来自该总体。通常的目 的是用样本的统计量来估计总体参量。总体一般假设为正态分布。 ■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异 常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均 值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表 现,比如说超过 3σ的数据,出现的概率很小。用统计判断方法就是将异常值找出来,舍去。 ■犯错误 1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将 本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。 ■犯错误 2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出 来,统计检验方法判断不出它是异常值,就会犯另外一种错误。 ■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法、偏度峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。 ■格拉布斯法最佳:每种统计检验法都会犯犯错误 1 和错误 2。但是有人做过统计,在所有 方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。 ■多种方法结合使用:为了减少犯错误的概率,可以将 3 种以上统计检验法结合使用,根 据多数方法的判断结果,确定可疑值是否为异常值。 ■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错, 抄错,算错,转移错误。