格拉布斯法讲义

合集下载

格拉布斯法Grubbs检验法

格拉布斯法(Grubbs)检验法▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断，能将“可疑值”从此组测量数据中剔除而不参与平均值的计算，那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n ＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s ：x -＝7.89；标准差s ＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i 值：G i ＝(x i －x -)/s ；其中i 是可疑值的排列序号——10号；因此G 10＝(x 10－x -)/s ＝(14.0－7.89)/2.704＝2.260。

由于x 10－x -是残差，而s 是标准差，因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较，如果计算的G i 值大于表中的临界值G P (n )，则能判断该测量数据是异常1)(2--=∑n x x s值，可以剔除。

但是要提醒，临界值G P(n)与两个参数有关：检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

▲定检出水平α：如果要求严格，检出水平α可以定得小一些，例如定α＝0.01，那么置信概率P＝1－α＝0.99；如果要求不严格，α可以定得大一些，例如定α＝0.10，即P＝0.90；通常定α＝0.05，P＝0.95。

格拉布斯表

数据是关于自然、社会现象和科学试验的定量或定性的记录，是科学研究最重要的基础。

数据作为研究依赖的基础资源，其质量好坏直接关系到以此为据的正确性和科学性。

所谓异常数据就是数据集中与其它数据明显不一致的数据。

异常数据的产生原因有很多，可能是数据产生机制内在特性决定的，也可能是抽样调查技术问题；数据采集设备不完善；数据录入及传输错误；测量单位混乱；虚报、瞒报使统计数据失真；丢失数据等人力可控因素造成的。

异常数据的出现会极大程度地降低数据的质量，导致统计分析，如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异，使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误，进一步甚至可能造成宏观决策上的失误，带来不可挽回的损失。

因此，异常数据的识别和剔除具有重要意义。

异常数据识别有物理识别法和统计识别法。

物理识别法是根据人们对客观事物已有的认识，识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中识别，随时剔除的一种方法。

统计识别法是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除的一种方法。

当物理识别异常数据不易做到时，一般采用统计识别法。

对于多次重复测定的数据，异常数据常用的统计识别与剔除法有拉依达准则（3@准则)法、格拉布斯（Grubbs）准则法、狄克逊(Dixon)准则法、肖维勒（Chauvenet）准则法、罗马诺夫斯基（t检验）准则法。

拉依达准则法简单，无需查表，用起来方便，测量次数较多或要求不高时用，当测量次数小于或等于10时，拉依达准则法失效。

肖维勒准则是经典方法，改善了拉依达准则，过去应用较多，但它没有固定的概率意义，特别是测量数据n无穷大时，该准则失效。

狄克逊准则法对数据中只存在一个异常数据时，效果良好，但当数据中异常数据的个数不止一个且出现在同侧时，该方法的检验效果不好，尤其同侧的异常数据很接近时效果更差，易遭受到屏蔽效应。

格拉布斯法检验法

格拉布斯法(Grubbs)检验法▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n ＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s ：x -＝7.89；标准差s ＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i 值：G i ＝(x i －x - )/s ；其中i 是可疑值的排列序号——10号；因此G 10＝( x 10－x - )/s ＝(14.0－7.89)/2.704＝2.260。

由于 x 10－x -是残差，而s 是标准差，因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较，如果计算的G i 值大于表中的临界值G P (n )，则能判断该测量数据是异常值，可以剔除。

但是要提醒，临界值G P (n )与两个参数有关：检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。

▲定检出水平α：如果要求严格，检出水平α可以定得小一些，例如定α＝0.01，那么置信概率P ＝1－α＝0.99；如果要求不严格，α可以定得大一些，例如定α＝0.10，即P ＝0.90；通常定α＝0.05，P ＝0.95。

格拉布斯法—异常值判断

格拉布斯法—判断(2009-04-0716:38:20) 标签：杂谈?▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断，能将“可疑值”从此组测量数据中剔除而参与平均值的计算，那么该“可疑值”就称作“(粗大误差)”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。

▲测量数据：例如测量10次(n＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值是最小值就是最大值。

▲计算平均值x-和标准差s：x-＝7.89；标准差s＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i值：G i＝(x i－x-)/s；其中i是可疑值的排列序号——10号；因此G＝(x10－x-)/s＝(14.0－7.89)/2.704＝2.260。

由于x10－x-10是残差，而s是标准差，因而可认为G10是残差与标准差的比值。

下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较，如果计算的G i值大于表中的临界值G(n)，则能判断该测量数据是，可以剔除。

但是要提醒，临界值G P(n)与两个参P数有关：检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

▲定检出水平α：如果要求严格，检出水平α可以定得小一些，例如定α＝0.01，那么置信概率P＝1－α＝0.99；如果要求严格，α可以定得大一些，例如定α＝0.10，即P＝0.90；通常定α＝0.05，P＝0.95。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法之樊仲川亿创作▲概述：一组丈量数据中, 如果个别数据偏离平均值很远, 那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断, 能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算, 那么该“可疑值”就称作“异常值(粗年夜误差)”.本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”.▲丈量数据：例如丈量10次(n ＝10), 获得以下数据：、、、、、、、、、.▲排列数据：将上述丈量数据按从小到年夜的顺序排列, 获得、、、、、、、、、.可以肯定, 可疑值不是最小值就是最年夜值.▲计算平均值x -和标准差s ：x -＝；标准差s ＝.计算时, 必需将所有10个数据全部包括在内.▲计算偏离值：平均值与最小值之差为－＝；最年夜值与平均值之差为－＝.1)(2--=∑n x x s▲确定一个可疑值：比力起来, 最年夜值与平均值之差年夜于平均值与最小值之差, 因此认为最年夜值是可疑值.▲计算G i值：G i＝(x i－x-)/s；其中i是可疑值的排列序号——10号；因此G10＝( x10－x-)/s＝－＝.由于x10－x-是残差, 而s是标准差, 因而可认为G10是残差与标准差的比值.下面要把计算值G i与格拉布斯表给出的临界值G P(n)比力, 如果计算的G i值年夜于表中的临界值G P(n), 则能判断该丈量数据是异常值, 可以剔除.可是要提醒, 临界值G P(n)与两个参数有关：检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关).▲定检出水平α：如果要求严格, 检出水平α可以定得小一些, 例如定α＝, 那么置信概率P＝1－α＝；如果要求不严格, α可以定得年夜一些, 例如定α＝, 即P＝；通常定α＝, P＝.▲查格拉布斯表获得临界值：根据选定的P值(此处为0.95)和丈量次数n(此处为10), 查格拉布斯表, 横竖相交得临界值G95(10)＝.▲比力计算值G i和临界值G95(10)：G i＝, G95(10)＝, G i＞G95(10).▲判断是否为异常值：因为G i＞G95(10), 可以判断丈量值为异常值, 将它从10个丈量数据中剔除.▲余下数据考虑：剩余的9个数据再按以上步伐计算, 如果计算的G i＞G95(9), 仍然是异常值, 剔除；如果G i＜G95(9), 不是异常值, 则不剔除.本例余下的9个数据中没有异常值.格拉布斯表——临界值G P(n)对异常值及统计检验法的解释■丈量过程是对一个无限年夜总体的抽样：对固定条件下的一种丈量, 理论上可以无限次丈量下去, 可以获得无穷多的丈量数据, 这些丈量数据构成一个容量为无限年夜的总体；或者换一个角度看, 原本就存在一个包括无穷多丈量数据的总体.实际的丈量只不外是从该无限年夜总体中随机抽取一个容量为n(例如n＝10)的样本.这种样本也可以有无数个, 每个样秘闻当于总体所含丈量数据的分歧随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■异常值区分：样本中的正常值应当属于同一总体；而异常值有两种情况：第一种情况异常值不属于该总体, 抽样抽错了, 从另外一个总体抽出一个(一些)数据, 其值与总体平均值相差较年夜；第二种情况异常值虽属于该总体, 但可能是该总体固有随机变异性的极端暗示, 比如说超越3σ的数据, 呈现的概率很小.用统计判断方法就是将异常值找出来, 舍去.■犯毛病1：将原本不属于该总体的、第一种情况的异常值判断出来舍去, 不会犯毛病；将原本属于该总体的、呈现的概率小的、第二种情况的异常值判断出来舍去, 就会犯毛病.■犯毛病2：还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来, 统计检验方法判断不出它是异常值, 就会犯另外一种毛病.■异常值检验法：判断异常值的统计检验法有很多种, 例如格拉布斯法、狄克逊法（Q法）、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳：每种统计检验法城市犯犯毛病1和毛病2.可是有人做过统计, 在所有方法中, 格拉布斯法犯这两种毛病的概率最小, 所以推荐使用格拉布斯法.■多种方法结合使用：为了减少犯毛病的概率, 可以将3种以上统计检验法结合使用, 根据大都方法的判断结果, 确定可疑值是否为异常值.■异常值来源：丈量仪器不正常, 丈量环境偏离正常值较年夜, 计算机犯错, 看错, 读错, 抄错, 算错, 转移毛病.。

格拉布斯法(Grubbs)检验法精选.

格拉布斯法(Grubbs)检验法▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n ＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s ：x -＝7.89；标准差s ＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i 值：G i ＝(x i －x - )/s ；其中i 是可疑值的排列序号——10号；因此G 10＝( x 10－x - )/s ＝(14.0－7.89)/2.704＝2.260。

由于 x 10－x -是残差，而s 是标准差，因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较，如果计算的G i 值大于表中的临界值G P (n )，则能判断该测量数据是异常值，可以剔除。

但是要提醒，临界值G P (n )与两个参数有关：检出水平α (与置信概率P 有关)和测量次数n (与自由度f 有关)。

▲定检出水平α：如果要求严格，检出水平α可以定得小一些，例如定α＝0.01，那么置信概率P ＝1－α＝0.99；如果要求不严格，α可以定得大一些，例如定α＝0.10，即P ＝0.90；通常定α＝0.05，P ＝0.95。

格拉布斯Grubbs检验法

格拉布斯(Grubbs)法▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s：x-＝7.89；标准差s＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i值：G i＝(x i－x-)/s；其中i是可疑值的排列序号——10号；因此G10＝( x10－x-)/s＝(14.0－7.89)/2.704＝2.260。

由于x10－x-是残差，而s是标准差，因而可认为G10是残差与标准差的比值。

下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较，如果计算的G i值大于表中的临界值G P(n)，则能判断该测量数据是异常值，可以剔除。

但是要提醒，临界值G P(n)与两个参数有关：检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

格拉布斯法—异常值判断

格拉布斯法—判断(2009-04-07 16:38:20)标签：杂谈▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs)法判断，能将“可疑值”从此组测量数据中剔除而参与平均值的计算，那么该“可疑值”就称作“(粗大误差)”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“”。

▲测量数据：例如测量10次(n＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值是最小值就是最大值。

▲计算平均值x-和标准差s：x-＝7.89；标准差s＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i值：G i＝(x i－x-)/s；其中i是可疑值的排列序号——10号；因此G＝( x10－x-)/s＝(14.0－7.89)/2.704＝2.260。

由于x10－10x-是残差，而s是标准差，因而可认为G是残差与标准差的比值。

下面要把计10算值G i与格拉布斯表给出的临界值G P(n)比较，如果计算的G i值大于表中的临界值G P(n)，则能判断该测量数据是，可以剔除。

但是要提醒，临界值G P(n)与两个参数有关：检出水平α(与置信概率P有关)和测量次数n(与自由度f 有关)。

格拉布斯法Grus检验法

格拉布斯法G r u s检验法集团档案编码：[YTTR-YTPT28-YTNTL98-UYTYNN08]格拉布斯法(Grubbs)检验法▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n ＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x -和标准差s ：x -＝7.89；标准差s ＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i 值：G i ＝(x i －x -)/s ；其中i 是可疑值的排列序号——10号；因此G 10＝(x 10－x -)/s ＝(14.0－7.89)/2.704＝2.260。

由于x 10－x -是残差，而s 是标准差，因而可认为G 10是残差与标准差的比值。

下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较，如果计算的G i 值大于表中的临界值G P (n )，则能判断该测量数据是异常值，可以剔除。

但是要提醒，临界值G P (n )与两个参数有关：检出水平α(与置信概率P 有关)和测量次数n (与自由度f 有关)。

粗大误差处理方法

粗大误差处理方法在一组条件完全相同的重复试验中，个别的测量值可能会出现异常。

如测量值过大或过小，这些过大或过小的测量数据是不正常的，或称为可疑的。

对于这些可疑数据应该用数理统计的方法判别其真伪，并决定取舍。

常用的方法有拉依达法、肖维纳特（Chavenet）法。

格拉布斯（Grubbs）法等。

一、拉依达法当试验次数较多时，可简单地用3倍标准偏差（3S）作为确定可疑数据取舍的标准。

当某一测量数据（xi）与其测量结果的算术平均值（x-‘）之差大于3倍标准偏差时，用公式表示为：︳xi －x-‘︳＞3S则该测量数据应舍弃。

这是美国混凝土标准中所采用的方法，由于该方法是以3倍标准偏差作为判别标准，所以亦称3倍标准偏差法，简称3S法。

取3S的理由是：根据随机变量的正态分布规律，在多次试验中，测量值落在x-‘一3S与x-‘十3S之间的概率为99.73％，出现在此范围之外的概率仅为0.27%，也就是在近400次试验中才能遇到一次，这种事件为小概率事件，出现的可能性很小，几乎是不可能。

因而在实际试验中，一旦出现，就认为该测量数据是不可靠的，应将其舍弃。

另外，当测量值与平均值之差大于2倍标准偏差（即︳xi －x-‘︳＞2S）时，则该测量值应保留，但需存疑。

如发现生产（施工）、试验过程屯有可疑的变异时，该测量值则应予舍弃。

拉依达法简单方便，不需查表，但要求较宽，当试验检测次数较多或要求不高时可以应用，当试验检测次数较少时（如n<10）在一组测量值中即使混有异常值，也无法舍弃。

二、肖维纳特法进行n次试验，其测量值服从正态分布，以概率1／（2n）设定一判别范围（一knS，knS），当偏差（测量值xi与其算术平均值x-‘之差）超出该范围时，就意味着该测量值xi 是可疑的，应予舍弃。

判别范围由下式确定：肖维纳特法可疑数据舍弃的标准为：︳xi一x-‘︳/S≥kn三、格拉布斯法格拉布斯法假定测量结果服从正态分布，根据顺序统计量来确定可疑数据的取舍。

格拉布斯法(Grubbs)检验法

格拉布斯法(Grubbs)检验法之邯郸勺丸创作▲概述：一组丈量数据中, 如果个别数据偏离平均值很远, 那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断, 能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算, 那么该“可疑值”就称作“异常值(粗年夜误差)”.本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”.▲丈量数据：例如丈量10次(n ＝10), 获得以下数据：、、、、、、、、、.▲排列数据：将上述丈量数据按从小到年夜的顺序排列, 获得、、、、、、、、、.可以肯定, 可疑值不是最小值就是最年夜值.▲计算平均值x -和标准差s ：x -＝；标准差s ＝.计算时, 必需将所有10个数据全部包括在内.▲计算偏离值：平均值与最小值之差为－＝；最年夜值与平均值之差为－＝.1)(2--=∑n x x s▲确定一个可疑值：比力起来, 最年夜值与平均值之差年夜于平均值与最小值之差, 因此认为最年夜值是可疑值.▲计算G i值：G i＝(x i－x-)/s；其中i是可疑值的排列序号——10号；因此G10＝( x10－x-)/s＝－＝.由于x10－x-是残差, 而s是标准差, 因而可认为G10是残差与标准差的比值.下面要把计算值G i与格拉布斯表给出的临界值G P(n)比力, 如果计算的G i值年夜于表中的临界值G P(n), 则能判断该丈量数据是异常值, 可以剔除.可是要提醒, 临界值G P(n)与两个参数有关：检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关).▲定检出水平α：如果要求严格, 检出水平α可以定得小一些, 例如定α＝, 那么置信概率P＝1－α＝；如果要求不严格, α可以定得年夜一些, 例如定α＝, 即P＝；通常定α＝, P＝.▲查格拉布斯表获得临界值：根据选定的P值(此处为0.95)和丈量次数n(此处为10), 查格拉布斯表, 横竖相交得临界值G95(10)＝.▲比力计算值G i和临界值G95(10)：G i＝, G95(10)＝, G i＞G95(10).▲判断是否为异常值：因为G i＞G95(10), 可以判断丈量值为异常值, 将它从10个丈量数据中剔除.▲余下数据考虑：剩余的9个数据再按以上步伐计算, 如果计算的G i＞G95(9), 仍然是异常值, 剔除；如果G i＜G95(9), 不是异常值, 则不剔除.本例余下的9个数据中没有异常值.格拉布斯表——临界值G P(n)对异常值及统计检验法的解释■丈量过程是对一个无限年夜总体的抽样：对固定条件下的一种丈量, 理论上可以无限次丈量下去, 可以获得无穷多的丈量数据, 这些丈量数据构成一个容量为无限年夜的总体；或者换一个角度看, 原本就存在一个包括无穷多丈量数据的总体.实际的丈量只不外是从该无限年夜总体中随机抽取一个容量为n(例如n＝10)的样本.这种样本也可以有无数个, 每个样秘闻当于总体所含丈量数据的分歧随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■异常值区分：样本中的正常值应当属于同一总体；而异常值有两种情况：第一种情况异常值不属于该总体, 抽样抽错了, 从另外一个总体抽出一个(一些)数据, 其值与总体平均值相差较年夜；第二种情况异常值虽属于该总体, 但可能是该总体固有随机变异性的极端暗示, 比如说超越3σ的数据, 呈现的概率很小.用统计判断方法就是将异常值找出来, 舍去.■犯毛病1：将原本不属于该总体的、第一种情况的异常值判断出来舍去, 不会犯毛病；将原本属于该总体的、呈现的概率小的、第二种情况的异常值判断出来舍去, 就会犯毛病.■犯毛病2：还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来, 统计检验方法判断不出它是异常值, 就会犯另外一种毛病.■异常值检验法：判断异常值的统计检验法有很多种, 例如格拉布斯法、狄克逊法（Q法）、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳：每种统计检验法城市犯犯毛病1和毛病2.可是有人做过统计, 在所有方法中, 格拉布斯法犯这两种毛病的概率最小, 所以推荐使用格拉布斯法.■多种方法结合使用：为了减少犯毛病的概率, 可以将3种以上统计检验法结合使用, 根据大都方法的判断结果, 确定可疑值是否为异常值.■异常值来源：丈量仪器不正常, 丈量环境偏离正常值较年夜, 计算机犯错, 看错, 读错, 抄错, 算错, 转移毛病.。

Grubbs检验法

▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n＝10)，获得以下数据：8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s：x-＝7.89；标准差s＝2.704。

计算时，必须将所有10个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89－4.7＝3.19；最大值与平均值之差为14.0－7.89＝6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差6.11大于平均值与最小值之差3.19，因此认为最大值14.0是可疑值。

▲计算G i值：G i＝(x i－x-)/s；其中i是可疑值的排列序号——10号；因此G10＝( x10－x-)/s＝(14.0－7.89)/2.704＝2.260。

由于x10－x-是残差，而s是标准差，因而可认为G10是残差与标准差的比值。

下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较，如果计算的G i值大于表中的临界值G P(n)，则能判断该测量数据是异常值，可以剔除。

但是要提醒，临界值G P(n)与两个参数有关：检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。

浅谈可疑数据的取舍方法-格拉布斯法

疆熬
家政策，会被用户拒绝使用也
还未达到普查程度的要求。如果要进行满足建设规模矿井的精查勘探工作，要先进行普查一详查勘探Ｔ作．后再则然
进行精查勘探工作。
６地质资料中煤层资源量的计算也应分析。煤层资源）
要依据现行标准、范对其评价．价其各项工作的质量，规评确定其达到的勘探程度。一些地质勘探报告在依据当时的
２．６６２｛．７４２１．８２．８７２６．９３．１７
利用格托布斯法每次只能舍去一个可疑值，有两个以若上的可疑数据，恢一个一个的舍弃，弃第一个数据后，应舍检测次数由ｎ变为ｎ１以此为基础再判别第二个可疑数据－，
ｌ的初步尝试
前面指出，用格拉布斯法可以解决可疑数据取舍的定应
在路程果料理对疑据舍初应公Ｔ成资整上可数取的步
（转第１５页）下６
囊０７
鼍 ≯０露菇蠢强
≯
麓瓣
囊篓０００熏ｉ０ｉ
１１．４６１１１．６７２１１．８２３１１．９４４２３１．Ｏ５２１１．１６
２８．４２５．５２１．６２６．６２０．７２．７４
２ｌ．２４８２１．２９９２２３３０２２ｌ３７ｌ２１２．４２２２－４４３

格拉布斯准则1-3

格拉布斯准则的临界值6( , n)表
例：使用格拉布斯准则检验以下n = 6个重复观测值中是否存在异常值
1＞计算：算术平均值无= 0.81
2、计算各个观测值的残差匕=兀•-】为：
;;;0. 10；；; 3、实验标准偏差
s =
4、其中绝对值最大的残差为0. 10,相应的观测值X4二为可疑值X"则:
5、按 P=S5% = ,即==,n=6,查表得：G, 6)=；
^^1 = 1.89
、
s
> G(Q /) = 1・82
6、可以判定為二为异常值，应予以剔除。

7、在剔除&二后，剩下n = 5个重复观测值，重新计算算术平均值为，实验标准偏差 s =
并在5个数据中找出残差绝对值为最大的值&二：
再按格拉布斯准则进行判定:
0.0529
= 1.89
= 1.36<G(0・05,5) =
0.10 0.03
一
可以判定不是异常值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

格拉布斯法—异常值判断
(GB 4883－1985)
▲概述：一组测量数据中，如果个别数据偏离平均值很远，那么这个(这些)数据称作“可疑值”。

如果用统计方法—例如格拉布斯(Grubbs) 法判断，能将“可疑值”从此组测量数据中剔除而不参与平均值的计算，那么该“可疑值”就称作“异常值(粗大误差)”。

本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。

▲测量数据：例如测量10次(n = 10)，获得以下数据：
8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。

▲排列数据：将上述测量数据按从小到大的顺序排列，得到 4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。

可以肯定，可疑值不是最小值就是最大值。

▲计算平均值x-和标准差s：x-= 7.89;标准差s= 2.704。

计算时，必须将所有 1 0个数据全部包含在内。

▲计算偏离值：平均值与最小值之差为7.89 - 4.7= 3.19; 最大值与平均值之差为14.0-7.89= 6.11。

▲确定一个可疑值：比较起来，最大值与平均值之差 6.11大于平均值与最小值之差 3.19，因此认为最大值14.0 是可疑值。

▲计算G i值：G i = (X i- x-)/s;其中i是可疑值的排列序号
——10 号；因此G io = ( x io- x )/s= (14.0 - 7.89)/2.704 = 2.260。

由于x io —x是残差，而s是标准差，因而可认为G io是残差与标准差的比值。

下面要把计算值G i与格拉布
斯表给出的临界值G p(n)比较，如果计算的G i值大于表中
的临界值G p(n)，则能判断该测量数据是异常值，可以剔除。

但是要提醒，临界值G p(n)与两个参数有关：检出水平
a (与置信概率P有关)和测量次数n (与自由度f有关)。

▲定检出
水平 a :如果要求严格，检出水平a可以定得小—些，例如定 a = 0.01，那么置信概率P = 1 — a = 0.99;
如果要求不严格，a可以定得大一些，例如定 a = 0.10,即P=
0.90;通常定a= 0.05, P= 0.95。

▲查格拉布斯表获得临界值：根据选定的P值(此处为0.95)
和测量次数n(此处为10)，查格拉布斯表，横竖相交得临界值
G95(10) = 2.176。

▲比较计算值G i 和临界值G95(10): G i = 2.260, G95(10)= 2.176, G i>G95(10)。

▲判断是否为异常值：因为G i> G95(10)，可以判断测量值
14.0为异常值，将它从10个测量数据中剔除。

▲余下数据考虑：剩余的9个数据再按以上步骤计算，如果计算的G i> G95(9)，仍然是异常值，剔除；如果G i V
G95(9)，不是异常值，则不剔除。

本例余下的9个数据中没
有异常值。

格拉布斯表一一临界值G p(n)
对异常值及统计检验法的解释
■测量过程是对一个无限大总体的抽样：对固定条件下的一种测量，理论上可以无限次测量下去，可以得到无穷多的测量数据，这些测量数据构成一个容量为无限大的总体；或者换一个角度看，本来就存在一个包含无穷多测量数据的总体。

实际的测量只不过是从该无限大总体中随机抽取一个容量为n(例如n = 10)的样本。

这种样本也可以有无数个，每个样本相当于总体所含测量数据的不同随机组合。

样本中的正常值应当来自该总体。

通常的目的是用样本的统计量来估计总体参量。

总体一般假设为正态分布。

■异常值区分：样本中的正常值应当属于同一总体；而异常值有两种情况：第一种情况异常值不属于该总体，抽样抽错了，从另外一
个总体抽出一个（一些）数据，其值与总体平均值相差较大；第二种情况异常值虽属于该总体，但可
能是该总体固有随机变异性的极端表现，比如说超过3昇勺数据，出现的概率很小。

用统计判断方法就是将异常值找出来，舍去。

■犯错误1：将本来不属于该总体的、第一种情况的异常值判断出来舍去，不会犯错误；将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去，就会犯错误。

■犯错误2：还有一种情况，不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来，统计检验方法判断不出它是异常值，就会犯另外一种错误。

■异常值检验法：判断异常值的统计检验法有很多种，例如格拉布斯法、狄克逊法、偏度- 峰度法、拉依达法、奈尔法等等。

每种方法都有其适用范围和优缺点。

■格拉布斯法最佳：每种统计检验法都会犯犯错误 1 和错误2。

但是有人做过统计，在所有方法中，格拉布斯法犯这两种错误的概率最小，所以推荐使用格拉布斯法。

3■多种方法结合使用：为了减少犯错误的概率，可以将种以上统计检验法结合使用，根据多数方法的判断结果，确定可疑值是否为异常值。

■异常值来源：测量仪器不正常，测量环境偏离正常值较大，计算机出错，看错，读错，抄错，算错，转移错误。