可疑数据的取舍方法区别
数据3-可疑值的取舍
作业: 习题:1、4、9、20
ቤተ መጻሕፍቲ ባይዱ
可疑数据的舍弃
在一组测定值中,常出现个别与其它数据相差很 大的可疑值。如果确定知道此数据由实验差错引起, 可以舍去,否则,应根据一定的统计学方法决定其 取舍。 方法: Q检验法 格鲁布斯法 4 d法
1. Q检验法
步骤如下(3≤ n≤ 10) (1) 将测定值按递增顺序排列:x1,x2,…,xn; (2) 求最大与最小值之差xn-x1; (3)由可疑值与其相邻值之差的绝对值除以极差,求得 Q值:
2. 4 d 检验法
步骤 (1)求可疑值除外的其余数据的平均值和平均偏差 d ; (2)若(可疑值-平均值)的绝对值大于4 d ,则舍去,否 则保留。 例2.用EDTA标准溶液滴定某试液的Zn,平行测定4次,消耗 EDTA标液的体积(mL)分别为:26.37,26.41,26.44, 26.42,试问26.37这个数据是否保留? • 该法不必查表,比较简单,故仍为人们采用。
Q
X疑 X邻
?可疑值是哪个
X 最大 X 最小
Q值愈大,表明可疑值离群愈远,当Q值超过一定界限 时应舍去。 (4)依据n和要求的置信度,查表1-4得Q值,比较Q表与 Q计判断,当Q计≥Q表,该可疑值应舍去,否则应保留.
例1,平行测定盐酸浓度(mol/l),结果为0.1014, 0.1021,0.1016,0.1013。试问0.1021在置信度为 90%时是否应舍去。 解: (1)排序:0.1013, 0.1014, 0.1016, 0.1021 (2)Q=(0.1021-0.1016)/(0.1021-0.1013)=0.63 (3)查表1-4,当n=4, Q0.90=0.76 因Q计=0.63< Q0.90=0.76, 故0.1021不应舍去。
为什么统计检验的正确顺序是先进行可疑数据的取舍
为什么统计检验的正确顺序是先进行可疑数据的取舍,再进行F检验,在F检验通过后,才能进行t检验
答案:
方法一,把means±SD范围外的数据剔除。
方法二,把数据进行转换后进行多重比较,如转为log10。
选择适当的转换形式,直到齐性检验变为不显著。
你做的是T检验,为什么会有F值呢?
就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值。
Levene方差齐性检验也称为Levene检验(Levene's Test).
由H.Levene在1960年提出[1].M.B.Brown和A.B.Forsythe 在1974年对Levene检验进行了扩展[2],使对原始数据的数据转换不但可以使用数据与算术平均数的绝对差,也可以使用数据与中位数和调整均数 (trimmed mean)的绝对差.这就使得Levene检验的用途更加广泛.Levene检验主要用于检验两个或两个以上样本间的方差是否齐性.要求样本为随机样本且相互独立.国内常见的Bartlett多样本方差齐性检验主要用于正态分布的资料,对于非正态分布的数据,检验效果不理想.Levene检验既可以用于正态分布的资料,也可以用于非正态分布的资料或分布不明的资料,其检验效果比较理想.。
误差基础知识
测量结果: 测量结果: 1)测量结果的完整表述:包括测量误差,必要时 测量结果的完整表述:包括测量误差, 测量误差 还应给出自由度和置信概率。 还应给出自由度和置信概率。 2)测量结果的特征:具有重复性和再现性。 测量结果的特征:具有重复性和再现性。 重复性——指在相同测量条件下 相同的测量程序、 重复性——指在相同测量条件下(相同的测量程序、 ——指在相同测量条件 测量仪器、观测者、地点、测量环境、 测量仪器、观测者、地点、测量环境、短期 内的重复测量) 内的重复测量)对同一被测量进行连续多次 测量所得的结果之间的一致性。 测量所得的结果之间的一致性。 再现性(复现性)——指在改变测量条件, 指在改变测量条件 再现性(复现性)——指在改变测量条件,对被测量 进行多次测量时,每一次测量结果的一致性。 进行多次测量时,每一次测量结果的一致性。 指在一定的误差范围内, (指在一定的误差范围内,每次测量结果的 可靠性是相同的)。 可靠性是相同的)。
3)相对真值:凡高一级标准器(计量器)的误差是 相对真值:凡高一级标准器(计量器) 低一级或普通测量仪器误差的1/3~ 低一级或普通测量仪器误差的1/3~1/20 1/3 时,则可认为前者是后者的相对真值。 则可认为前者是后者的相对真值。 在科学试验中,真值就是指在无系统误差的情况下, 在科学试验中,真值就是指在无系统误差的情况下, 就是指在无系统误差的情况下 观测次数无限时 求得的平均值。 观测次数无限时,求得的平均值。 平均值 但实际采用有限次所取得的平均值作为近似真值 但实际采用有限次所取得的平均值作为近似真值 有限次所取得的平均值作为 (最可信赖值)。 最可信赖值)。
(1)测量的目的 求出被测量的真值,但是一切测量都包含有误差, 求出被测量的真值,但是一切测量都包含有误差, 真值 测量值只能接近于真值。与测量手段是否先进无关。 测量值只能接近于真值。与测量手段是否先进无关。 只能接近于真值 手段越先进,越接近于真值。 手段越先进,越接近于真值。 (2)测量:以确定量值(数据)为目的的一组操作。 测量:以确定量值(数据)为目的的一组操作。 (3)测量结果:根据已有的信息和条件对被测量的 测量结果: 最佳估计,及对真值的最佳估计。 最佳估计 最佳估计,及对真值的最佳估计。
实验结果可疑数据的取舍方法选择
实验结果可疑数据的取舍方法选择[摘要]在实际工作中,常常会遇到一组平行测定中有个别数据的精密度不甚高的情况,该数据与平均值之差是否属于偶然误差是可疑的。
实验结果对可疑数据的取合很重要。
而且对可检验疑数据取合过程中方法的选择也很重要。
[关键词]可疑数据、取合、方法选择中图分类号:u415.1 文献标识码:a 文章编号:1009-914x(2013)05-0310-01前言:在定量分析工作中,通常要对同一试样做几份平行测定,然后求出平均值。
如果数据中出现显著性差异,即有的数据特大或特小(称为可疑值或离群值),是否都能参加平均值的计算呢?这就需要用统计学方法进行检验,不得随意弃去或保留可疑值。
实验结果可疑数据的取合方法很多:包括q值检验法、格鲁布斯检验法、t值检验法、f检验法等等,下面借一组数据只对q检验法、格鲁布斯检验法进行对比。
看哪种方法更适合实验室应用。
1.数据整理首先要把实验数据加以整理,剔除由于明显的原因而与其它测定结果相差甚远的那些数据,对于一些精密度似乎不甚高的可疑数据,则要通过一定的方法决定取合,然后计算数据的平均值、各数据对平均值的偏差、平均偏差与标准偏差,最后按照要求的置信度求出平均值的置信区间。
2.置信度与平均值的置信区间有了平均值和平均值的标准偏差,就能以±s(表示平均值s表示平均值的标准偏差)的形式表示分析结果,从而推算出所要测定的真值所处的范围,这个范围就称为平均值的置信区间,真值落在这个范围内的几率称为置信度。
通常化学分析中要求置信度95%。
测定次数越多,置信区间的范围越窄,即测定平均值与总体平均值(真值)越接近,但是测定结果超过20次以上置信度的几率系数变化不大,再增加测定次数对提高测定结果的准确度已经没有什么意义了,所以只有在一定的测试次数范围内,分析数据的可靠性才随平行测定次数的增加而增加。
3.实验结果可疑数据的取舍方法对比可疑数据的取合是对过失误差的判断,常用方法有q检验法、格鲁布斯检验法主要用于确定检测结果的真实性。
工业分析技术专业《知识点8 分析结果可疑值的取舍》
分析结果可疑值的取舍在常量分析实验中,一般对单个试样试液平行测定2~3次,此时测定结果可作如下简单处理:计算出相对平均偏差,假设其相对平均偏差≤%,可认为符合要求,取其平均值报出测定结果,否那么需重做。
对要求非常准确的分析,如标准试样成分的测定,考核新拟定的分析方法,对同一试样,往往由于实验室不同或操作者不同,做出的一系列测定数据会有差异,因此需要用统计的方法进行结果处理。
首先把数据加以整理,剔除由于明显原因而与其它测定结果相差甚远的错误数据,对于一些精密度似乎不甚高的可疑数据,那么按本节所述的Q 检验或根据实验要求,按照其它有关规那么决定取舍,然后计算n 次测定数据的平均值x 与标准偏差S ,有了x 、s 、n 这三个数据,即可表示出测定数据的集中趋势和分散情况,就可进一步对总体平均值可能存在的区间作出估计。
一、数据集中趋势的表示方法根据有限次测定数据来估计真值,通常采用算术平均值或中位数来表示数据分布的集中趋势。
1.算术平均值x对某试样进行规次平行测定,测定数据为1,2,…n 那么x =1/n 12…n =l/n ∑=ni i x 1根据随机误差的分布特性,绝对值相等的正、负误差出现的概率相等,所以算术平均值至是真值的最正确估计值。
当测定次数无限增多时,所得的平均值即为总体平均值μ。
μ=∑=∞→ni i n n x 11)(lim 2.中位数中位数是指一组平行测定值按由小到大的顺序排列时的中间值。
当测定次数规为奇数时,位于序列正中间的那个数值,就是中位数;当测定次数规为偶数时,中位数为正中间相邻的两个测定值的平均值。
中位数不受离群值大小的影响,但用以表示集中趋势不如平均值好,通常只有当平行测定次数较少而又有离群较远的可疑值时,才用中位数来代表分析结果。
二、数据分散程度的表示方法随机误差的存在影响测量的精密度,通常采用平均偏差或标准偏差来表示数据的分散程度。
1.平均偏差d计算平均偏差d 时,先计算各次测定对于平均值的偏差:d x x i -=1 i=1,2,…n然后求其绝对值之和的平均值:d =1/n ()∑∑==-=ni i ni i x x n d 111相对平均偏差那么是:%100⨯xd2.标准偏差标准偏差又称均方根偏差。
可疑数据的取舍方法区别
格拉布斯法假定测量结果服从正态分布,根据顺序统计
量来确定可疑数据的取舍。
进行n次重复试验,试验结果为x1、x2、…、xi、…、
xn ,而且xi服从正态分布。
为了检验 (i=1,2,…,n)中是否有可疑值,可将 按
其值由小到大顺序重新排列,
根据顺序统计原则,给出标准化顺序统计量g:
当最小值x(1)可疑时,则:
一、拉依达法
当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑 数据取舍的标准。当某一测量数据(xi)与其测量结果的算术平均值 (x-‘)之差大于3倍标准偏差时,用公式表示为:
︳xi -x-‘︳>3S 则该测量数据应舍弃。 这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏 差作为判别标准,所以亦称3倍标准偏差法,简称3S法。 取3S的理由是:根据随机变量的正态分布规律,在多次试验中, 测量值落在 x-‘一3S与x-‘ 十3S之间的概率为99.73%,出现在此范围 之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这 种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 另外,当测量值与平均值之差大于2倍标准偏差(即 ︳xi -x-‘︳> 2S)时,则该测量值应保留,但需存疑。如发现生产(施工)、试 验过程屯有可疑的变异时,该测量值则应予舍弃。 拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较 多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一 组测量值中即使混有异常值,也无法舍弃。
g=( x-‘一x(1) )/S
当最大值x(n)可疑时,则:
g=( x(n) 一 x-‘ )/S
根据格拉布斯统计量的分布,在指定的显著性水平β
分析结果的数据处理实务
真值被包括的区间可表示为: μ= x±ξσ
叫单次测量结果的置信区间,p叫置信度。
若用平均值 x估计真值
x x x 2 x
p=68.3% p=95.5%
x 3 x
其中
x
n
p=99.7%
由 x 可见,平均值的置信区间比单次测量结果
的置信区间要小,亦即用平均值估计真值的准确度比
单次测量值更高,即平均值更接近于真值。
s ( xi x)2 0.022 n1
查表2 - 2,得t95% 2.78(n 5) %Cr 1.13 2.78 0.022 1.13 0.03
5
通过给出的这两条例题 ,可得到如下结论:
①测定次数一定时,置信度越高,则t 越大,置信区间越宽。
②置信度和精密度一定时,测定次数越多,
0.5180g=518.0mg=518000 μg =5.180×105μg
只起定位作用
2.500×10-2L 25.00mL
25mL
0.02500L
例:下列数据各包含几位有效数字
0.0376 3位
1.8×10 -5
2位
1.2067 5位
0.005 1位
0.2180 4位
2.0×103
2位
10.98%
为什么?
参看p19二~四段
n值变小, t 值增大
三、平均值与标准值的比较(系统误差的检验)
通过 t 检验能够判断分析方法是否有系统误差。
1. 用某种方法测量标准值为μ的基准物质或标准
试样n次,求平均值 x。
2. 计算 t 值
x
t计算 s n
3. 将 t计算 值与表2-2中的 t 值比较 若t 计算 > t 表,则该测量方法有系统误差; 若t 计算 ≤ t 表,则该方法的测量差异主要是随机误 差所致。
可疑数据的取舍
可疑数据的取舍21.3.3.1 可疑数据的取舍为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。
正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。
因此对可疑数据的取舍必须遵循一定原则。
1. 取舍原则(1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。
(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。
2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ³ Xi -3S。
若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)。
该判断的置信度在99.7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。
先计算多次测定结果的平均值X和标准差S,再计算Z值:X=X1 + X2+ … +Xn/ n (n 为包括可疑值尾数在内的测定次数)S = [∑X2 -(∑X)2/n] / (n-1)Z= (X - X ) / S (X 为可疑值)然后查正态分布表,得对应于Z值的a值。
如 n a<0.1,则舍弃,>0.1,则不舍弃。
例如:土壤全氮的5次平行测定结果(g·kg-1)为1.52,1.48,1.65,1.85,1.45。
其中1.85为可疑值,需判断取舍。
计算平均值X=1.59;S=±0.164;Z=(1.85-1.59)/0.164=1.585。
查正态分布表a=0.0565,na=5×0.0565=0.2825,因na>0.1,可疑值1.85g·kg-1不予舍弃。
3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括Dixon,Grubbs,Cochran和Youden检验法。
4分析数据的处理
可疑值 邻近值 Q计算 最大值 最小值
(3)可疑值取舍的判断:查舍弃商Q值表(表3-1), 若Q计算≥Q表,可疑值应舍去; 若Q计算<Q表,可疑值应保留。
练习:有一标准溶液(浓度单位mol/L),经四次标定的结果 是0.1014,0.1012,0.1019,0.1016,运用Q检验法 确定可疑值0.1019是否应舍去?(置信度90%)
2、t 检验法
目的:判断某一分析方法或操作过程中是否 存在较大的系统误差。
x
t计= S n
查表比较( t计 < t表 , 标准偏差 计算统计量t计 查表比较( t计< t表 ,表明无显著性差异)
解:平均值= (39.10%+39.12%+39.19%+39.17%+39.22%)/5 =39.16%
标准偏差S=[(Xi-X)2/(n-1)]1/2=0.05%
P=95%, f=n-1=4,查表3-3:tp,f=2.78
置信区间: X t(P, f )
S n
=39.16%±0.06%
三、显著性检验 常用F检验法与t检验法
(3)计算包括可疑值在内的标准偏差(S)
(4)计算G值:
G计算
可疑值 平均值 标准偏差
|
xq x | S
(5)查G值(表3-2):若G计算≥G表,可疑值应舍去;
若G计算<G表,可疑值应保留。
练习:课后习题10题
二、分析结果的表示方法
1、一般分析结果的处理:
在忽略系统误差的前提下进行定量分析实验: (1)对每种试样平行测定3~4次 (2)观察是否有可疑值,判断可疑值的取舍 (3)计算测定结果的平均值, (4)计算此次结果的相对平均偏差: 如果相对平均偏差≤0.2%,说明测定结果符合要求,取其 平均值作为最后分析结果。否则,此次测定结果不合要求。
可疑数据的取舍.
该数据坚决弃舍,否则就不能随便将它弃舍,而必须用统计方法
来判断是否取舍。取舍的方法很多,其中Q检验法比较严格而且 使用比较方便。在此介绍Q检验法和4 d 法。
2
例题
测定碱灰总碱量(%Na2O)得到6个数据,按其大小顺序
排列为40.02,40.12,40.16,40.18,40.18,40.20。第一
x
0.1033 0.1060 0.1035 0.1031 0.1022 0.1037 6
0.1036
3. 求出标准偏差s:
2 2 0.00032 0.00242 0.0001 0.00052 0.0001 0.00142 s 0.0013 6 1
可疑数据的取舍
Q 值检验法
可疑数据的 取舍
4 d 检验法
可疑值的取舍
分析工作者获得一系列数据后,需要对这些数据进行处理。 在一组平行测定的数据中,有时会出现较为离群的数据(一个甚 至多个),这些数据称为可疑值(doubtful value)或离群值( divergent value)。如这些数据是由实验过失造成的,则应该将
Q 计算
x n x n 1 1.40 1.31 0.60 x n x1 1.40 1.25
查表 2-4, n = 4 ,
Q0.90 = 0.76
Q计算 < Q0.90
故 1.40 应保留。
8
例4-3 某矿石中钒的含量(%),4次分析测定结果为
20.39、20.41、20.40和20.16,Q检验法判断20.16是否弃
若 Q > Qx 舍弃该数据, (过失误差造成)
若 Q ≤ Qx 保留该数据, (随机误差所致)
表1-9 不同置信度下舍弃可疑数据的Q值
为什么统计检验的正确顺序是先进行可疑数据的取舍
为什么统计检验的正确顺序是先进行可疑数据的取舍,再进行F检验,在F检验通过后,才能进行t检验
答案:
方法一,把means±SD范围外的数据剔除。
方法二,把数据进行转换后进行多重比较,如转为log10。
选择适当的转换形式,直到齐性检验变为不显著。
你做的是T检验,为什么会有F值呢?
就是因为要评估两个总体的方差(Variances)是否相等,要做Levene's Test for Equality of Variances,要检验方差,故所以就有F值。
Levene方差齐性检验也称为Levene检验(Levene's Test).
由H.Levene在1960年提出[1].M.B.Brown和A.B.Forsythe 在1974年对Levene检验进行了扩展[2],使对原始数据的数据转换不但可以使用数据与算术平均数的绝对差,也可以使用数据与中位数和调整均数 (trimmed mean)的绝对差.这就使得Levene检验的用途更加广泛.Levene检验主要用于检验两个或两个以上样本间的方差是否齐性.要求样本为随机样本且相互独立.国内常见的Bartlett多样本方差齐性检验主要用于正态分布的资料,对于非正态分布的数据,检验效果不理想.Levene检验既可以用于正态分布的资料,也可以用于非正态分布的资料或分布不明的资料,其检验效果比较理想.。
异常值的检验与取舍:Q检验法
Q检验法
测定值 2.63 2.50 2.67 2.62 2.65
(1)将测定结果按从小到大的顺序排列:x1、x2、x3、…、xn
2.50 2.62 2.63 2.65 2.67
(2)计算Q值
2.62
Q计
x2 xn
x1 x1
2.67
2.50 2.50
Q检验法
Q计
2.62 2.67
2.50 2.50
Q计=0.606
按个暂停键吧!
Q<Q5,0.05 故46.28%为正常值
Q检验法
A
可靠性差
B
误判可能性大
可疑值为偏离值 可以保留
Q检2 Q5,0.01 = 0.780
Q计=0.706
Q5,0.05<Q<Q5,0.01 故2.50可选择保留
Q检验的临界计值
Q检验法
测定试样中CaO的质量分数,得到如下一组数据: 46.00%、45.95%、46.08%、46.04%、46.28% 试着用Q检验法判断一下46.28%这一数值是否为异常值。
异常值的检验与取舍
方法一:Q检验法
异常值的检验与取舍
过大或过小的数据
异可 常疑
异常值的检验与取舍
异常值的检验与取舍
异常值的检验与取舍
Grubbs(格鲁布斯法) (G检验法)
Chavenet(肖纳维特法)
Dixon(狄克松法) (Q检验法)
拉依达法(三倍标准偏差法)
异常值的检验与取舍
Dixon(狄克松法) (Q检验法)
=0.706
Q检验的统计值
Q检验法
Q计 临界值 Qc
Q检验法
(3)再在表中查得临界值Qc
Q5,0.05 = 0.642 Q5,0.01 = 0.780
可疑数据的取舍
可疑数据的取舍21.3.3.1 可疑数据的取舍为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。
正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。
因此对可疑数据的取舍必须遵循一定原则。
1. 取舍原则(1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。
(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。
2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ³ Xi -3S。
若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)。
该判断的置信度在%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。
先计算多次测定结果的平均值X和标准差S,再计算Z值:X=X1 + X2+ … +Xn/ n (n 为包括可疑值尾数在内的测定次数)S = [∑X2 -(∑X)2/n] / (n-1)Z= (X - X ) / S (X 为可疑值)然后查正态分布表,得对应于Z值的a值。
如 n a<,则舍弃,>,则不舍弃。
例如:土壤全氮的5次平行测定结果(g·kg-1)为,,,,。
其中为可疑值,需判断取舍。
计算平均值X=;S=±;Z=-/=。
查正态分布表a=,na=5×=,因na>,可疑值1.85g·kg-1不予舍弃。
3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括Dixon,Grubbs,Cochran和Youden检验法。
可以对一个样品,一批样品,一台仪器或一组数据中可疑数据的检验。
现介绍最常用的两种方法。
(1)狄克逊(Dixon)检验法:此法适用于一组测量值的一致性检验和剔除离群值,本法中对最小可疑值和最大可疑值进行检验的公式因样本的容量n的不同而异,检验方法如下:将一组测量数据从小到大顺序排列为X1、X2…X3,X1和X n分别为最小可疑值和最大可疑值,按表计算公式求Q值。
可疑数据的取舍方法
离群数据的筛选可以使用下列方法一、拉依达法又称3倍标准偏差法,简称3S法。
当某一测量数据与其测量结果的算术平均值之差大于3倍标准偏差时,用公式表示为:则该测量数据应舍弃。
二、肖维纳特法以概率1/2n设定一判定范围(-KnS,KnS),当偏差超出该范围时,就应该舍去。
判别范围由下式确定:Kn:肖维纳特系数与试验次数n有关。
如下表:肖维特系数表2-0-1n Kn n Kn n Kn n Kn n Kn n Kn3 1.388 1.8613 2.0718 2.2023 2.3050 2.584 1.539 1.9214 2.1219 2.2224 2.3175 2.715 1.6510 1.9615 2.1320 2.2425 2.33100 2.816 1.7311 2.0016 2.1521 2.2630 2.39200 3.027 1.8012 2.0317 2.1722 2.2840 2.49500 3.20因此肖维特法可疑数据舍弃的标准为:三、格拉布斯法将Xi 按值从小到大排列如下:给出标准化顺序统计量g :最小值X1可疑,最大值Xn 可疑,为:格拉布斯法的判别标准为:g > g[n][p]格拉布斯表——临界值GP (n )Pn0.95 0.99 Pn0.95 0.99 3 1.135 1.155 17 2.475 2.785 4 1.463 1.492 18 2.504 2.821 5 1.672 1.749 19 2.532 2.854 61.8221.944202.5572.8847 1.938 2.097 21 2.580 2.9128 2.032 2.231 22 2.603 2.9399 2.110 2.323 23 2.624 2.96310 2.176 2.410 24 2.644 2.98711 2.234 2.485 25 2.663 3.00912 2.285 2.550 30 2.745 3.10313 2.331 2.607 35 2.811 3.17814 2.371 2.659 40 2.866 3.24015 2.409 2.705 45 2.914 3.29216 2.443 2.747 50 2.956 3.336。
可疑值的取舍
五、可疑值的取舍
一组分析测量数据中的异常值的取舍,可按统计学方法进行处理。
1. 4 d 法(简单,但误差大)
依据:随机误差超过3σ的测量值出现的概率是很小的,仅占0.3%。δ=0.80σ, 3σ≈4δ。偏差超过4δ的个别测定值可以舍去。 方法:a. 求出x 与平均偏差d 。x−x> 4 d ,则测定值x 可以舍去。
9 10 11 12 13 15 20
2.11 2.18 2.23 2.29 2.33 2.37 2.41 2.56
2.21 2.29 2.36 2.41 2.46 2.51 2.55 2.71
2.32 2.41 2.48 2.55 2.61 2.63 2.71 2.88
3. Q 检验法
步骤:①数据由小到大排列。 ②计算统计量Q
或
Q 称为“舍弃商”。 ③比较Q计算和Q表(QP,n),若Q 计算>Q表,舍去,反之保留。
Q 值表
测定次数,n 置 信 90%(Q0.90) 96%(Q0.96) 3 0.94 0.98 4 0.76 0.85 5 0.64 0.73 6 0.56 0.64 7 0.51 0.59 8 0.47 0.54 9 0.44 0.51 10 0.41 0.48
2. 格鲁布斯(Grubbs)法
步骤:①数据由小到大排列,x1,x2……xn,求出x与s。 ②统计量T
T
x x1 s
or Tቤተ መጻሕፍቲ ባይዱ
xn x s
③将T 与表值Ta,n 比较,T>Ta,n,舍去。
T,n 值表 显著性水准
n
0.05 3 4 5 6 7 8 1.15 1.46 1.67 1.82 1.94 2.03 0.025 1.15 1.48 1.71 1.89 2.02 2.13 0.01 1.15 1.49 1.75 1.94 2.10 2.22
水质分析过程可疑数据的几种处理方法及注意问题
水质分析过程可疑数据的几种处理方法及注意问题作者:闫鹏魏张永亮来源:《建材发展导向》2014年第01期摘要:在水质分析时,经常会存在一些可疑值,对可疑数据处理常用方法有:拉依达法、Dixon法、Grubbs法。
文章对这三种方法的计算方法,使用条件,方法优点以及多个可疑值出现时的处理问题做出探讨。
关键词:可疑值;3s法;Dixon法;Grubbs法在水质分析时,异常值可能是因为各种随机误差的影响,也有可能因为其他因素。
对可疑值的处理,可通过一些方法进行统计检测。
本文列出了三种方法,下面对这三种方法分别做出讨论。
1 拉依达法由于该方法是以3倍标准偏差作为判别标准,所以亦称3倍标准偏差法,简称3S法。
适用条件:当测量数据较多时,且成正态分布时可选用此方法。
检验方法:检测公式|x-xd|>3S (1)x:样本平均数xd:可疑数据S:样本标准偏差,若xd满足(1)式,则为离群值,应舍去。
取3S的理由:根据随机变量的正态分布规律,在多次试验中,测量值落在xd-3S与xd+3S之间的概率为99.73%,出现在此范围之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这种事件为小概率事件,出现的可能性很小,几乎是不可能。
因而在实际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。
另外,当测量值与平均值之差大于2倍标准偏差(即|x-xd|>2S)时,则该测量值应保留,但需存疑。
方法优点:拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较多或要求不高时可以应用,当试验检测次数较少时(如n2 Dixon法适用条件:用于一组测量值的一致性检验和剔除离群值,本法中最小可疑值和最大可疑值进行检验的公式因样本的容量(n)不同而异。
检验方法:(1)将一组数据从小大大排列为X1,X2,X3,…,Xn,X1和Xn分别为最小和最大可疑值;(2)按下表1求Q值。
(3)通过显著性水平以及n值,查出Q值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在一组条件完全相同的重复试验中,个别的测量值 可能会出现异常。如测量值过大或过 小,这些过大或过小的测量数据是不正常的,或称 为可疑的。对于这些可疑数据应该用数理统计的方 法判别其真伪,并决定取舍。常用的方法有拉依达 法、肖维纳特(Chavenet)法。 格拉布斯(Grubbs)法等。
格拉布斯法假定测量结果服从正态分布,根据顺序统计 量来确定可疑数据的取舍。 进行n次重复试验,试验结果为x1、x2、…、xi、…、 xn ,而且xi服从正态分布。 为了检验 (i=1,2,…,n)中是否有可疑值,可将 按 其值由小到大顺序重新排列, 根据顺序统计原则,给出标准化顺序统计量g: 当最小值x(1)可疑时,则: g=( x-‘一x(1) )/S 当最大值x(n)可疑时,则: g=( x(n) 一 x-‘ )/S 根据格拉布斯统计量的分布,在指定的显著性水平β (一般β=0.05)下,求得判别可疑值的临界值g0 ( β,n) ,格拉布斯法的判别标准为: g≥g0( β,n) 利用格拉布斯法每次只能舍弃一个可疑值,若有两个以 上的可疑数据,应该一个一个数据的舍弃,舍弃第一个 数据后,试验次数由n变为n一1,以此为基础再判别第二 个可疑数据。
Xmin-X=׀2.3MPa
拉依达法 肖维纳特法 格拉布斯法
一、拉依达法
当试验次数较多时,可简单地用3倍标准偏差(3S)作为确定可疑 数据取舍的标准。当某一测量数据(xi)与其测量结果的算术平均值 (x-‘)之差大于3倍标准偏差时,用公式表示为: ︳xi -x-‘︳>3S 则该测量数据应舍弃。 这是美国混凝土标准中所采用的方法,由于该方法是以3倍标准偏 差作为判别标准,所以亦称3倍标准偏差法,简称3S法。 取3S的理由是:根据随机变量的正态分布规律,在多次试验中, 测量值落在 x-‘一3S与x-‘ 十3S之间的概率为99.73%,出现在此范围 之外的概率仅为0.27%,也就是在近400次试验中才能遇到一次,这 种事件为小概率事件,出现的可能性很小,几乎是不可能。因而在实 际试验中,一旦出现,就认为该测量数据是不可靠的,应将其舍弃。 另外,当测量值与平均值之差大于2倍标准偏差(即 ︳xi -x-‘︳> 2S)时,则该测量值应保留,但需存疑。如发现生产(施工)、试 验过程屯有可疑的变异时,该测量值则应予舍弃。 拉依达法简单方便,不需查表,但要求较宽,当试验检测次数较 多或要求不高时可以应用,当试验检测次数较少时(如n<10)在一 组测量值中即使混有异常值,也无法舍弃。
二、肖维纳特法
进行n次试验,其测量值服从正态分布, 以概率1/(2n)设定一判别范围(一knS, knS),当偏差(测量值xi与其算术平均值 x-‘之差)超出该范围时,就意味着该测量 值xi是可疑的,应予舍弃。判别范围由下 式确定: 肖维纳特法可疑数据舍弃的标准为: ︳xi一 x-‘︳/S≥kn源自三、格拉布斯法例题;
实验室进行通配比的混凝土抗压强度试验,其实验结果为: 23.6,24.0,26.5,24.6,25.2,26.7,26.1,30.5,26.0,25.6(MPa), 使用拉依达法判别其取舍。 解;分析得Xmin=23.6MPa和Xmax=30.5MPa最可疑,首先 判别Xmin和Xmax。 根据式(2-1)(2-4)得; X=25.9MPa S=1.9MPa ׀Xmax-X=׀4.6MPa