由于格鲁布斯Grubbs检验法使用了所有数据的平均值和标准偏差教学教材
格拉布斯法Grubbs检验法
格拉布斯法(Grubbs)检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n =10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i 值:G i =(x i -x -)/s ;其中i 是可疑值的排列序号——10号;因此G 10=(x 10-x -)/s =(14.0-7.89)/2.704=2.260。
由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值。
下面要把计算值G i 与格拉布斯表给出的临界值G P (n )比较,如果计算的G i 值大于表中的临界值G P (n ),则能判断该测量数据是异常1)(2--=∑n x x s值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
分析结果的数据处理
(n2
1)
S
2 2
n1 n2 2
(3 1)(0.021)2 (4 1)(0.017)2 0.020 342
1.24 1.33 t
3 4 5.90
0.020 3 4
查表 2-2 t 值表 f = n1 + n2-2 = 3 + 4-2 = 5,置信度 95%
1.75
6
1.82
1.89
1.94
7
1.94
2.02
2.10
8
2.03
2.13
2.22
9
2.11
2.21
2.32
10
2.18
2.29
2.41
11
2.23
2.36
2.48
12
2.29
2.41
2.55
13
2.33
2.46
2.61
14
2.37
2.51
2.66
15
2.41
2.55
2.71
20
2.56
2.71
故 1.40 应保留。
讨论:
(1) Q 值法不必计算 x 及 s,使用比较方便; (2) Q 值法在统计上有可能保留离群较远的值。 (3) Grubbs 法引入 s ,判断更准确。
(4) 不能追求精密度而随意丢弃数据;必须进行检验 ;
例:三个测定值,40.12, 40.16 和 40.18
x ts 40.15 4.3 0.031 40.15 0.08
t表 = 2.57,t计算>t表 甲乙二人采用的不同方法间存在显著性差异
例7 的讨论:
(1)计算表明甲乙二人采用的不同方法间存在显著 性差异;
化学分析检验技术误差和分析数据处理
➢ 运算规则
•乘方和开方
3.有效数字及运算法
则
• 对数据进行乘方或开方时,所得结果的有效数字位数保
留应与原数据相同。例如:
•
=3.10644 保留三位有效数字则为3.11
• 6.722=45.1584 保留三位有效数字则为45.2
•对数计算
误差和分析数据处理
•误差及其产生的原因 •测定值的准确度和精密度 •有效数字及其运算法则 •有限测定数据的统计处理 •分析结果的表示
➢ 系统误差
1.误差及其产生的原
因
•误差——分析结果与真实值之间的差值
•系统误差——可定误差
• 方法误差:由于方法本身的缺陷所造成; • 仪器误差:由于仪器、量器不准引起的误差; • 试剂误差:由于使用的试剂纯度不够所引起的; • 操作误差:由于操作者操作不当造成的误差。
•系统 误差特
点
•①重复测定重复出现 •②具单向性(大小、正负一定 ) •③可消除(原因固定)
➢ 随机误差
1.误差及其产生的原
因
•随机误差——不可定误差
• 产生原因与系统误差不同,它是由于某些
偶然的因素所引起的。
• 如:测定时环境的温度、湿度和气压的微
小波动,以其性能的微小变化等。
•随机 误差特
点
• 所取对数的小数点后的位数(不包括整数部分)应与原 数据的有效数字的位数相等。即有效数字位数与真数位数一致 ;例如:lg102=2.00860017 保留三位有效数字则为2.009
➢ 运算规则
其他
3.有效数字及运算法
则
➢ 分数、倍数、常数:可视为多位有效数;
➢ 在乘除运算过程中,首位数为“8”或“9”的数据,有效数 字位数可以多取一位;
格拉布斯Grubbs检验法
格拉布斯(Grubbs)法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和测量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
Grubbs检验法专业知识课件
数据旳统计处理和解释
Thank you!!
• 总体:研究对象旳全体为总体。其具有: 同质性、大量性、差别性。(有限和无限 总体)
• 样本:从总体中抽取部分个体所构成旳集 合称为样本。具有:代表性、客观性、随 机性。
数据旳统计处理和解释
4、统计离群值旳判断(单侧)
A、当检出Xi或X1为离群值时,拟定剔除水平α* B、查附表1,G1-α*(n)
数据旳统计处理和解释
上侧
当Gn>G1-α*(n)时 •判断Xi为统计离群值
不然
•Xi为歧离值
下侧
•当Gn’>G1-α*(n)时
•判断X1为统计离群值
不然 •不然X1为歧离值
14~30
Dn=r22=
x(n)-x(n-2) x(n)-x(3)
x(3)-x(1)
D’n=r’22= x(n-2)-x(1)
数据旳统计处理和解释
Dixon检验法
确认检出水平α,在附表2中查出临界值D1-α(n)。 当Dn> D1-α(n)时,鉴定Xn为离群值 当D’n> D1-α(n)时,鉴定X1为离群值 不然两者都判未发觉离群值。
数据旳统计处理和解释
2.离群值旳三种情形
a.上侧情形:根据实际情况或以往经验,离群值都为高端值; b.下侧情形:根据实际情况或以往经验,离群值都为低端值; c.双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端 值。
3.检出离群值个数旳上限
应要求在样本中检出离群值个数旳上限(与样品量相比较应较小)当检出离 群值个数超出了这个上限时,对此样本应作谨慎旳研究和处理。
α检验离群值所使用旳明显水平,简称检出水平 α*检验统计离群值所使用旳明显水平,简称剔除水平(α* < α )
实例教你——格鲁布斯检验法确定离群数据
实例教你——格鲁布斯检验法确定离群数据展开全文在检测检验工作中, 为了保证检测结果的准确性, 及时发现检验设备能力、人员技术能力或检测方法上的问题, 确保检测结果科学有效, 确保采取切合实际的科学有效的改进措施, 使技术能力不断完善。
比对试验已成为实验室自我测评的重要有效的手段。
经常遇到2组或多组检测结果进行比较的情况, 通常进行的比对试验有实验室间比对, 设备比对或者人员比对等能力验证方式。
能力验证是对试验结果的有效性评价与保障, 是实验室内部质量控制的重要补充。
随着实验室能力的扩展、试验设备的增添及设备的更新换代, 现在同一个试验项目可以用多个相同型号或不同型号的仪器或设备来完成。
为了评估实验室内不同的试验仪器或设备对试验结果造成的影响并设法加以控制, 通常启动实验室内部设备比对试验进行。
在一组平行测定的数据中, 常会出现个别数据与其他数据相差较大, 但这个数据的保留还是舍弃会对试验结果的准确性产生非常大的影响。
如果能确系找到引起过失的原因, 则坚决舍弃该数值, 但如果找不到确切的原因, 随便舍弃一个数据是不科学的, 应该通过具体的科学的方法及充分的依据进行有效的统计计算方法, 判断为离群值后才能舍弃。
由于数据的取舍是对过失误差的判断, 统计计算方法选用适当与否直接关系到对试验结果的评价。
1 Grubbs检验法Grubbs检验法是检验异常值的统计检验方法之一。
以前由于计算量大, 且一次只能检出一个异常值, 在剔除离群值时被其他的检验方法所代替。
随着计算机的广泛应用, Grubbs检验离群数据的计算可以用Microsoft Excel来处理, 解决了该方法的计算量大的难题。
经过比较, 在剔除离群值的统计计算方法中, 格鲁布斯检验法不但适用于一组数据中有一个或多个可疑值的舍弃, 而且对有限次测定均适用。
是测定可疑值的最可靠的检验方法。
格鲁布斯检验法的临界值表有2种:一种是单尾检验, 一种为双尾检验。
由于格鲁布斯Grubbs检验法使用了所有数据的平均值和标准偏差教学教材
t计> t表 ,表示有显著性差异
t计< t表 ,表示无显著性差异
可疑值检验:用数理统计方法检验 测定数据是否存在应剔除的值 方法:Q检验法和格鲁布斯检验法 结论:确定某个数据是否可用
2. 分析方法的准确性—系统误差的判断(对照试 验是检查分析过程中有无系统误差的最有效方法)
显著性检验:用数理统计方法检验被处理
当数据较少时舍去一个后,应补加一个数据。
3 显著性检验 1) F检验法 (1)计算两个样本的方差S 2 (2)计算F值:
F计算S大 2 / S小 2
(3)查表(F表),比较:
若F计>F表,说明两组数据的精密度存在显著性差异 若F计<F表,说明两组数据的精密度无显著性差异,
再用t检验法检验两组数据的准确度有无显著性差异。
误差一般用绝对误差和相对误差来表示。
二 、偏差和精密度 精密度的高低用偏差来衡量,
一、基本概念 总体平均值:测定次数无限增多时,所得平均值即为总体平均值 µ: µ = l i 1 x n n
总体标准偏差:测量次数为无限多次时,各测量值对总体平均值 µ的偏离,用σ表示。
(x)2 n
样本标准偏差s
(2)方差、标准差 ( x x ) =n 1 1i n 1(x i x )2
ns = 1 2
n 1 i
4C .v = 变异x s 系× 数1 0 0 % C60v-<13000%%均较匀大分起布伏;;3>01-0600%%很中大等起起伏伏。;
一、基本概念
5 真值、中位数 6 准确度和精密度
测定次数 3
Q0.90
0.94
Q0. 95
0.98
4
0.76
0.85
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法之蔡仲巾千创作▲概述:一组丈量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。
▲丈量数据:例如丈量10次(n =10),获得以下数据:、、、、、、、、、。
▲排列数据:将上述丈量数据按从小到大的顺序排列,得到、、、、、、、、、。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x -和尺度差s :x -=;尺度差s =。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为-=;最大值与平均值之差为-=。
▲确定一个可疑值:比较起来,最大值与平均值之差大于平均值与最小值之差,因此认为最大值是可疑值。
1)(2--=∑n x x s▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=-=。
由于x10-x-是残差,而s是尺度差,因而可认为G10是残差与尺度差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i 值大于表中的临界值G P(n),则能判断该丈量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=,那么置信概率P=1-α=;如果要求不严格,α可以定得大一些,例如定α=,即P=;通常定α=,P=。
▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和丈量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=。
▲比较计算值G i和临界值G95(10):G i=,G95(10)=,G i>G95(10)。
格拉布斯法(Grubbs)检验法文件.doc
格拉布斯法(Grubbs) 检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个( 这些) 数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs) 法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值( 粗大误差) ”。
本文就是介绍如何用格拉布斯法(Grubbs) 判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10 次( n=10),获得以下数据:8.2 、5.4 、14.0 、7.3 、4.7 、9.0 、6.5 、10.1 、7.7 、6.0 。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7 、5.4 、6.0 、6.5 、7.3 、7.7 、8.2 、9.0 、10.1 、14.0 。
可以肯定,可疑值不是最小值就是最大值。
- -▲计算平均值x 和标准差s:x =7.89 ;标准差s=2.704 。
计算时,必须将所有10 个数据全部包含在内。
s (xnx)12▲计算偏离值:平均值与最小值之差为7.89-4.7 =3.19 ;最大值与平均值之差为14.0 -7.89 =6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11 大于平均值与最小值之差3.19 ,因此认为最大值14.0 是可疑值。
▲计算G i 值:G i =( x i -x- )/ s;其中i 是可疑值的排列序号——10 号;因此G1 0=( x1 0-x- )/ s=(14.0 -7.89)/2.704 =2.260。
由于x10--是残差,而s 是标准差,因而可认为Gx算值G i 与格拉布斯表给出的临界值G P( n) 比较,如果计算的Gi 值大于表中的临界值G P( n) ,则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P( n) 与两个参数有关:检出水平α( 与置信概率P有关) 和测量次数n ( 与自由度 f 有关) 。
数据分析格鲁布斯检验
实验室号
1
2
1
0.098 0.099
2
0.099 0.101
3 0.098 0.099
4 0.100 0.098
5
x
s
0.099 0.0988 0.00084
0.097 0.0988 0.00148
第9页,此课件共14页哦
土地生态经济系统分析中的数据检验
第7页,此课件共14页哦
x1
土地生态经济系统分析中的数据检验
(3)两组数据平均值的比较 实际分析工作中常需要对两种分析方法,两个 不同实验室或两个不同的操作者的分析结果进行比较。做法是:双方对同 一试样进行若干次测定,比较两组数据各自的平均值,以判断二者是否存 在显著性差异。
【例】甲、乙两个分析人员用同一分析方法测定合金中的Al含量,他们测定
作业题三
采用某新方法测定基准物明矾中的铝含量(%)得到下列9个数据: 10.74,10.77,10.77,10.81,10.81, 10.73,10.86,10.81,10.77 已知明矾中铝含量的标准值为10.77%,试问采用新方法是否引起系
统误差(显著性水平=0.05)?
第14页,此课件共14页哦
第五章土地生态经济系统分析数据分析一数据类型与来源二数据分析方法1grubbs法土地生态经济系统分析中的数据检验土地生态经济系统分析中的数据检验次数n自由度f显著性水平次数n自由度f显著性水平00500100500111531155141323712659146314921514240927051672174916152443274718221944171624752785193820971817250428212032222119182532285421102323201925572884102176241021202580291211102234248531302759311912112285255051502963334413122331260710110032113604各实验室分析同一土壤样品各实验室测定的平均值为450441501451464475449481495539用格鲁布斯检验法检验是否有异常值
分析化学第五版题库试题选编(第三章分析化学中的误差与数据处理)
2分(0204)0204下列各项定义中不正确的是--------------------------------------------------------------------( )(A)绝对误差是测定值与真值之差(B)相对误差是绝对误差在真值中所占的百分比(C)偏差是指测定值与平均值之差(D)总体平均值就是真值2分(0204)0204(D)1分(0217)0217有一组平行测定所得的数据,要判断其中是否有可疑值,应采用------------------------( )(A) t检验(B) u检验(C) F检验(D) Q检验1分(0217)0217(D)2分(0225)0225下列算式的结果应以几位有效数字报出-----------------------------------------------------( )0.1010(25.00-24.80)───────────1.0000(A)五位(B)四位(C)三位(D)二位2分(0225)0225(D)2分(0248)0248在统计学上,把在一定概率下,以测定值为中心包括总体平均值在内的可靠范围,称为___________________,这个概率称为__________________________。
2分(0248)0248置信区间置信度(置信水平)2 分(0249)用某种方法测定一纯化合物中组分A的的质量分数,共9次,求得组分A的平均值x=60.68%,标准差s=0.042%。
已知μ=60.66%, t0.05,8=2.31(1) 平均值的置信区间为______________________(2) x与μ之间______________________________显著差异(指有或无)2 分(0249)(1) 60.65% ~ 60.71%(2) 无2分(0250)0250实验中使用的50 mL滴定管,其读数误差为±0.01mL,若要求测定结果的相对误差≤±0.1%,则滴定剂体积应控制在____________________mL;在实际工作中一般可通过__________________________或___________________________来达到此要求。
格拉布斯法(Grubbs)检验法
格拉布斯法(Grubbs)检验法之邯郸勺丸创作▲概述:一组丈量数据中, 如果个别数据偏离平均值很远, 那么这个(这些)数据称作“可疑值”.如果用统计方法—例如格拉布斯(Grubbs)法判断, 能将“可疑值”从此组丈量数据中剔除而不介入平均值的计算, 那么该“可疑值”就称作“异常值(粗年夜误差)”.本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”.▲丈量数据:例如丈量10次(n =10), 获得以下数据:、、、、、、、、、.▲排列数据:将上述丈量数据按从小到年夜的顺序排列, 获得、、、、、、、、、.可以肯定, 可疑值不是最小值就是最年夜值.▲计算平均值x -和标准差s :x -=;标准差s =.计算时, 必需将所有10个数据全部包括在内.▲计算偏离值:平均值与最小值之差为-=;最年夜值与平均值之差为-=.1)(2--=∑n x x s▲确定一个可疑值:比力起来, 最年夜值与平均值之差年夜于平均值与最小值之差, 因此认为最年夜值是可疑值.▲计算G i值:G i=(x i-x-)/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x-)/s=-=.由于x10-x-是残差, 而s是标准差, 因而可认为G10是残差与标准差的比值.下面要把计算值G i与格拉布斯表给出的临界值G P(n)比力, 如果计算的G i值年夜于表中的临界值G P(n), 则能判断该丈量数据是异常值, 可以剔除.可是要提醒, 临界值G P(n)与两个参数有关:检出水平α(与置信概率P有关)和丈量次数n(与自由度f有关).▲定检出水平α:如果要求严格, 检出水平α可以定得小一些, 例如定α=, 那么置信概率P=1-α=;如果要求不严格, α可以定得年夜一些, 例如定α=, 即P=;通常定α=, P=.▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和丈量次数n(此处为10), 查格拉布斯表, 横竖相交得临界值G95(10)=.▲比力计算值G i和临界值G95(10):G i=, G95(10)=, G i>G95(10).▲判断是否为异常值:因为G i>G95(10), 可以判断丈量值为异常值, 将它从10个丈量数据中剔除.▲余下数据考虑:剩余的9个数据再按以上步伐计算, 如果计算的G i>G95(9), 仍然是异常值, 剔除;如果G i<G95(9), 不是异常值, 则不剔除.本例余下的9个数据中没有异常值.格拉布斯表——临界值G P(n)对异常值及统计检验法的解释■丈量过程是对一个无限年夜总体的抽样:对固定条件下的一种丈量, 理论上可以无限次丈量下去, 可以获得无穷多的丈量数据, 这些丈量数据构成一个容量为无限年夜的总体;或者换一个角度看, 原本就存在一个包括无穷多丈量数据的总体.实际的丈量只不外是从该无限年夜总体中随机抽取一个容量为n(例如n=10)的样本.这种样本也可以有无数个, 每个样秘闻当于总体所含丈量数据的分歧随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体, 抽样抽错了, 从另外一个总体抽出一个(一些)数据, 其值与总体平均值相差较年夜;第二种情况异常值虽属于该总体, 但可能是该总体固有随机变异性的极端暗示, 比如说超越3σ的数据, 呈现的概率很小.用统计判断方法就是将异常值找出来, 舍去.■犯毛病1:将原本不属于该总体的、第一种情况的异常值判断出来舍去, 不会犯毛病;将原本属于该总体的、呈现的概率小的、第二种情况的异常值判断出来舍去, 就会犯毛病.■犯毛病2:还有一种情况, 不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来, 统计检验方法判断不出它是异常值, 就会犯另外一种毛病.■异常值检验法:判断异常值的统计检验法有很多种, 例如格拉布斯法、狄克逊法(Q法)、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳:每种统计检验法城市犯犯毛病1和毛病2.可是有人做过统计, 在所有方法中, 格拉布斯法犯这两种毛病的概率最小, 所以推荐使用格拉布斯法.■多种方法结合使用:为了减少犯毛病的概率, 可以将3种以上统计检验法结合使用, 根据大都方法的判断结果, 确定可疑值是否为异常值.■异常值来源:丈量仪器不正常, 丈量环境偏离正常值较年夜, 计算机犯错, 看错, 读错, 抄错, 算错, 转移毛病.。
误差产生的原因分析
x t p, f s x t p, f
s n
27
• 置信区间:一定置信度下,以测量结果为中 心,包括总体均值的可信范围。 • 平均值的置信区间:一定置信度下,以测量 结果的均值为中心,包括总体均 值的可信范围。
•置信限: 结论:
置信度越高,置信区间越大,估计区间包含真值的可 能性↑ 置信区间——反映估计的精密度 置信度——说明估计的把握程度
6
正态分布曲线—— x ~ N(μ ,σ2 )曲线
1 y f ( x) e 2 ( x )2 2 2
y f ( x)
1
特点
2
x =μ时,y 最大→大部分测量值集中 在算术平均值附近 曲线以x =μ的直线为对称→正负误差 出现的概率相等 当x →﹣∞或﹢∞时,曲线渐进x 轴, 小误差出现的几率大,大误差出现的 几率小,极大误差出现的几率极小 σ↑,y↓, 数据分散,曲线平坦 σ↓,y↑, 数据集中,曲线尖锐 测量值都落在-∞~+∞, 总概率为1
3.0 3.0
3.1 3.0
3.1 3.2
dr
2.76 2.76
s
0.08 0.14
三、公差
是生产部门根据实际情况规定的误差范围。
21
四、准确度和精密度的关系
1. 准确度高,要求精密度一定高 但精密度好,准确度不一定高 2. 准确度反映了测量结果的正确性 精密度反映了测量结果的重现性
图2-1 准确度和精密度的关系
15
(二)相对误差(relative error): 绝对误差占真实值的百分比 .
E x Er 100% 100%
E Er 100% x
注:μ未知,E已知,可用χ代替μ
格拉布斯法Grus检验法
格拉布斯法Grubbs 检验法▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个这些数据称作“可疑值”.如果用统计方法—例如格拉布斯Grubbs 法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值粗大误差”. 本文就是介绍如何用格拉布斯法Grubbs 判断“可疑值”是否为“异常值”.▲测量数据:例如测量10次n =10,获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0.▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0.可以肯定,可疑值不是最小值就是最大值.▲计算平均值x -和标准差s :x -=7.89;标准差s =2.704.计算时,必须将所有10个数据全部包含在内.▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11.▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值.▲计算G i 值:G i =x i -x -/s ;其中i 是可疑值的排列序号——10号;因此G 10=x 10-x -/s =14.0-7.89/2.704=2.260.由于x 10-x -是残差,而s 是标准差,因而可认为G 10是残差与标准差的比值.下面要把计算值G i 与格拉布斯表给出的临界值G P n 比较,如果计算的G i 值大于表中的临界值G P n ,则能判断该测量数据是异常值,可以剔1)(2--=∑n x x s除.但是要提醒,临界值G P n与两个参数有关:检出水平α与置信概率P有关和测量次数n 与自由度f有关.▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95.▲查格拉布斯表获得临界值:根据选定的P值此处为0.95和测量次数n此处为10,查格拉布斯表,横竖相交得临界值G9510=2.176.▲比较计算值G i和临界值G9510:G i=2.260,G9510=2.176,G i>G9510.▲判断是否为异常值:因为G i>G9510,可以判断测量值14.0为异常值,将它从10个测量数据中剔除.▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的G i>G959,仍然是异常值,剔除;如果G i<G959,不是异常值,则不剔除.本例余下的9个数据中没有异常值.格拉布斯表——临界值G P n对异常值及统计检验法的解释■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去,可以得到无穷多的测量数据,这些测量数据构成一个容量为无限大的总体;或者换一个角度看,本来就存在一个包含无穷多测量数据的总体.实际的测量只不过是从该无限大总体中随机抽取一个容量为n例如n=10的样本.这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同随机组合.样本中的正常值应当来自该总体.通常的目的是用样本的统计量来估计总体参量.总体一般假设为正态分布.■异常值区分:样本中的正常值应当属于同一总体;而异常值有两种情况:第一种情况异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个一些数据,其值与总体平均值相差较大;第二种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小.用统计判断方法就是将异常值找出来,舍去.■犯错误1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误.■犯错误2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误.■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法Q法、偏度-峰度法、拉依达法、奈尔法等等.每种方法都有其适用范围和优缺点.■格拉布斯法最佳:每种统计检验法都会犯犯错误1和错误2.但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法.■多种方法结合使用:为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值.■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算错,转移错误.。
格拉布斯法讲义
格拉布斯法—异常值判断(GB 4883-1985)▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。
如果用统计方法—例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”。
本文就是介绍如何用格拉布斯法判断“可疑值”是否为“异常值”。
▲测量数据:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
▲排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。
可以肯定,可疑值不是最小值就是最大值。
▲计算平均值x-和标准差s:x-=7.89;标准差s=2.704。
计算时,必须将所有10个数据全部包含在内。
▲计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
▲确定一个可疑值:比较起来,最大值与平均值之差 6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
▲计算G i值:G i=(x i-x- )/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。
由于x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。
下面要把计算值G i与格拉布斯表给出的临界值G P(n)比较,如果计算的G i值大于表中的临界值G P(n),则能判断该测量数据是异常值,可以剔除。
但是要提醒,临界值G P(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。
▲定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90▲查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。
由于格鲁布斯Grubbs检验法使用了所有数据的平均值和标准偏差共53页文档
END
பைடு நூலகம்
由于格鲁布斯Grubbs检验法使用了所 有数据的平均值和标准偏差
1、战鼓一响,法律无声。——英国 2、任何法律的根本;不,不成文法本 身就是 讲道理 ……法 律,也 ----即 明示道 理。— —爱·科 克
3、法律是最保险的头盔。——爱·科 克 4、一个国家如果纲纪不正,其国风一 定颓败 。—— 塞内加 5、法律不能使人人平等,但是在法律 面前人 人是平 等的。 ——波 洛克
16、业余生活要有意义,不要越轨。——华盛顿 17、一个人即使已登上顶峰,也仍要自强不息。——罗素·贝克 18、最大的挑战和突破在于用人,而用人最大的突破在于信任人。——马云 19、自己活着,就是为了使别人过得更美好。——雷锋 20、要掌握书,莫被书掌握;要为生而读,莫为读而生。——布尔沃
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n
x G = n x 1 x 2 x n = ( x i) ( x i > 0 ) i 1
一、基本概念
3.极值与方差
(1)数据的极小值与极大值
极小值 A = min {x1,x2,…,xn}
极大值 B = max{x ,x ,…,x } 1 2 s 2= n 1 1 [( x 1 -x ) 2 + ( x 2 -x ) 2 + … + ( x n -x ) 2 ]
二、误差的减免
(一) 系统误差的减免
1.方法误差——采用标准方法作对照试验
2.仪器误差——校准仪器
3.试剂误差——作空白试验
(二) 随机误差的减免
——增加平行
测定的次数,
取其平均值,
可以减少随ቤተ መጻሕፍቲ ባይዱ
机误差。
正态分布曲线
第一节 地球化学数据的误差分析
三、误差的来源
1.取样产生误差 取样产生的误差是影响地球化学数据质量的最重要的也是最不易 被发现的误差。产生这种误差的途径可能有: 1)错误地将同一空间产出的不同单元作为同一单元。 2)没有正确确定不同空间的岩石是同一系列的同一单元还是不同 系列的不同单元。 3)不能准确区分蚀变与原岩的界线。 4)判别风化岩石和新鲜岩石的界线不准确。 5)没有查明污染层的广度与深度。 6)土壤剖面分层不准确。 7)采集水样的时间或季节不当。 8)对矿化与非矿石岩石的区分不当。 9)未能消除因断层等构造对原岩中元素活化迁移的影响。 10)取样工具、器具及取样方法不当。
四、分析质量的控制 1 内检 2 外检 3 双样品分析
第二节 地球化学数据的预处理
一、基本概念 1.总体、个体、样本 总体是指我们要研究的对象的全体; 个体(或叫样品)是指总体中的一个单位; 样本(或叫子样)是指总体中取出的一部分 个体。 样本所包含的个体数目。叫做样本的大小(或 叫样本容量)。
2 随机误差(偶然误差)
特点: (1)不恒定,无法校正;(2)服从正态分布规 律:大小相近的正误差和负误差出现的几率相等;小误 差出现的频率较高,而大误差出现的频率较低,很大 误差出现的几率近于零。
产生的原因:(1)偶然因素(室温,气压的微小变化); (2)个人辩别能力(滴定管读数) 注意: 过失误差属于不应有的过失。
由于格鲁布斯Grubbs检验法使 用了所有数据的平均值和标准偏
差
产生的原因: (1)方法误差——选择的方法不够完善 例:重量分析中沉淀的溶解损失,滴定分析中指示剂选 择不当 (2)试剂误差——所用试剂有杂质 例:去离子水不合格;试剂纯度不够 (3)仪器误差——仪器本身的缺陷 例:天平两臂不等,砝码未校正;滴定管容量瓶未校正 (4)主观误差——操作人员主观因素造成 例:对指示剂颜色辨别偏深或偏浅;滴定管读数不准
准确度:表示分析结果与真实值接近的程度。 精密度:表示各次分析结果相互接近的程度。
常用重复性和再现性表示不同情况下 的精密度。 7 误差和偏差 误差:测定结果与真实值之间的差值。 偏差:测定结果与平均结果之间的差值。
准确度和精密度——分析结果的衡量指标。 一 、误差和准确度
准确度的高低用误差的大小来衡量;
误差一般用绝对误差和相对误差来表示。
二 、偏差和精密度 精密度的高低用偏差来衡量,
一、基本概念 总体平均值:测定次数无限增多时,所得平均值即为总体平均值 µ: µ = l i 1 x n n
总体标准偏差:测量次数为无限多次时,各测量值对总体平均值 µ的偏离,用σ表示。
(x)2 n
样本标准偏差s
三、误差的来源
3.分析测试产生误差 1)分析方法本身的原因,即分析的精度和灵敏度; 2)分析测试人员因操作的原因而产生误差; 3)所用器具清洗不净产生误差; 4)仪器设备的精密度和分析结果的再现性达不到有 关要求而产生误差; 5)化学试剂达不到分析要求或试剂选取不当产生误差; 6)标准达不到要求产生误差; 7)分析测试环境产生误差。
s (x x)2 n 1
一、基本概念
检出限 某一分析方法或分析仪器能可靠测试出样品
中某一元素的最小质量。 灵敏度(检出下限)
一定条件下,某一分析方法能可靠测出的相 对最低含量。 地球化学标样
二、数据的统计分组、列表与作图
对观察数据分组、列表与作图使我们对数值和频率分 布、数值集中位置和离散程度等性质有了一个直观了 解。
频数 25 20 15 10
5 0
0.57 0.77 0.97 1.17 1.37 1.57 1.77 1.97
组中值
f(%)
三、数据的质量分析
1.正态分布及置信度
正态分布就是通常所谓的高斯分布,是无限次 测量数据的分布规律 。 置信度通常用p表示,它表示在某一t值时,测 定值落在(μ±ts)范围内的概率。 t0.05,10 置信度95%自由度10时t值
t0.01,5 置信度99%自由度5时t值 置信度越高,置信区间就越大,在统计学中, 一般将置信度定在95%或90%。
S: 有限次测定的标
准偏差
n: 测定次数
(2)方差、标准差 ( x x ) =n 1 1i n 1(x i x )2
ns = 1 2
n 1 i
4C .v = 变异x s 系× 数1 0 0 % C60v-<13000%%均较匀大分起布伏;;3>01-0600%%很中大等起起伏伏。;
一、基本概念
5 真值、中位数 6 准确度和精密度
2.均值 (1)算术平均值
一、基本概念
(2)加权平均值
x = n 1 ( x 1 + x 2 + … + x n ) = n 1 i n 1 x i
(3)几何平均值
x= n 1( μ 1 y 1+ μ 2 y 2+ … + μ k y k ) =n 1i k1
k
k
iyi = i 1n i yi = i 1fiyi
三、误差的来源
2.制备样品产生误差 1)没有将整个样品全部粉碎过筛,而仅粉碎了其易碎 部分,难碎部分弃掉而造成粉碎的样品不代表整个样 品。 2)样品分选不彻底。 3)筛网的原料不当,如不少样品不能用铜网或铁网筛。 4)碎样工具和筛具清理不净,造成样品污染。 5)样品缩分方法不当,未按缩分样品程序进行缩分而 随意分取一部分样品。