Grubbs检验法和Dixon检验法(课堂PPT)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
α检验离群值所使用的显著水平,简称检出水平 α*检验统计离群值所使用的显著水平,简称剔除水平(α* < α )
x(i)观测值从小到大排序后的第i个值
δ总体标准差 s 样本标准差 Gn Grubbs 上统计量 Gn’ Grubbs 下统计量 Dn Dixon 上统计量 Dn’Dixon 下统计量
数据的统计处理和解释
数据的统计处理和解释
正态样本离群值的判断和处理
1、 Grubbs检验法 2、 Dixon检验法
数据的统计处理和解释
数据的统计处理和解释(包括12个国标)
正态样本离群值的判断和处理
已知标准差
Nair检测法
未知标准差
离群值<1 离群值>1
Grubbs Dixon 偏度-峰度法 Dixon
数据的统计处理和解释
三:离群值的判断
1.来源与判断
来源 a.第一类离群值是总体固有变异性的极端表现,他与样本中其余观测值 属于同一总体。 b.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果, 或产生于观测、记录、计算中的失误,他与样本中其余观测值不属于同 一总体。 判断
对于离群值的判定通常可根据技术或物理上的理由直接进行,当上述理 由不明确时,可用本判定方法。
离群值 outlier
样本中的一个或几个观测值,他们离开其它观测值较远,暗示他们可能来自不同的总体
检出水平 detection level
为检出离群值而指定的统计检验的显著性水平,用α表示。除非约定,α值应为0.05
注1:用统计的方法检验测定值之间是否存在显著性差异,从而判定结果或分析方法的可靠性,这一 过程称为显著 性检验。
数据的统计处理和解释
a.依据实际情况和以往经验,选定 适宜的离群值检验规则。
b.确定适当的显著水平
单个离群值情 形的判断
c.根据显著水平及样品量, 确定检验的临界值
d.由观测值计算相应统计量 的值,根据所得值与临界值 的比较结果作出判断。
数据的统计处理和解释
判定多个离群值的检验规则
☆在允许检出离群值的个数大
注2:在显著性检验中,将具有显著性差异的测定值在随机误差分布中出现的概率(小概率)称为 显著性水平(水准)用α表示,即这些测定值位于一定置信度所对应的随机误差界限之外。
注3:在置信区间内包含真值的概率称为置信度(置信水平)用P表示。 注4:置信度和显著性水平的关系:P=1-α
数据的统计处理和解释
统计离群值 statistical outlier
c.检出的离群值(含歧离值)都被剔除或进行修正。
数据的统计处理和解释
• Grubbs检验法
1、计算统计量Gn和Gn’的值:
Gn=(xi- x )/s
Gn’=( x -x1)/s
S
n
( xi x )2
i 1
n 1
数据的统计处理和解释
2、确定检出水平α,在附表1中查出临界值G1- α(n)
3、a:上侧判断 当Gn>G1- α(n)时,判定xi为离群值,否则判未发现xi是离群值。 b:下侧判断 当Gn’>G1-α(n)时,判定x1为离群值,否则判未发现x1是离群值。 c:双侧判断 当Gn>Gn’且Gn>G1-α/2(n)时,判定xi为离群值; 当Gn’>Gn且Gn’>G1-α/2(n)时,判定x1为离群值; 否则判断未发现离群值。
数据的统计处理和解释
4、统计离群值的判断(单侧)
A、当检出Xi或X1为离群值时,确定剔除水平α* B、查附表1,G1-α*(n)
数据的统计处理和解释
上侧
当Gn>G1-α*(n)时 •判断Xi为统计离群值
否则
•Xi为歧离值
下侧
•当Gn’>G1-α*(n)时
•判断X1为统计离群值
否则 •否则X1为歧离值
数据的统计处理和解释
2.离群值的三种情形
a.上侧情形:根据实际情况或以往经验,离群值都为高端值; b.下侧情形:根据实际情况或以往经验,离群值都为低端值; c.双侧情形:根据实际情况或以往经验.检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样品量相比较应较小)当检出离 群值个数超出了这个上限时,对此样本应作慎重的研究和处理。
处理方式
• a.保留离群值并用于后续数据处理 • b.在找到实际原因时修正离群值,否则予以保留 • c.剔除离群值,不追加观测值 • d.剔除离群值,并追加新的观测值或用适宜的插补值代替
处理规则
a.在技术或物理上找到产生离群值的原因,则应剔除或修正;未找到则不得剔除或进行 修正。
b.找到产生离群值的原因,则应剔除或修正;否则保留歧离值,剔除或修正统计离群值; 在重复使用同一检验规则检出多个离群值时,每次检出后,都要再检验它是否为统 计离群值。若是,则其前检出的离群值(含歧离值)都应剔除或修正。
于1的情况下,重复使用单个离 群值的检验规则,若没有检出 离群值,则整个检验停止;若 检出离群值,当检出的个数超 出规定样本中检出离群值的上 限时,检验停止,对此样本应 慎重处理;否则,采用相同的 检出水平和规则,对除去已检 出离群值后的余下观测值继续 检验。
这个是重要的哦!
数据的统计处理和解释
四:离群值的处理
数据的统计处理和解释
5、统计离群值的判断(双侧)
A、当检出Xi或X1为离群值时,确定剔除水平α* B、查附表1,G1-α*/2(n)
数据的统计处理和解释
双侧1
当Gn’>G1-α/2*(n)时 •判断X1为统计离群值
否则
•X1为歧离值
双侧2 •当Gn>G1-α/2*(n)时 •判断Xi为统计离群值
在剔除水平下统计检验为显著的离群值
剔除水平 deletion level
为检出离群值是否高度离群而指定的统计检验的显著性水平,用α*表示,除 非约定,α*值应为0.01
歧离值 straggler
在检出水平下显著,但在剔除水平下不显著的离群值
数据的统计处理和解释
二:符号和缩略语
n 样本量
x 样本平均值
说明:这两个方法及引用术语均来自国家标准 1. 主要内容出自GB/T 4883-2008 《数据的统计处理 和分析 正态样本离群值的判断和处理》 2. 一部分文件引用自GB/T 4882-2001 《数据的统计 处理和解释 正态性检验》
范围:适用于来自正态分布的样本
数据的统计处理和解释
一:术语和定义
x(i)观测值从小到大排序后的第i个值
δ总体标准差 s 样本标准差 Gn Grubbs 上统计量 Gn’ Grubbs 下统计量 Dn Dixon 上统计量 Dn’Dixon 下统计量
数据的统计处理和解释
数据的统计处理和解释
正态样本离群值的判断和处理
1、 Grubbs检验法 2、 Dixon检验法
数据的统计处理和解释
数据的统计处理和解释(包括12个国标)
正态样本离群值的判断和处理
已知标准差
Nair检测法
未知标准差
离群值<1 离群值>1
Grubbs Dixon 偏度-峰度法 Dixon
数据的统计处理和解释
三:离群值的判断
1.来源与判断
来源 a.第一类离群值是总体固有变异性的极端表现,他与样本中其余观测值 属于同一总体。 b.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果, 或产生于观测、记录、计算中的失误,他与样本中其余观测值不属于同 一总体。 判断
对于离群值的判定通常可根据技术或物理上的理由直接进行,当上述理 由不明确时,可用本判定方法。
离群值 outlier
样本中的一个或几个观测值,他们离开其它观测值较远,暗示他们可能来自不同的总体
检出水平 detection level
为检出离群值而指定的统计检验的显著性水平,用α表示。除非约定,α值应为0.05
注1:用统计的方法检验测定值之间是否存在显著性差异,从而判定结果或分析方法的可靠性,这一 过程称为显著 性检验。
数据的统计处理和解释
a.依据实际情况和以往经验,选定 适宜的离群值检验规则。
b.确定适当的显著水平
单个离群值情 形的判断
c.根据显著水平及样品量, 确定检验的临界值
d.由观测值计算相应统计量 的值,根据所得值与临界值 的比较结果作出判断。
数据的统计处理和解释
判定多个离群值的检验规则
☆在允许检出离群值的个数大
注2:在显著性检验中,将具有显著性差异的测定值在随机误差分布中出现的概率(小概率)称为 显著性水平(水准)用α表示,即这些测定值位于一定置信度所对应的随机误差界限之外。
注3:在置信区间内包含真值的概率称为置信度(置信水平)用P表示。 注4:置信度和显著性水平的关系:P=1-α
数据的统计处理和解释
统计离群值 statistical outlier
c.检出的离群值(含歧离值)都被剔除或进行修正。
数据的统计处理和解释
• Grubbs检验法
1、计算统计量Gn和Gn’的值:
Gn=(xi- x )/s
Gn’=( x -x1)/s
S
n
( xi x )2
i 1
n 1
数据的统计处理和解释
2、确定检出水平α,在附表1中查出临界值G1- α(n)
3、a:上侧判断 当Gn>G1- α(n)时,判定xi为离群值,否则判未发现xi是离群值。 b:下侧判断 当Gn’>G1-α(n)时,判定x1为离群值,否则判未发现x1是离群值。 c:双侧判断 当Gn>Gn’且Gn>G1-α/2(n)时,判定xi为离群值; 当Gn’>Gn且Gn’>G1-α/2(n)时,判定x1为离群值; 否则判断未发现离群值。
数据的统计处理和解释
4、统计离群值的判断(单侧)
A、当检出Xi或X1为离群值时,确定剔除水平α* B、查附表1,G1-α*(n)
数据的统计处理和解释
上侧
当Gn>G1-α*(n)时 •判断Xi为统计离群值
否则
•Xi为歧离值
下侧
•当Gn’>G1-α*(n)时
•判断X1为统计离群值
否则 •否则X1为歧离值
数据的统计处理和解释
2.离群值的三种情形
a.上侧情形:根据实际情况或以往经验,离群值都为高端值; b.下侧情形:根据实际情况或以往经验,离群值都为低端值; c.双侧情形:根据实际情况或以往经验.检出离群值个数的上限
应规定在样本中检出离群值个数的上限(与样品量相比较应较小)当检出离 群值个数超出了这个上限时,对此样本应作慎重的研究和处理。
处理方式
• a.保留离群值并用于后续数据处理 • b.在找到实际原因时修正离群值,否则予以保留 • c.剔除离群值,不追加观测值 • d.剔除离群值,并追加新的观测值或用适宜的插补值代替
处理规则
a.在技术或物理上找到产生离群值的原因,则应剔除或修正;未找到则不得剔除或进行 修正。
b.找到产生离群值的原因,则应剔除或修正;否则保留歧离值,剔除或修正统计离群值; 在重复使用同一检验规则检出多个离群值时,每次检出后,都要再检验它是否为统 计离群值。若是,则其前检出的离群值(含歧离值)都应剔除或修正。
于1的情况下,重复使用单个离 群值的检验规则,若没有检出 离群值,则整个检验停止;若 检出离群值,当检出的个数超 出规定样本中检出离群值的上 限时,检验停止,对此样本应 慎重处理;否则,采用相同的 检出水平和规则,对除去已检 出离群值后的余下观测值继续 检验。
这个是重要的哦!
数据的统计处理和解释
四:离群值的处理
数据的统计处理和解释
5、统计离群值的判断(双侧)
A、当检出Xi或X1为离群值时,确定剔除水平α* B、查附表1,G1-α*/2(n)
数据的统计处理和解释
双侧1
当Gn’>G1-α/2*(n)时 •判断X1为统计离群值
否则
•X1为歧离值
双侧2 •当Gn>G1-α/2*(n)时 •判断Xi为统计离群值
在剔除水平下统计检验为显著的离群值
剔除水平 deletion level
为检出离群值是否高度离群而指定的统计检验的显著性水平,用α*表示,除 非约定,α*值应为0.01
歧离值 straggler
在检出水平下显著,但在剔除水平下不显著的离群值
数据的统计处理和解释
二:符号和缩略语
n 样本量
x 样本平均值
说明:这两个方法及引用术语均来自国家标准 1. 主要内容出自GB/T 4883-2008 《数据的统计处理 和分析 正态样本离群值的判断和处理》 2. 一部分文件引用自GB/T 4882-2001 《数据的统计 处理和解释 正态性检验》
范围:适用于来自正态分布的样本
数据的统计处理和解释
一:术语和定义