四种判别粗大误差准则的比较与讨论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

把异常值当作正常值留下都不能得到可靠的实验 结果ꎬ剔除数据过程必须十分谨慎ꎮ 含有粗大误 差的实验数据称为异常值ꎬ 需要选择合适的判别 粗大误差的准则剔除异常值ꎮ 相同ꎬ主要有两种方式:从准则的定义出发进行讨 论ꎬ已有文献从定义出发指出莱依达准则适用于 测量次数 n ⩾ 50 的情况㊁ 肖维勒准则适用于 n = 适用于 n £20 20 ~ 100㊁格拉布斯准则适用于 n £25㊁t 检验准则
99.7%) ㊁格拉布斯准则( 显著水平为 0.01㊁0.05) ㊁t
㊀ ㊀ 利用 EXCEL 画出莱依达准则 ( 置信概率为 检验法准则( 显著水平为 0.01㊁0.05) 和肖维勒准 则在测量次数落在区间 3 ~ 100 中的 K ̄n 曲线如 图 1 所示
[8ꎬ10 ̄12]
犯这类错误的概率为 β ꎬ 并把 (1 ̄β) 称为功效函 数ꎬ功效函 数 的 值 大 就 说 检 验 功 效 高 [13] ꎮ 根 据 (9) 式ꎬ 可以得出临界系数 K 越小ꎬ 概率 β 就越 小ꎬ (1 ̄β) 就越大ꎬ对应准则的检验功效越高ꎮ 如 图 1 所示ꎬ四种数据剔除准则的显著水平都满足 5%ꎬ比较法则的优劣只需比较功效函数ꎻ 临界系 数 K 越小ꎬ数据剔除准则越优ꎮ 根据图 1ꎬ以莱依 达准则系数和其他准则系数的大小关系为依据把 a £0. 05ꎬ 即 把 正 常 值 判 为 异 常 值 的 概 率 都 低 于
0.05或 0.01) ꎬ即可查表 [10ꎬ12] 得 t 检验准则的检验 系数 K ( nꎬa) ꎮ 若 x m - xᶄ > K ( nꎬa) Sᶄ (8)

[10]
则认为 x m 是含有粗大误差的异常值ꎬ 应剔 ꎮ 式 中 ω n 为 肖 维 勒 系 数ꎬ 通 过 查 表
[11]
(5)
剔除 [10] ꎮ
除ꎬ后者更为严格 [5] ꎮ 笔者通过阅读文献发现ꎬ
收稿日期: 2017 ̄04 ̄23 基金项目: 广东省教育科研 十二五 规划 2012 年度研究项目(2012JK241) ∗通讯联系人
106
四种判别粗大误差准则的比较与讨论
除ꎮ 莱依达准则一般适用于测量次数较多的情况 1.3㊀ 肖维勒准则 ( n ⩾ 50) ꎮ 对于可疑数据 x m ꎬ若其残差满足 xm - x > ωn S
并求得测量值的标准差( 不含 v m = x m  ̄ xᶄ ) Sᶄ = vi ð i=1 n ̄2
n 2
根据测量 次 数 和 选 取 的 显 著 度 a ( 一 般 为
(7)
系数 [3] ꎮ
则可以 判 断 x m 为 异 常 值ꎬ 其 中 K 为 临 界
图 1㊀ 莱依达准则㊁格拉布斯准则㊁t 检验准则和肖维勒准则在 3 £n £100 的临界系数对比
[2]
ꎮ 如果把正常值当做异常值剔除或者
1㊀ 判断粗大误差的四种准则
中 x m ( 是 x min 或 x max 之一) 为可疑值ꎬ先求出样本 均值 x 和标准偏差 S : 1 x = ð xi n S=

已知正态样本的一组测量值 x 1 ꎬx 2 ꎬ������ꎬx n ꎬ其
目前对于判别粗大误差准则的讨论依据各不
要: 目前用于判别含有粗大误差的异常值的准则有多种ꎬ 本文将对格拉布斯准则㊁ 莱依达准
㊀ ㊀ 在实验过程中ꎬ由于实验者读错数据㊁记错数 据和操作不当等因素造成实验数据含有粗大误 差ꎬ从而使实验结果精度受到影响ꎬ无法得出科学 的结论
[1]
文将在该区间对格拉布斯准则㊁莱依达法准则㊁肖 维勒准则和 t 检验准则四种数据剔除方法进行 讨论ꎮ
2㊀ 四种判断粗大误差准则的比较
2.1㊀ 四种判别粗大误差准则的归纳 准则 的 思 维 方 法 可 以 概 括 为: 首 先 求 出 测 量 值 x 1 ꎬx 2 ꎬ������ꎬx n 的样本均值 x 和样本标准差 S ꎬ 对于 第 i 次测量值ꎬ如果满足: x m - x > KS (9) 观察(3) ㊁(4) ㊁(5) 和 (8) 式ꎬ 不难发现ꎬ 四种
ꎻ另一种方式是比较统计临界值ꎬ
1 ð ( xi - x ) n ̄1 1.1㊀ 格拉布斯准则 xm - x

(2)
根据格拉布斯准则 [6ꎬ7] :若统计量 > G ( n ꎬa ) (3) S 则 x m 为异常值ꎬ须剔除ꎮ 式中 G ( nꎬa) 为统 Gm =
计量的临界值ꎬ根据测量次数和取定的显著水平 1.2㊀ 莱依达准则 足下式 a ( 一般为 0.05 或 0.01) ꎬ通过查表 [8] 可知临界值 G ( n ꎬa ) ꎮ 根据莱依达准则 [9] ꎬ测量值 x m 的残余误差满 x m - x > 3S (4) 则认为 x m 是含有粗大误差的异常值ꎬ 须剔
则认 为 x m 是 含 有 粗 大 误 差 的 异 常 值ꎬ 应 选择上述任一种法则把异常值剔除后ꎬ 重复
1.4㊀ t 检验准则
可知ꎮ
上述步骤进行判断ꎮ
算余下数据的平均值( 不含 x m ) xᶄ = 1 ð x n - 1i = 1ꎬiʂm i
n ㊀
对于 t 检验准则ꎬ 若认为 x m 是可疑数据ꎬ 计 (6)

则㊁肖维勒准则和 t 检验准则四种粗大误差剔除准则在实验测量次数落在 3 ~ 100 的情况下的选择讨 论ꎬ给出测量次数落在区间 3 ~ 100 判断准则的选择意见ꎮ 关 键 中图分类号: O 241.1 词: 粗大误差ꎻ数据剔除ꎻ异常值ꎻ判别准则 文献标志码: A DOI:10.14139 / j.cnki.cn22 ̄1228.2017.005.028
第 30 卷 第 5 期 2017 年 10 月
PHYSICAL EXPERIMENT OF COLLEGE






Vol.30 No.5 Oct.2017
文章编号:1007 ̄2934(2017)05 ̄0105 ̄03
四种判别粗大误差准则的比较与讨论
赵海霞ꎬ周少娜ꎬ肖㊀ 化 ∗
源自文库( 华南师范大学ꎬ广东 广州㊀ 510006)
(1)

前人以莱依达准则的统计临界值为线索ꎬ 指出测 量次数落在 3 ~ 25 这个范围内用狄克逊准则或 格拉布斯准则( a = 0. 01) ꎬ在 25 ~ 185 的范围内 用格拉布斯准则( a = 0. 05) 或肖维勒准则ꎬ 当测 量次数 n ⩾ 185 时用莱依达准则 [3] ꎮ 另有文献指 出格拉布斯准则适用于 n £20 的情况ꎬ t 检验准则 适用于测量次数较少的情况 [4] ꎮ t 检验准则是对 格拉布斯准则的改进ꎬ 已有文献证明了能被格拉 布斯准则剔除的异常值肯定能被 t 检验准则剔 目前对判别粗大误差的讨论和选择还没有形成定 论ꎬ仍有进行相关研究的价值ꎮ 由于实验测量数据一般落在区间 3 ~ 100ꎬ本
相关文档
最新文档