固井质量数据中的异常值剔除方法研究
试论计量测试中异常数据剔除的措施
试论计量测试中异常数据剔除的措施发表时间:2018-09-18T16:18:06.730Z 来源:《基层建设》2018年第25期作者:陈佩茹[导读] 摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
深圳供电局有限公司广东省深圳市 518133摘要:对测量数据进行判断和处理是计量测试工作的重要组成部分,需要剔除其中的异常数据,从而保证最终测试结果的可靠性。
本文首先对计量测试中异常数据的产生原因进行简单分析,进而研究其剔除方法,包括拉依达准则法、格拉布斯准则法、狄克逊准则法、肖维勒准则法等,并结合具体实例进行应用分析。
关键词:计量测试;异常数据;剔除方法前言:计量测试工作对数据准确性有较高要求,完成一项计量测试工作后,会得到大量数据,需要对其进行整理和分析,准确筛选出其中存在的异常数据,否则将会对最终的测量结果产生较大影响。
同时,对数据进行评判也是检验仪器状态的主要方法,在实际应用过程中具有重要意义。
由于计量测试在实际生产中应用广泛,相关研究也受到了高度重视,并形成多种异常数据判断准则,可以有效剔除异常数据。
一、计量测试中异常数据的产生原因计量测试仪器均属于高精密仪器,受外部环境影响较大,可能在外部环境发生变化时,导致测量结果出现较大偏差。
另一方面,如果仪器自身存在故障,也会导致测量结果不准确。
因此,在实际的计量测试工作中,异常数据普遍存在,需要在完成测量后,剔除异常数据,确保结果的准确性。
计量测试中的异常数据产生原因主要包括:(1)测试过程中仪器受到震动影响,比如机械振动或人力作用等;(2)仪器供电电压不稳定,或在测试中受到电磁干扰,导致仪器出现故障问题,产生较大的结果偏差;(3)测试操作人员缺乏操作经验,在测试过程中未按规定流程进行测试;(4)仪器自身存在零件松动、元件损坏等缺陷问题,操作人员无法正常测量,即使能够测出结果也会存在较大偏差[1]。
试验数据异常值的检验及剔除方法
试验数据异常值的检验及剔除方法
摘要
异常值(outliers)指的是可能存在的测试数据点,其值大大偏离了
它们的数据集的中位数或平均值,如果未及时发现和处理这些异常值,将
会严重影响实验数据的准确性和有效性,因此,检验和剔除测试数据中的
异常值是必不可少的任务。
本文将介绍测试数据异常值检验和剔除的方法,旨在有效改善测试数据的准确性和有效性。
一、异常值的定义
异常值简单来说,指的是数据集中与其他所有值有明显差异的数据点。
它可能是由于实验环境的变化,实验设备的变化,数据获取的失误而产生的,或者错误的测量结果导致的。
二、异常值的检验
在检验数据中是否存在异常值之前,首先要明确测试数据的分布类型。
根据数据的分布,可采用不同的检验方法,通常按照如下步骤检验异常值:(1)可先将测试数据按照箱线图或四分位图等形式画出,看看数据
是否符合正态分布;
(2)可以计算数据的中位数、平均数、标准偏差等,来查看异常值
的程度;
(3)可以根据数据的中位数、平均数等,计算出数据的上下限,这
样便可以将数据划分为”正常“和”异常“;
(4)可以使用基于概率的检验方法,此方法可以给出异常值的检验
结果。
如何处理数据中的异常值
处理数据异常值的方法:考虑数据分布、样本量及原
因背景
处理数据中的异常值可以采用多种方法,具体取决于异常值的定义和数据类型。
以下是一些常用的处理异常值的方法:
1.删除含有异常值的记录:这是一种简单直接的方法,但可能会导致数据量
减少或改变数据的分布。
2.将异常值视为缺失值,用相应的插值或填充方法处理:例如,可以用前一
个或后一个观测值的平均值来填充异常值,也可以使用多项式插值或样条插值等方法。
3.用平均值来修正异常值:可以使用前后两个观测值的均值来修正异常值,
也可以用整个数据集的平均值来修正。
4.不处理异常值:如果异常值对数据分析和模型预测的影响不大,也可以选
择不处理。
在实践中,处理异常值时需要考虑数据的分布和样本量,以及异常值产生的原因和背景。
对于不同的数据集和不同的情况,可能需要采用不同的方法来处理异常值。
固井质量数据中的异常值剔除方法研究
固井质量数据中的异常值剔除方法研究摘要:固井质量历史数据中可能存在一些异常值,这些异常值对于建立影响因素与固井质量之间的模型有很大的影响。
本文对如何识别判断异常值进行了论述,通过文中介绍的方法,可以在模型计算前将固井历史数据中存在的异常值除去,以保证数据的真实性和可靠性,最大限度减小对模型建立的影响。
关键词:固井质量异常值剔除1 概述固井作业是石油钻井作业中非常重要的一个环节。
固井作业效果的好坏,会对整个钻井项目最终的成败产生关键性影响。
在实际作业中,有很多因素都会对固井质量产生影响。
为了确保钻井工作的万无一失,应该努力寻找到分析固井质量与影响因素之间关系的方法,即一种预测模型。
这样在固井施工之前,我们可以通过预测模型进行事前模拟,并根据得出的数值对相关影响因素进行干预和控制,保证固井的质量。
因此,数据的真实性与可靠性对建立模型至关重要。
但是,数据中可能会出现一些异常值,这些异常值对于建立模型会有很大的影响。
因此,判断并剔除数据中的异常值就显得至关重要。
2 异常值的判别方法在对异常值进行判别时,可以将其分成两类,即预先已知标准偏差的场合和未知标准偏差的场合。
在判断方法上,通常只能通过待检验分析数据的自身检验来辨别其中是否有异常值。
本文专门讨论如何对同一组分析数据中的异常值进行辨别,而忽略对同一总体中不同样本间存在的异常值的研究。
2.1 标准偏差已知检验时使用统计量上述方法有着各自的特点和适用范围。
狄克逊检验法、格拉布斯法、t检验法等则同时兼顾了置信度,明确界定了概率意义,提高了计算结果的精确度和科学性。
其中,格拉布斯法设定了一定的置信度,同时将平均值、标准偏差引入计算过程,大大提高了计算的精确度,因而得到了国内外一些实验机构的引荐应用;t检验法进行数据处理前,预先将被检验的离群值“剔除”,确保了计算标准偏差的独立性及正确性,取得了预期的理论性的结果,不论是检验的灵敏度,还是测定精度都显著提升。
至于检验方法,则要根据实际条件和实验要求而定。
异常数据4种剔除方法
异常数据4种剔除方法异常数据是指与其他数据不一致或不符合预期的数据。
在数据分析和建模过程中,异常数据可能会影响统计结果和模型的准确性。
因此,为了保证分析结果的可靠性,通常需要对异常数据进行剔除或修正。
以下是常见的四种剔除异常数据的方法。
1.箱线图检测异常值箱线图是一种常用的异常值检测方法,它以数据的分位数为基础,通过上下四分位距来判断数据是否异常。
根据箱线图,我们可以判断出数据中的异常值,并将其剔除。
首先,绘制箱线图以可视化数据的分布情况。
箱线图由一个箱体和两条触须组成。
箱体表示数据的四分位数范围,上触须和下触须分别表示上四分位数和下四分位数与最大非异常值和最小非异常值之间的距离。
根据箱线图,我们可以识别出在上下触须之外的数据点,这些点通常是异常值。
然后,我们可以将这些异常值从数据集中剔除,以保证后续分析的准确性。
2.3σ原则剔除异常值3σ原则是一种基于数据的均值和标准差的统计方法,用于判断数据是否异常。
在正态分布下,大约68%的数据位于均值的±1σ范围内,95%的数据位于均值的±2σ范围内,99.7%的数据位于均值的±3σ范围内。
因此,我们可以基于3σ原则来识别并剔除数据中的异常值。
首先,计算数据的均值和标准差。
然后,根据3σ原则,识别出超出3倍标准差范围之外的数据点,并将其从数据集中剔除。
3.离群点检测算法剔除异常值离群点检测算法是一种自动化的异常值识别方法。
常用的离群点检测算法包括聚类算法(如K-means算法)、孤立森林算法、LOF(局部异常因子)算法等。
这些算法可以根据数据的特征属性来识别出异常值,并将其从数据集中剔除。
4.领域知识和业务规则剔除异常值除了基于统计和算法的方法,领域知识和业务规则同样可以用于剔除异常值。
领域专家通常对数据的特点和业务规则有深入的了解,可以根据经验判断数据是否异常。
比如,在一些业务场景下,根据实际情况设定阈值,超出阈值的数据可以被视为异常并剔除。
计量测试中异常数据剔除方法的探讨
2 o 1 4 年 第2 8 期I 科技创新与应用
计 量测试 中异常 数据剔 除 方法 的探 讨
赵 妮 孙 明 珠 王 中 禹
( 吉 林 市 计 量 测试 技 术 研 究 院 , 吉林 吉 林 1 3 2 0 1 3 )
摘 要: 文章基于计量测试 中异常数据 的产生和剔除方法, 进行 了分析和研 究, 从 而尽 可能准确、 高效地剔除异常数据 , 结合 实例 分析 了剔 除方 法在 应 用 中应该 注 意 的 事项 。
关键词: 计 量测 试 ; 异 常数 据 剔 除 ; 精确 性 计 量 测量 工 作是 一 项 对 数 据精 确 性 要求 很 高 的工 作 , 而 在通 过 的假 定 , 究 竟 是 不是 正 态 分 布 , 尚需要 进 一 步 的判 断 , 但彳 F 实 际应 用 计量测量得到大量数据后 , 还应 对 数 据 进 行 科 学 的 整 理 , 对 其 中可 中 , 人们 往 往 倾 向于 不 考 虑 样 本是 否 符 合 正 态分 布 , 而 将 其 近 似 假 能出现的异常进行有效 的剔除 , 从而保 证测得数据的有效性 , 供相 定 为样 本 符 合正 态 分 布 ) ,同时将 可 疑 数 值 X . 当作 一 个 样本 容 量 为 关 实 践使 用 。 1 的特殊总体 , 在进行两个总体 比较 时, 如果两者 同属一个 总体 , 那 1计 量 测试 T 作 的作 用 么 他们 之 间 不应 该存在 显 著 的差 异 , 由此 即可计 算 出 统计 量 k : 计量 测 试 工作 主 要 是在 日常 的 各类 生 产 实 践 中 , 出于对 各 种 数 k :I X ̄ - X [ 据 的 使用 需 要 而对 检 测 仪器 的测 量 结 果进 行 评 估 , 通 过 评估 结 果 来 S 判 定
试论计量检定中的异常值及其剔除方法
试论计量检定中的异常值及其剔除方法作者:翟志强来源:《中国科技博览》2015年第33期[摘要]随着计量检定在各专业领域应用的普遍,人们对计量检定结果的准确度和精度也提出了更高的要求。
当前,带来检定结果的准确度降低的原因主要是混入了“异常值”,而当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成异常数据的产生,属于比较普遍的现象。
因此,相关检定人员要掌握异常值剔除的有效方法。
本文结合笔者实践工作经验,首先对计量检定中异常值形成的原因及判断方法进行了分析,在此基础上分析了拉依达准则、肖维勒准则、狄克逊准则等三种应用较为广泛的异常值剔除方法,希望可以为相关的理论和实践提供借鉴。
[关键词]计量检定;异常值;剔除方法;拉依达;肖维勒准则中图分类号:P413 文献标识码:A 文章编号:1009-914X(2015)33-0390-01一、计量检定中异常值的形成通过计量检定获取的数据中如果混入了“异常值”,势必会对检定的结果带来一定的影响。
这时如果可以有效地将异常值进行剔除,那么获得的结果必定是更加客观和符合事实情况。
而在实际中还存在着这么一种情况,某组通过正确和客观测得的具有分散性的数值,本来是可以正确地对事实本身进行反映,是仪器在特定条件下进行测量的随机波动特性。
相关人员为了获得更加精密的结果,而人为地对其中误差比较大的数值进行剔除,殊不知这些误差较大的值并不属于异常值,实质上是虚假的。
以后在相同条件下对该组数据进行重新检定时候,和该误差值类似的误差值就会可能再次出现,甚至出现多次的情况。
那么异常值是如何产生的呢?笔者认为,当检定人员在计量检定中由于人为或者客观因素造成的过失,或者外界条件的突然改变,都会造成不正常数据的产生,是含有粗差的数据。
粗误差产生的原因是多方面的,比如读错数据、记错记录、计算错误、调错标志、仪器故障和操作不当等都会造成粗误差产生。
以下情况下确认的数据都可以确定为粗误差,可以将其予以剔除:1)标准器或检定设备不正常或者操作不当时的读数;2)模拟环境条件超过规定值或稳定性不符合要求的读数;3)经过校准或者补测确认的粗误差。
实验数据的质量控制与排除异常值
实验数据的质量控制与排除异常值在科学研究中,实验数据的质量控制与排除异常值是至关重要的步骤。
合理、准确的数据质量控制能够保证研究结果的可信度和可重复性,而排除异常值则可以有效消除数据中的误差或其他干扰因素,确保数据的真实性和准确性。
本文将介绍实验数据质量控制的方法和排除异常值的策略。
一、实验数据质量控制实验数据质量控制是指对数据采集过程中的各个环节进行监控和调整,以保证数据的准确性和可靠性。
以下是几种常用的实验数据质量控制方法:1. 样本处理过程的严格控制在实验前,应该对待测样品进行充分的样品准备和处理,确保样品的代表性和一致性。
在样品处理过程中,应严格控制各个步骤的操作条件和时间,避免因为不恰当的处理而引入误差。
2. 仪器设备的校准和维护在实验中使用的仪器设备需要定期进行校准和维护,以保证其准确性和稳定性。
应该按照仪器制造商的要求进行校准,并定期检查设备的运行状态和性能。
3. 重复实验和平行实验为了评估实验方法的可靠性,可以进行重复实验和平行实验。
重复实验是指在相同的条件下,重复进行一系列实验,以评估实验数据的重现性和稳定性;而平行实验是指在相同的条件下,同时进行多次实验,以评估实验数据的一致性和可信度。
4. 控制组和对照组的设置在实验设计中,应设置适当的控制组和对照组。
控制组是指没有接受处理或干预的样本组,用于评估实验处理对目标效应的影响;而对照组是指接受一定处理或干预的样本组,用于与实验组进行对比和效应评估。
二、排除异常值在实验数据中,由于各种原因可能存在异常值,即与其他观测值相比明显偏离的数据点。
排除异常值是为了消除这些异常点对数据分析和模型建立的干扰,以获得更准确和可靠的结果。
以下是几种常用的排除异常值的策略:1. 通过数据可视化进行初步筛查通过绘制散点图、箱线图等可视化图形,可以直观地观察数据分布情况,并初步发现是否存在异常值。
在图形中,异常值通常表现为明显偏离其他数据点的离群点。
2. 使用统计方法进行异常值检测统计方法可以帮助我们检测异常值。
实验数据的质量控制与排除异常值
实验数据的质量控制与排除异常值实验数据的质量控制和排除异常值是科学研究和实验研究中非常重要的步骤。
本文将介绍实验数据的质量控制的意义、常用的质量控制方法,以及如何排除异常值。
一、实验数据质量控制的意义实验数据质量控制是确保数据的准确性、可靠性和可重复性的关键步骤。
高质量的实验数据可以为科学研究提供可靠的依据,并且可以保证研究结果的合理性和可信度。
在数据分析和统计处理过程中,如果没有进行数据质量控制,那么可能会导致错误的结论和误导性的结果。
二、实验数据质量控制的常用方法1. 确保实验过程的标准化:在实验进行之前,需要明确定义实验流程和操作步骤,确保每个实验的执行都符合相同的标准。
这样可以降低实验误差和数据的变异性。
2. 设计合适的对照组:对照组的设计对于数据质量的控制非常重要。
通过与对照组的比较,可以帮助排除实验过程中的干扰因素,提高数据的可靠性。
3. 重复实验:通过重复实验可以验证实验结果的可靠性。
多次重复实验可以帮助排除实验中的偶然误差,提高数据的可信度。
4. 校准仪器:在实验之前,需要对实验所用的仪器进行校准,确保仪器的准确性和精确度。
定期校准仪器可以保证实验数据的可靠性。
5. 数据记录和文档管理:在实验过程中,需要准确地记录实验数据和实验条件,并进行有效的文档管理。
这样可以帮助追踪和验证实验结果,并且便于数据分析和结果的解释。
三、排除异常值的方法1. 范围检查法:根据实验的经验和理论知识,确定数据的正常范围。
对于超出正常范围的数据,可以将其视为异常值进行排除。
2. 箱线图法:通过绘制箱线图,可以直观地观察数据的分布情况和异常值的存在。
根据箱线图中的异常值定义,可以排除异常值。
3. 统计方法:使用统计方法对数据进行分析,例如计算数据的均值、标准差和相关系数等。
通过确定数据的正常范围和标准差,可以排除异常值。
4. 主观判断法:根据实验目的和实验条件,进行主观判断。
例如,在相同条件下多次实验中,某一组数据明显偏离其他数据,则可以将其视为异常值进行排除。
环境监测数据中的异常数据分析与处理
环境监测数据中的异常数据分析与处理标题:环境监测数据中的异常数据分析与处理引言概述:环境监测数据是指通过各种传感器和设备采集的环境相关数据,如空气质量、水质、土壤质量等。
在监测过程中,可能会出现异常数据,这些异常数据可能会影响监测结果的准确性和可靠性。
因此,对环境监测数据中的异常数据进行分析与处理是非常重要的。
本文将从异常数据的定义、检测方法、处理策略等方面进行详细介绍。
一、异常数据的定义1.1 异常数据是指与正常数据相比具有明显偏离的数据点,可能是由于设备故障、人为操作失误或环境变化等原因导致。
1.2 异常数据通常表现为数据值超出正常范围、数据波动异常或数据分布不均匀等情况。
1.3 异常数据可能会对监测结果造成误导,因此及时发现和处理异常数据至关重要。
二、异常数据的检测方法2.1 基于统计学方法的异常检测,如均值、方差、中位数等统计量的计算和比较。
2.2 基于机器学习方法的异常检测,如聚类、分类、回归等机器学习算法的应用。
2.3 基于专家知识和经验的异常检测,通过领域专家对监测数据进行分析和判断。
三、异常数据的处理策略3.1 删除异常数据,直接将异常数据从数据集中剔除,不参与后续分析和处理。
3.2 替换异常数据,通过插值、平均值、中位数等方法将异常数据进行修正或替换。
3.3 分析异常数据产生的原因,找出异常数据的根源并采取相应的措施进行处理。
四、异常数据分析的工具与技术4.1 数据可视化工具,如Matplotlib、Seaborn等,用于可视化异常数据的分布和趋势。
4.2 数据处理工具,如Pandas、NumPy等,用于对异常数据进行处理和分析。
4.3 机器学习算法库,如Scikit-learn、TensorFlow等,用于应用机器学习方法进行异常数据检测和处理。
五、异常数据分析与处理的意义与挑战5.1 意义:及时发现和处理异常数据可以提高监测数据的准确性和可靠性,保障环境监测的有效性。
5.2 挑战:环境监测数据量大、复杂性高,异常数据的检测和处理需要耗费大量时间和精力。
试论计量检定中的异常值及其剔除方法
若 R2 > R1 , R 2 >D( a , n ) , 则 应舍 弃 X n }
若RI < D( a , n ) 且R 2 < D( a , n ) , 则没有异常值 。 在当前采用的计量检定中的异常值剔除方法中, 存在着多种方式。 现在也
一
、
计量 检 定中 异常 僵的 形成
了有 效改善 拉依 达准则 的这种 自身缺 陷 , 当前利用 的主要 是下 文将要 描述 的 肖
维勒 准 则 。 ( 2 ) 肖维勒 准 则
通过计 量检 定获取 的数据 中如果混 人 了“ 异常值 , 势必会 对检 定的结果 带
来 一定 的影 响 。 这 时 如果 可 以有 效地 将异 常值进 行剔 除 , 那么 获得 的结 果必 定
况 中, 对 可疑 数据 的处理 务必要 慎重 , 当发 现异常 数据后 要立 即停止检 定 , 分析 原 因并及 时 纠正错 误 , 如 果检 定 已经结 束 , 则 应该 先找 出原 因 , 再 决定 取合 。 ( 2 ) 异常 值统 计 学判 断 法 相对于 异常值 的物 理判 断法 , 还 有一种 方法 是 采用统 计学 的判 断方法 。 该
设等精 度且 呈正 态分布 的测 量值为Ⅺ , 若 其残差v i ≥Z c 口 则) £ i 可 看做 为含
确和客观测得的具有分散性的数值, 本来是可以正确地对事实本身进行反映 , 是仪器在特定条件下进行测量的随机波动特性。 相关人员为了获得更加精密的 结果, 而 人为地 对其 中误 差 比较大 的数值 进行 剔 除 , 殊 不 知这些 误差 较大 的值
1 ) 标准器 或检定 设备 不 正常 或者 操作 不 当时 的读数 , 2 ) 模拟 环境 条件 超 过规 定值 或稳 定性 不符 合要 求 的读 数 ; 3 ) 经过 校 准或 者补 测确 认的 粗误 差 。 二, 计量 检 定 中异常 值的 判断 方法 ( 1 ) 异 常值 物理 判 断法 上文 以及 论述 , 在计 量 中很 多异 常值 的产 生都 是 因为 检定 人 员的 主观 过
剔除异常值的方法
1.拉依达准则法(3δ):简单,无需查表。
测量次数较多或要求不高时用。
是最常用的异常值判定与剔除准则。
但当测量次数《=10次时,该准则失效。
如果实验数据值的总体x是服从正态分布的,则式中,μ与σ分别表示正态总体的数学期望和标准差。
此时,在实验数据值中出现大于μ+3σ或小于μ—3σ数据值的概率是很小的。
因此,根据上式对于大于μ+3σ或小于μ—3σ的实验数据值作为异常值,予以剔除。
在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。
与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。
在处理数据时,应剔除高度异常的异常值。
异常值是否剔除,视具体情况而定。
在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。
标准化数值(Z-score)可用来帮助识别异常值。
Z分数标准化后的数据服从正态分布。
因此,应用Z分数可识别异常值。
我们建议将Z分数低于-3或高于3的数据看成是异常值。
这些数据的准确性要复查,以决定它是否属于该数据集。
2.肖维勒准则法(Chauvenet):经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是当测量数据值n无穷大时失效。
3.狄克逊准则法(Dixon):对数据值中只存在一个异常值时,效果良好。
担当异常值不止一个且出现在同侧时,检验效果不好。
尤其同侧的异常值较接近时效果更差,易遭受到屏蔽效应。
4.罗马诺夫斯基(t检验)准则法:计算较为复杂。
5.格拉布斯准则法(Grubbs):和狄克逊法均给出了严格的结果,但存在狄克逊法同样的缺陷。
朱宏等人采用数据值的中位数取代平均值,改进得到了更为稳健的处理方法。
有效消除了同侧异常值的屏蔽效应。
国际上常推荐采用格拉布斯准则法。
这些方法,都有各自的特点,例如,拉依达准则不能检验样本量较小(显著性水平为0.1时,n必须大于10)的情况,格拉布斯准则则可以检验较少的数据。
计量测试中异常数据剔除方法的探讨
计量测试中异常数据剔除方法的探讨1 计量测试工作的意义对日常各类生产实践而言,基于使用各种数据的需要,应评估检测仪器,可借助评估结果来对检测仪器的状态能否满足正常使用要求进行判定,检测数据非常重要,只有参照数据,才能判定生产工艺稳定与否,各环节产成品与成品参数符合使用需要与否。
通过计量测试工作,可对生产工艺的改进与变革进行指导,促进产品质量的不断提高,若计量测试不准确、不科学,得到的数据就很难令人信服,那么想借助数据控制工艺过程、评定产品质量,持续改善产品质量就很难实现。
2 计量仪器产生误差的原因从统计学的角度来看,我们通常会把一组重复测量数据中,明显与其它数据有差异的数据称为可疑数据,与组内其它数据差异非常明显是这种数据的主要特点,这一特点也就是我们通常所说的数据发生了变异,那么实际这种变异究竟合理与否,要想得出结论,必须得借助进一步判断。
计量仪器具有一定的高精密性,有严格的外界环境要求。
若外界环境变化剧烈,实际计量仪器的测试很可能会有严重偏差出现,造成检测仪器的结果误差较大。
一般情况下,下列原因通常会造成计量仪器产生误差:1)有机械或外界震动冲击检测仪器。
2)电网供电电压发生变化或存在电磁干扰使检测仪器的正常工作受到影响。
3)检测人员工作素质不高,工作技能不达标。
工作疏忽、缺乏足够的工作经验,不正当操作。
4)测量仪器自身存在故障,如部分零件存在松动,内部有损坏的电子元件等。
异常值通常偏差正常合理值较大,若在计算中或判定过程中应用了异常值,通常会严重干扰计算结果,对人们正确决策的做出造成影响。
因此我们必须尽力把异常值剔除,若在剔除过程中应用的剔除方法不正确,异常值造成的影响不但会很难消除,有时还会误以为测量重复性较好,影响到数据判断的真实性,只有正确剔除异常数据,最终的测量才能与人们的使用需求相符。
3 异常值判断准则在计量实践中,下列几种准则是我们常用来判断异常值的准则:1)3∑准则;2)格拉布斯准则;3)肖维勒准则;4)t检验法。
试验数据异常值的检验及剔除方法
试验数据异常值的检验及剔除方法(总8页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--目录摘要...................................................... 错误!未定义书签。
关键词................................................... 错误!未定义书签。
1 引言...................................................... 错误!未定义书签。
2 异常值的判别方法..................................... 错误!未定义书签。
检验(3S)准则........................................ 错误!未定义书签。
狄克松(Dixon)准则.................................. 错误!未定义书签。
格拉布斯(Grubbs)准则.............................. 错误!未定义书签。
指数分布时异常值检验................................. 错误!未定义书签。
莱茵达准则(PanTa).................................. 错误!未定义书签。
肖维勒准则(Chauvenet)............................. 错误!未定义书签。
3 实验异常数据的处理 .................................. 错误!未定义书签。
4 结束语................................................... 错误!未定义书签。
参考文献.................................................... 错误!未定义书签。
计量测试中异常数据剔除的措施
计量测试中异常数据剔除的措施计量测量,其本身便是一项对数据精准性有着极高要求的工作。
而要确保数据获取的精准性,除了需科学处理计量测量所得出的数据外,尚需找出其中的异常数据并将之剔除,如此方能作为相关科学的参考依据。
当前,国内已然根据计量测量中异常数据的出现原因提出了4种有针对性的异常数据剔除方法,这些方法可独立使用,亦可综合利用,其目的均在于判定异常值并将之剔除,以确保计量测量数据的准确性。
1 计量仪器出现误差的原因由于计量仪器对外部环境有着极高的要求,加之其本身也是一种高精密的仪器,因而任何外部环境的变化都可能导致仪器测试结果产生偏差,并最终影响到检测结果的准确性。
就当前的外部环境而言,可能導致计量仪器产生误差的原因主要包括以下几个方面:(1)仪器受到了外界诸如震动、机械动荡一类的自然或人为因素影响;(2)受电磁干扰或因供电电压不稳而导致的检测仪器出现故障;(3)操作人员本身经验不足,加之操作事物所因其的检测不准确;(4)仪器本身存在如元件损坏、零件松动一类的质量问题,这类问题一旦发生,将直接导致检测结果不准确,从而影响到工作人员的正常测量。
对于以上影响因素,操作人员在实际的操作过程中,务必全面排除,如此方能确保测量结果的准确性。
当然,在此过程中,针对异常值的剔除尚需注意采取合适的剔除方法,若剔除方法选择不当则可能收获适得其反的效果。
简言之,即针对异常值不同的产生原因需采取有针对性的剔除方法,方能确保仪器测量结果达到规定的使用标准。
在实际的判断异常值过程中,以下几种是当前人们最常用的异常值判断准则,即3∑准则、肖维勒准则、t检验法以及格拉布斯准则。
2 计量测试中异常数据剔除的措施以上所提准则,虽其实际内容各不相同,但却均是置信概率的运用基础,而所谓的置信概率,即随机变量于置信区间内的落入概率。
若实际的运用过程中,将置信区间内的测量数据实际范围用X来表示,那么以上所提之准则则能用以下方式来表达:2.1 3∑准则该式子所表达的含义为可疑数据与整租数据的算术平均差,其目的是要找出该差与3倍哒的绝对值之间的差异,若偏差较大则将此数值舍弃。
T检验法剔除异常值对钻芯法检测批混凝土强度的探讨
T检验法剔除异常值对钻芯法检测批混凝土强度的探讨发布时间:2021-11-17T04:34:41.357Z 来源:《新型城镇化》2021年21期作者:陈国平[导读] 本文对采用T检验法用于钻芯法检测批混凝土强度的数据异常值分析,并结合工程实例对异常值进行检验剔除的具体操作方法进行了讨论。
广州广检建设工程检测中心有限公司广东省广州市 510600摘要:本文对采用T检验法用于钻芯法检测批混凝土强度的数据异常值分析,并结合工程实例对异常值进行检验剔除的具体操作方法进行了讨论。
关键词:T检验法钻芯法检测批异常值剔除钻芯法是结构实体混凝土强度检测的重要方法。
2013年颁布实施的《混凝土结构现场检测技术标准》GB/T50784-2013(以下简称标准) 在4.2章节对混凝土抗压强度检测作出明确的论述。
其中最大的一个不同就是增加对混凝土强度的异常值的判别和处理,弥补了以前各种版本规范标准仅提出需判别,但没具体的方法的缺陷。
由于混凝土强度分布的复杂性,芯样在钻取以及加工各环节中容易出现异常状况等各种原因,往往会导致检测批的芯样试件混凝土抗压强度出现个别偏差较大的情况,为此标准中规定了可对异常值进行剔除。
并提出了具体的操作方法。
本文结合工程实际探讨钻芯确定检测批混凝土强度推定值时对芯样试件抗压强度样本中异常值的剔除。
1、芯样试件抗压强度出现异常值的分析及剔除的理论依据:依据标准,4.2.4条文说明“鉴于芯样样本数据直接影响检测结果的准确性,应对芯样样本中的异常数据进行识别和处理。
本标准附录B规定了异常值判别和处理方法”。
标准B.1.1 “本方法适用于芯样混凝土抗压强度异常数据的判别和处理。
”标准B.3.1 “对检出的异常值,应寻找产生异常值的原因,作为处理异常值的依据。
”2、工程实例2.1、我司受某公司委托于2020年9月在监理单位公司见证下进行现场钻芯取样,整个取样过程无异常,芯样外观完好。
共计钻取 15个混凝土芯样进行按批检测,其结果如表1所示。
异常数据剔除
异常数据剔除EXCEL于异常数据剔除中的应用数据是关于自然、社会现象和科学试验的定量或定性的记录,是科学研究最重要的基础。
数据作为研究依赖的基础资源,其质量好坏直接关系到以此为据的正确性和科学性。
所谓异常数据就是数据集中与其它数据明显不一致的数据。
异常数据的产生原因有很多,可能是数据产生机制内在特性决定的,也可能是抽样调查技术问题;数据采集设备不完善;数据录入及传输错误;测量单位混乱;虚报、瞒报使统计数据失真;丢失数据等人力可控因素造成的。
异常数据的出现会极大程度地降低数据的质量,导致统计分析,如参数估计、假设检验、方差分析、相关分析、回归分析、聚类分析等得到的分析结果发生显著变异,使得样本对总体的推断、控制与预测等工作可能会不准确或者出现错误,进一步甚至可能造成宏观决策上的失误,带来不可挽回的损失。
因此,异常数据的识别和剔除具有重要意义。
异常数据识别有物理识别法和统计识别法。
物理识别法是根据人们对客观事物已有的认识,识别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中识别,随时剔除的一种方法。
统计识别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除的一种方法。
当物理识别异常数据不易做到时,一般采用统计识别法。
对于多次重复测定的数据,异常数据常用的统计识别与剔除法有拉依达准则(3@准则)法、格拉布斯(Grubbs)准则法、狄克逊(Dixon)准则法、肖维勒(Chauvenet)准则法、罗马诺夫斯基(t检验)准则法。
拉依达准则法简单,无需查表,用起来方便,测量次数较多或要求不高时用,当测量次数小于或等于10时,拉依达准则法失效。
肖维勒准则是经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是测量数据n无穷大时,该准则失效。
狄克逊准则法对数据中只存在一个异常数据时,效果良好,但当数据中异常数据的个数不止一个且出现在同侧时,该方法的检验效果不好,尤其同侧的异常数据很接近时效果更差,易遭受到屏蔽效应。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
∑x .
x =上L
n
( 1 . 2 )
1 概述 固井作 业是 石油钻 井作 业 中非 常重要 的一个 环节 。固 井作业 效 果 的好坏 , 会 对整 个钻 井项 目最 终 的成 败产 生 关 键 性 影 响。在 实 际作 业 中 , 有 很 多因素 都会 对 固井质 量 产
T :— X d - X
—
( 1
.
2 . 2 . 2 狄 克逊 ( Di x o n ) 检验 法 将X . ( i = 1 , 2, …, n ) 根 据 其 大 小 顺 序 依 次排 列 , 设 为
1 )
X1 ≤× 2 ≤ … ≤ Xn 。
c T
该 方法 省去 了× 、 S的计 算过 程 , 而 是将 n的数 目作 为 公式 中 X 代表 被检 验 的离 群值 , X 表 示 测定 值 的算 术 依 据 , 对 与之相 对应 的 r 值进 行计 算。表 1 . 2给 出 了 D i x o n 平均值 , a 是 除去 异 常值 后 , 由其他 实验 测 定值 得 出。 对 ( 0 . 0 5 , n ) 。 于公式( 1 . 1 ) 计 算 出的 T值 , 从表 中查 得 相 应 的 临界 值 , 并 检验 法 的临界值 r
固井质量数据 中的异常值剔 除方法研究
初 力剑 程 尧 陈真 洋 周少华 ( 东 北 石 油 大 学 数 学 科学 与 技 术 学 院 )
摘要 : 固 井 质 量 历 史数 据 中可 能 存在 一 些 异常 值 , 这 些 异常 值 对 行 比较和 判 断 , 具体 公式 为 :
于 建 立 影 响 因 素与 固井 质 量 之 间 的模 型 有很 大 的影 响 。 本 文 对如 何
表 1 . 2 Di x o n检验法的临界值 进行 比较 。 如 果在相 应 置信 度下 , T 值 比舍 弃界 限 中临界值 要大, 则X 可 以被视 为异 常值舍 弃 。 R 09 4 1 0 7 6 5 06 4 2 0 5 6 0 5 0 7 0 5 5 4 0 51 2 04 7 7 0 5 7 6 0 5 4 6 2 . 2 标 准偏 差 未知
表 1 . 1 Gr u b b s检 验 法 的 临界 值
3 4 b 6 7 8 9 1 0 l 1
g 1 . 1 5 1 . 4 6 1 . 6 7 1 . 8 2 2 异 常值 的判 别方 法 n 1 2 1 3 1 4 1 5 在 对 异 常值 进行 判别 时 , 可 以将 其 分成 两 类 , 即预 先 已知标 准偏 差 的场 合和 未知 标准偏 差 的场合 。 在 判 断方法 g : 旦 : 呈 兰 : 呈 Z 至 :
1 . 9 4 2 . 0 3 2 . 1 1 2 . 1 8 2. 2 3 1 6 1 7 1 8 1 9 2 O
:
: Z
: 曼 至 : 呈 : 曼
上, 通 常只 能通 过待 检 验 分析 数 据 的 自身检验 来 辨别 其 中 判定 规 则 : 如果 g < g ( 0 . 0 5 , n ) , 则 可 视 为不 存在 异 常 是 否 有异 常值。本文 专 门讨 论如 何对 同一 组 分析 数据 中 的 值 ; 如果 g > g ( 0 . 0 5 , n) , 就可 以将 异 常值 确定 为 X 。 从 实 异常值 进行 辨 别 , 而忽 略对 同~ 总体 中 不 同样 本 间存在 的 验 数 据 中将 异 常 值 删 除 , 再 通 过 重 复 以上 步骤 , 对 剩 余 的 异常值 的研 究。 n 一 1个数据 进 行再 次 比较 判 断 , 直 到 经过 m 次 判断后 , 数 2 . 1 标准 偏 差 已知 据 无 异常 出现 。 检 验 时使用 统计 量
识 别 判 断 异常 值 进 行 了论 述 , 通 过 文 中介 绍 的 方法 , 可 以在 模 型 计 算 前 将 固 井 历史 数 据 中存 在 的 异 常 值 除 去 , 以保 证 数 据 的 真 实性 和 可 靠性 , 最 大 限度 减 小 对 模 型 建 立 的影 响。 关键 词 : 固井 质 量 异 常值 剔 除
式 ( 1 . 2 ) 、 ( 1 . 3 ) 、 ( 1 . 4 ) 中 : 当 f × 一 x I > l x 一 x l 时 , x = x ; 当
5 %, n为数据 数 目。 G r u b b s检验法 的 临界 制, 保证 固井 的质 量。因此 , 数 据 的真实 性与 可靠 性对建 立 即取 置信 度 为 9 ( O . 0 5 , n) , 如表 1 . 1所 示。 模型 至 关重要 。 但是, 数 据 中可 能会 出现 一 些异常值 , 这些 值 g 异 常值 对于 建 立模 型会 有很 大 的影 响。 因此 , 判 断并剔 除 n 数据 中的异 常值就 显得 至关 重要 。
ห้องสมุดไป่ตู้
S = g n =
( 1 . 3 ) ( 1 . 4 )
生影 响。 为 了确 保钻 井工作 的万无 一失 , 应 该努 力寻 找 到 分析 固井 质量 与影 响因素 之 间关 系的 方法 , 即一 种预 测模 X 1 - X 一 I < l × n 一 I 时 , x = X n 。 型。 这样 在 固井 施工 之前 , 我 们可 以通 过预 测模 型进 行 事 l 临 界值 g ( a, n ) 中 , 为显著 性水平 , 通常取 a= 0 . 0 5 , 前模 拟 , 并根 据得 出的数值 对相 关影 响 因素进行 干预 和控