工程数学疑似异常值名词解释

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

工程数学疑似异常值名词解释
异常值在统计学上的全称是疑似异常值,也称作离群点(outlier),异常值的分析也称作离群点分析。

异常值是指样本中出现的“极端值”,数据值看起来异常大或异常小,其分布明显偏离其余的观测值。

异常值分析是检验数据中是否存在不合常理的数据,在数据分析中,既不能忽视异常值的存在,也不能简单地把异常值从数据分析中剔除。

重视异常值的出现,分析其产生的原因,常常成为发现新问题进而改进决策的契机。

从散点图上,可以直观地看到离群点,离群点是孤立的一个数据点;从分布上来看,离群点远离数据集中的其他数据点。

在上图中,离群点(outlier)跟其他观测点的偏离非常大,注意,离群点是异常的数据点,但是不一定是错误的数据点。

离群点检测
在数据处理过程中,可以对数据做一个描述性分析,进而查看哪
些数据是不合理的。

常用的统计量是最大值和最小值,用来判断变量的取值是否超出了合理的范围,例如,客户年龄的最大值是199,该值存在异常。

除此之外,检测离断点的方法,通常有Z-score 和 IQR。

1,Z-score方法
在介绍Z-score方法之前,先了解一下3∂原则,
3σ原则
如果数据服从正态分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。

在正态分布下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)<=0.003,属于极个别的小概率事件。

如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

这个原则有个前提条件:数据需要服从正态分布。

在3∂原则下,如果观测值与平均值的差值超过3倍标准差,那么可以将其视为异常值。

正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。

如果数据不服从正态分布,那么可以用远离平均值的多少倍标准差来描述,倍数就是Z-score。

Z-score以标准差为单位去度量某一原始分数偏离平均数的距离,它回答了一个问题:"一个给定分数距离平均数多少个标准差?",Z-score的公式是:
Z-score = (Observation — Mean)/Standard Deviation
z = (X —μ) / σ
Z-score需要根据经验和实际情况来决定,通常把远离标准差3倍距离以上的数据点视为离群点,也就是说,把Z-score大于3的数据点视作离群点,Python代码的实现如下:。

相关文档
最新文档