离群点的判定汇编

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

离群点的判定

摘要

本文首先对离群点进行了定义,离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。深入了解了形成离群点的原因,并建立数学模型来找出一维、n维数据中的离群点,主要利用聚类的离群挖掘法。

针对问题一,考虑到数据的杂乱性,先对数据进行排序,由于在实际生活中我们需要处理的数据量往往比较多,离群点的个数也不确定,就考虑对数据进行分类处理,利用离群值跳跃度比较大的特点,采用斜率比较的方法进行分类,在分类的过程中我们就会很容易的发现离群点。最后再对完成分类的数据进行分析。完成分类的数据往往差距更小,可以近似的认为数据服从正态分布,利用正态分布的性质可以找出每类数据中的离群点,这样就找出了数据中所有的离群点。

针对问题二,我们主要采用具体的数据绘制具体的图形来分析存在的离群点,并说明离群点带来的影响。

针对问题三,我们主要利用基于聚类的离群挖掘方法,先利用一趟算法对数据集进行聚类;然后再计算每个簇的离群因子,并按离群因子对簇进行排序,最终确定离群簇,也即确定离群对象。确定算法以后再利用具体的数据进行检测,看该模型是否可行。

关键词:数据的分类处理聚类的离群挖掘方法(CBOD)

一、问题重述

A题:离群点的判定

离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。

形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。

不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。

问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。

问题三:针对n维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

二、模型假设

假设一:一维数据为随机序列,排序后不会影响到离群点的判断。

假设二:一维数据中存在离群点,且离群数据差异不会很大。

假设三:n维数据中存在离群点,以二维为例进行检测。

三、符号说明

Ci——簇

OF4(Ci)——簇Ci离群因子

——标准差

__

x——均值

四、问题分析

问题一:要分离一维数据中的离群点,由于数据的随机性,首先要对杂乱无章的数据进行处理,将数据变成有序的、易于观察的序列。离群点,就是与其他数据差异较大的一个数据,找出差异,就可以找出离群点。

问题二:离群点有别于其他的数据,如果后续数据处理会用到该项数据,该项数据肯定是不能直接使用的,可以选择直接剔除数据或者取均值来减小该项数据对后续建模的影响。

问题三:我们主要利用基于聚类的离群挖掘方法,先利用一趟算法对数据集进行聚类;然后再计算每个簇的离群因子,并按离群因子对簇进行排序,最终确定离群簇,也即确定离群对象。确定算法以后再利用具体的数据进行检测,看该模型是否可行。

五、模型的建立与求解

问题一:

5、1模型建立

5、1、1数据整理:

原数组为:{x1,x2,… ,xn};

将数据进行重新排序,得新数组{T1,T2,…,Tn } 其中T1≤T2…≤Tn;

建立直角坐标系,x 轴为1,2,…,n,新数组数值作为y 轴数据,构建新的二维数组(1,T1),(2,T2),…,(N,Tn)。 5、1、2数据分类:

令 n

T1

-k Tn =;

如果 k ≤11

-Xt -Xt 则Xt ,Xt-1同类;

k X X >11

-t -t 则Xt ,Xt-1不同类 t=1,2,...,n ;

每两个分类点之间的数据为同一类

这样,数据分成L 组:A1,A2,…,AL 。每组为一类数据;

5、1、3查找离群点

(1)若某类中有m 个数值,且m 相对于n 很小,则此类中数值作为离群点

(2)同类中查找离群点:

在假设成立的情况下,一类中的数据可看做服从正态分布。 取出一类中的y 值,剔除x 值,将二维数组转换成一维数组。

X ~N(μ,δ

2

)

由拉依达准则:|x i -x __

| > 3δ;

当某个可疑数据x i 符合上式时, 则认为该数据是异常值, 应予剔除。即是说当可疑数据与测量数据的算术平均值的偏差的绝对值大于3倍(或两倍)的标准偏差时应将此可疑值舍去, 至于3s 或2s 与显著性水平a(随机变量落在置信区间以外的概率)有关, 3s 相当于a = 0.01, 2s 相当于a = 0.05。 (s 是标准差即δ) 举例论证:

原数组由visual c +

+整理后结果如下:

Y=[10.002,10.102 ,10.203,10.204,10.208,10.218,10.220,10.228,10.230,10.232,10.302,10.312,10.320,10.342,10.346]; 转变成二维数组: (1,10.002)(2,10.102)(3,10.203)(4,10.204)(5,10.208)(6,10.218)(7,10.220)(8,10.228)(9,10.230)(10,10.232)(11,10.302)(12,10.312)(13,10.320)(14,10.342)(15,10.346); 数据由visual c +

+分类后得到: A1={(1,10.002)}; A2={(2,10.102)};

相关文档
最新文档