离群点的判定和处理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从题目编号中选择一项填写): A

题目:数学建模竞赛

参赛队员:

姓名专业班级所在学院电话(手机)是否报名全国竞赛

A题:离群点的判定

摘要

离群点是指数据中,远离数值的一般水平的极端大值和极端小值,也称之为歧异值,有时也称其为野值,其对后续的数据处理有很大的影响;本文研究的目的是拟建立适当的数学模型,评判出一组数据中的离群点,并对出现的离群点进行处理。

对于问题一的第一小问,本文拟将一维数据分成确定数据和不确定数据两类,对于确定数据建立残差绝对值模型发现离群点,当残差绝对值y(n)>y1-a(n)时,残差绝对值对应的Xi即为离群点;对于不确定数据,建立可能世界模型确定数据的邻居对象,在传统确定性数据判定方法的基础上,离群点的概率还需要满足所给出的概率阀值;同时满足两个条件即为离群点。

对于问题一的第二小问,本文拟采用aggarwal等所提出的评价指标体系评价残差绝对值模型判定离群点的有效性,计算真正的离群点数占该方法所找出的离群点的比例,比例越大残差绝对值模型判定离群点的有效性越好。

对于问题二,对离群点的处理本文拟分为标准偏差预知和标准偏差未知两类,对于标准偏差预知,本文拟采用统计量T=(X-X)/σ,T值大于舍弃界限中相应置信度下的临界值则舍弃否则保留;对于标准偏差未知,本文分别采用拉依达准则、狄克松法、肖维特法、格鲁布斯法、学生化残差绝对值法对离散点进行处理,更科学决定离散点的舍与留。

对于问题三,对于n维数据离群点的判定,本文拟采用神经网络模型求解,运用DPS数据处理系统将n维数据分为离群点和非离群点两类,输出的离群值即为要发现的离群点;本文拟采用蠓分类试验对神经网络模型来检验其有效性。

一、问题重述

离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。

形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。

不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。

问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。

问题三:针对n 维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

二、模型假设

假设:

(1)假设同一样本中的数据相互独立; (2)假设已事先确定样本数据的置信度;

(3)假设本文中讨论的离群点均是同一组分析数据中产生的,不涉及同一主体中不同样本间的离群点问题;

(4)假设随机变量的测量值服从正态分布;

三、符号的约定

x : 样本数据的算术平均值 i v : 样本数据的残差

s : 样本数据的标准偏差

i y : 样本残差

1()a y n -: 实验残差

σ

: 不包括离群点在内的其他实验测定值求得的样本偏差

T : 统计量

d X : 待检验的离群点 Q : 狄克松法中的统计量

ω: 肖维特法中的统计量

G : 格鲁布斯法中的统计量

K :

t 检验法中的统计量

R t : 极差法中的统计量

四、问题分析与模型的建立

离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值,显然离群点的出现给数据处理造成了很大的麻烦,本文则就如何处理数据中出现的离群点建立了数学模型。

对问题一,本文对于一维数据建立了基于距离的离群点判别模型,本文把现实数据中一维数据分为两类:1.传统确定性数据2.不确定数据,并分别进行了处理,然后本文通过试验的方法验证了基于距离的离群点检测方法的性能;

对问题二,如果数据中出现离群点,首先应从技术上设法判断其出现的原因,如果查明确由实验技术上的失误或者人为记录失误造成的,不管这样的测定值是否为异常值,都应该舍弃,而不必进行统计;如果由于存在某些原因不能从技术上找到离群点出现的原因,在这样的情况下应该首先对它进行统计检验,以便确定离群点应该舍弃还是保留,然后本文采用七种不同的方法对离群点进行处理,并举例说明了各处理方法对后续建模分析的影响,而且对给出的处理方法进行了比较,给出了各自的适用范围。 对问题三,因为高维数据的特性完全不同于低维数据,因此离群点的发现方法也会不同于传统的低维离群点发现方法,由于维数的增加,微小量积累效应,会使高维空间的数据分布得比较稀疏,使高维空间中数据之间的距离尺度及区域密度失去了直观意义,因此本文借用神经网络模型来求解并对建立的模型进行了 检验。

相关文档
最新文档