离群点的判定

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2014数学建模竞赛选拔

承诺书

我们仔细阅读了数学建模竞赛选拔的规则.

我们完全明白,在做题期间不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人研究、讨论与选拔题有关的问题。

我们知道,抄袭别人的成果是违反选拔规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守选拔规则,以保证选拔的公正、公平性。如有违反选拔规则的行为,我们将受到严肃处理。

我们选择的题号是(从A/B/C中选择一项填写): A

队员签名:1.

2.

3.

日期: 2014 年 8 月 23 日

2014年南数学建模竞赛选拔

编号专用页

评阅编号(评阅前进行编号):

A 题:离群点的判定

摘要

离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。称之为歧异值,有时也称其为野值。本文对离群点的判定、计算结果的评价与预测问题进行了建模、求解和相关分析。

针对问题一,在计量测试领域中, 离群值是指粗差即粗大误差或过失误差的测量值。为了准确地判别离群点,本文建立了合适的判别模型,通过已知条件建

立学生化残差模型来判别一维数据的离群点,通过一维数据的均值x ,残差i v

等找出了离群点。最后通过DPS 数据处理系统,结合3S 检验准则、狄克松准则、格拉布拉斯准则对结果进行了合理的检验。

针对问题二,对于离群点的处理,本文从技术上设法判断其出现的原因,详细地介绍了离群点检验的6种方法,并用一组实例通过计算,完成检验,并得出结果。

针对问题三,对n 维数据建立判别离群点的数学模型,采用降维的方法,运用LLE 算法——寻找样本数据的内在嵌入分布,并通过距离公式和离群点权值判别式进行权值数据判定,根据权值的大小标识出数据集中的离群点,最后对其结果进行了科学的评价。

最后对本文所建立的模型及使用的方法的优缺点进行了相关的讨论,并分析 了在其他情况下的推广应用问题。

关键词:离群点 学生化残差模型 DPS 格拉布斯准则 LLE 算法

一、问题重述

1.1问题背景

离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。

形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。

不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。

1.2目标任务

1. 针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验;

2. 如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响;

3. 针对n维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。

二、问题分析

离群值是样本中的个别值,其数值明显偏离其它样本的值,故通常称做异值。

1、对于问题一,判别与剔除离群值一般采用两种方法。第一种方法是, 对测量列进行统计检验,通过统计规律判断是否含有离群值。通常假定随机变量的测量值服从正态分布,并且运用一定的检验方法,例如如格拉布斯检验或狄克逊检验等,对所得到的测量值进行判断,然后利用处理后的测量值来确定被测量的特征参数估计。一般都是以残差分析为对象。在给定显著性水平的情况下,根据残差值是否超出标准差的某一倍数,来判断是否存在离群值进而消除其影响。第二种方法是,采用可避免或抑制离群值影响的测量结果及其不确定度的稳健估计进行处理,这种方法可以保证当发生少许或严重模型差异时, 处理结果所受到的影响比较小。对于一维数据离群点的判别,我们采用的是学生残差化分析,并利用DPS数据处理系统对其模型计算结果进行检验。

2、对于问题二,对于测定中的异常值的处理,必须持慎重态度,不能贸然从事。由于在一组平行测定所得到的分析数据中,有时会出现个别测定值与其他数据相关较远,这些数据称为离群值或逸出值(Qutlier)。初学者多倾向于随意舍弃这一可疑值,以获得精确度较好的分析结果。对于离群值,首先应从技术上设法判断其出现的原因,如果查明确由实验技术上的失误引起的,不管这样的测定值是否为异常值,都应舍弃,而不必进行统计检验。但是,有时由于各种原因未必能从技术上找出它出现的原因,在这种情况下应对其进行统计检验,以便于从统计上判明离群值是否应该保留或舍弃。本

文在问题二的论述中,详细介绍了离群点检验的6种方法,并用一组一维实例来进行检验,并得出结果。

3、对于问题三而言,对n 维数据建立判别离群点的数学模型,并对模型的计算结果进行评价或检验,采用了降维的方法,并运用LLE 算法分别计算出样本点与邻近点的距离,以及相应的权值和降维后的特征向量。通过对判别式的分析,离群点的权值变化情况可以通过判别式得出,从而判别出离群点。

三、 模型假设

1、假设一维数据满足正态分布;

2、假设每年的试题难度差不多;

3、对于每个样本点都可以找到它的k 个近邻点;

4、假设n 维数据在局部是线性的。

四、 符号约定

符号 定义与说明 S 标准差 i y 实验学生化残差

i v

残差 i y 样本学生残差绝对值

ij d

样本点的距离

ω

权值

这里只给出主要符号的意义,其他符号将在文中给出,在此不再一一赘述。

五、 模型的建立与求解

5.1 一维数据中离群判定模型的建立及对其结果的检验 5.1.1 建立学生化残差分析模型

对于一维数据

{}12,,(1,2,n)i n X x x x x i ==…,…,…

首先算出它的算术平均值x 及其残差i v 分别为:

1

1n

i i x x n ==∑,i i v x x =-

再选取一样本,可得出其实验标准差与样本标准差分别为:

相关文档
最新文档