数学建模离群点的判定
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书
我们仔细阅读了数学建模竞赛选拔的规则.
我们完全明白,在做题期间不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人研究、讨论与选拔题有关的问题。
我们知道,抄袭别人的成果是违反选拔规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守选拔规则,以保证选拔的公正、公平性。如有违反选拔规则的行为,我们将受到严肃处理。
我们选择的题号是(从A/B/C中选择一项填写): A
队员签名:1.
2.
3.
日期: 2012 年 8 月 23 日
编号专用页评阅编号(评阅前进行编号):
A题:离群点的判定
摘要
在数据的读取和测定过程中,不可避免的存在误差,而离群点的形成可能是采样中的误差,其次可能是被研究的现象本身由于受各种偶然非正常的因素影响而引起的。不论是何种原因产生的,离群点总会偏离一般水平比较远。每种统计检验法都会犯错误。但是有人做过统计,在所有统计方法中Grubbs最佳。Grubbs法犯这两种错误的概率最小,所以我们使用Grubbs法。由此,对于第一个问题,我们对一维数据基于距离的不确定离群点检测采用Grubbs准则或3σ准则进行确定。而由于数据量并非过大,所以我们利用Grubbs准则建立合适的模型,对所有数据进行筛选,与均值相比较,符合统计规律中的一定值。最后我们通过该法则建立的模型挑出了数据中的离群,并进一步确定其离群度。Grubbs法则和其他法则的模型相比较,挑出离群点后,剩余数据的稳定性比较高,模型的拟合精度比较高。其数据特征值(方差,标准差等)相对较小,表明其散点分布较为集中。
对于第二个问题,在处理实验数据的时候,我们常常会遇到个别数据偏离预期或大量统计数据结果的情况,如果我们把这些数据和正常数据放在一起进行统计,可能会影响实验结果的正确性,如果把这些数据简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常数据,然后将其剔除。判断和剔除异常数据是数据处理中的一项重要任务,目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种方法。所谓物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除,统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除。而我们采用了统计判别法。
对于第三个问题,对n维矩阵,我们采用投影的方法按属性对各分量进行加权平均,将这些n维的数据分量转换为一维数据,然后我们就可以采用问题一的模型和问题二中的模型找出并处理离群点。其中权值的设定我们采用“综合评价”中准则层对目标层的权值设定方法。
关键字:离群点、判定、离群度、Grubbs准则、3σ准则
一、问题的重述
离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。
形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。
不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。
离群点可以分为两类:一误差。二:蕴含等多信息
1.1问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。
1.2问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。
1.3问题三:针对n维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。
二、问题分析
不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,它会提供相关的系统稳定性,灵敏性等重要信息。异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,转移错误。
离群点的处理如果在测量过程中,发现可疑测量值又不能充分肯定它是异常值时,可以在维持等精密度测量条件的前提下,多增加一些测量次数。根据随机误差的对称性,以后的测量很可能出现与上述结果绝对值相近仅符号相反的另一测量值,此时它们对测量结果的影响便会彼此近于抵消。
据事先确定的置信度和测定次数查表, 如果上式算出的值大于表中相应的值, 则可以认为该值为离群值。为获得对异常数据的稳健性,有两个途径:一是设计出有效的方法以发现数据中的异常值,从而把它们剔除。这已成为数理统计学中的一个重要课题,积累了不少成果。另一个途径是设计这样的方法,使样本中的个别数据不致对最终结果有过大的影响,如用最小二乘法求参数估计时,是根据使偏差平方和为最小的原则,从