数学建模 A题 离群点的判定
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):河南科技大学
参赛队员(打印并签名) :1. 10级
2. 10级
3. 10级
指导教师或指导教师组负责人(打印并签名):
日期: 2012 年 8 月 23 日赛区评阅编号(由赛区组委会评阅前进行编号):
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):
离群点的判定
摘要
离群点即一些异常值,可以提供很多重要的信息,也会影响整体的分布,一次对离群点的分析越来越重要。在本题中运用了基于贝格拉斯准则建立的判别以及求出利群点的的模型,基于OpenGL框选拾取算法:建立的模型,基于空间离群点查找算法DBSODLS建立了模型对空间问题进行解决,运用了spass软件、matlab软件、excel软件、中位数算法,标准差算法,偏度算法,DBSODLS算法,多角度解决一维多维问题。
问题一:我们采用了格拉贝斯准则建立模型,判断空间离群点。采用计算数字特征算法,和正态分布函数曲线来及NPAR检验评价和检验。
问题二:采用了基于OpenGL框选拾取算法建立的模型对离群点进行处理,,框选拾取算法通过在绘制点云的窗口上画矩形框,拾取矩形框内的所有数据点。定性分析了这种算法对后续建模的影响。
问题三:采用了空间离群点查找算法DBSODLS ,具有比较好的效率。
关键词: 离群点贝格拉斯准则 OpenGL框选拾取算法空间离群点查找算法DBSODLS
1 问题重述
A 题:离群点的判定
离群点(outlier )是指数值中,远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。
形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。
不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。
问题一:针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。
问题二:如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响。
问题三:针对n 维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。
2 符号说明
1x ,2x ,…,n x 样本观测值; i x 样本的第i 个观察值;
x 样本均值;
μ 总体均值;
σ 总体标准差;
S 样本标准差; n 样本容量;
P (X 1X n=50; X n=40; Y 2.96; 1 Y 2.87; g 格拉贝斯统计量; g格拉贝斯统计量临界值; 3 模型建立与求解 3.1问题一 3.1.1格拉贝斯准则: 格拉贝斯导出了统计量g=()/s的分布。取显著水平,可以得到临界值,使得: P()=。 其中 = s= 若其中一个测量数据满足下式时,则认为数据异常而把它剔除: 。 图一利用Spass软件对数据进行处理 表二 部分 表 由于 表不完整,利用线性插值法求出与n 相对应的 。 3.1.2线性插值算法: 许多实际问题都用函数y=f (x )来表示某种内在规律的数量关系,其中相当一部分函数是通过实验或观测得到的。虽然f (x )在[a,b]上是存在的,有的还是连续的,但只能给出[a,b]上的一系列点xi 的函数值yi=f(xi)(i=0,1,……,n),这只是一张函数表,有的函数虽然有解析表达式,但由于计算复杂,使用不方便,通常也造一个函数表,如大家熟悉的三角函数表、对数表等。为了研究函数的变化规律,往往需要求出不在表上的函数值。因此,我们希望可以根据给定的函数表做一个既能反映函数f(x)的特性,又便于计算的简单函数P(x)。用P(x)近似f(X)。通常选一类简单的函数作为P(x),并使P(xi)=f(xi)对i=1,2,……,n 成立。这样确定下来的P(x)就是我们希望的插值函数,此即为插值法。 假设我们已知坐标(x 0,y 0)与(x 1,y 1),要得到[x 0,x 1]区间内某一位置x 在直线上的y 值。 根据图中所示,我们得到: 01010()*()()*Y Y X X Y Y --=-0(X-X ) 求的插 值算法程序 #include "stdio.h" #include "conio.h" #include "string.h" /*linear*/ void main() {