数据的分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们的参赛报名号为: 4
参赛队员 (签名) :
队员 1:刘
硕
队员 2:杨
杰
队员 3:龙治安
湖南工学院数学建模竞赛
编 号 专 用 页
参赛队伍的参赛号码:(请各个参赛队提前填写好):
竞赛统一编号(由竞赛组委会送至评委团前编号):
竞赛评阅编号(由竞赛评委团评阅前进行编号):
湖南工学院数学建模竞赛
题 目
二、模型的假设
1、 假设该样本提供的数都是可靠准确的;
2、 对问题一中的数据样本元素 1,2,3,4 不考虑他们之间的排列关系影响分类结果; 3、 对问题三样本数据中的指标水平不考虑指标 1 与指标 2,3,4,5,6 的对比,完全看做不 同的指标; 4、 问题四中的 25 个总体的回归函数属于同一个类型。
ai ( x ) :第 i 个指标水平的标准差, ai ( x ) :第 i 个指标水平的峰度
ci ( x ) :第 i 个指标水平的偏度
( x) 1 ci 0 m ( x) 1 ci 0 偏度符号 指标水平的判定区间 [ xi , xi ai ( x )bi ( x ) m xi ci ( x ) ]
1 W ( x) ( x ( 1 2 ))T 1 ( 1 2 ) 2
判别规则为
x X 1 (W ( x) 0) x X 2 (W ( x) 0) 当总体的参数未知时,我们用样本对 1 , 2 及 进行估计,注意到这里的 Fisher 判
k 均值算法的计算过程非常直观,步骤如下:
1、从 D 中随机取 k 个元素,作为 k 个簇的各自的中心。 2、分别计算剩下的元素到 k 个簇中心的相异度,将这些元素分别划归到相异度最 低的簇。 3、根据聚类结果,重新计算 k 个簇各自的中心,计算方法是取簇中所有元素各自 维度的算术平均数。 4、将 D 中全部元素按照新的中心重新聚类。 5、重复第 4 步,直到聚类结果不再变化。 6、将结果输出。 样本之间的相似性度量: 这里采用欧氏距离,样本 xi , x j 之间的距离为:
同理: 总体 Y: 指标水平的判定区间
2
[ yi , yi ai ( y )bi ( y ) m yi ci ( y ) ] 判断指标水平值落在区间: 对于判定样本 Ki (k1 , k2 , , k19 )
若 ki [ xi , xi ai ( x )bi ( x ) m xi ci ( x ) ] ,则该指标更符合总体 X 若 ki [ yi , yi ai ( y )bi ( y ) m yi ci ( y ) ] ,则该指标更符合总体 Y 设符合总体 X,Y 的指标个数分别为 pi , qi 对样本 K i 所属类别的判定: 若 pi qi 若 pi qi 若 pi qi 样本 K i 属于总体 X; 样本 K i 属于总体 Y; 样本 K i 属于不可判类。
(1)连接权: wkj (2)求和单元: uk (3)激活函数 这里选用 sigmoid 函数 最常用的函数形式为
(v )
1 1 exp(av)
(a 0)
以上图形所示功能的数学表达为:
3
uk wkj x j , vk uk k , yk (vk )
j 1
ik
x jk ) 2 作为判断的依据。
CY
n2 1 xi (式中 n1 582, n2 3588 ) n2 n1 i n1 1
对于给定的样本点分别计算改点到总体几何中心距离: DX xi CX D Y ix C Y
1Βιβλιοθήκη Baidu
判别准则如下: (1)若 DX DY ,则将 xi 判为总体 X; (2) 若 DX DY ,则将 xi 判为总体 Y; (3) 若 DX DY ,则将 xi 判为不可判类。 Fisher 准则分类模型: Fisher 判别的基本思想是投影,即将表面上不易分类的数据通过投影到某个方向 上,使得投影类与类之间得以分离的一种判别方法 仅考虑两总体的情况,设两个 p 维总体为 X1 , X 2 且都有二阶矩存在。Fisher 的判别思 想是变换多元观测 x 到一元观测 y,使得由总体 X1 , X 2 产生的 y 尽可能的分离开来。 设在 p 维的情况下,x 的线性组合 y a x ,其中 a 为 p 维实向量。设 X1 , X 2 的 均值向量分别为 1 , 2 (均为 p 维) ,且有公共的协方差矩阵 ( >0),根据前人所总结 的 Fisher 判别的经验 定义 Fisher 判别函数为:
三、模型的建立及求解
问题一: 一般的判别问题是在已知历史上用某些方法把已研究的对象分成若干组的情况下, 来判定新的观测样品应归属的组别。每一组(亦称类或总体)中所有样品的 p 维指标值 x ( x1 , x2 , , x p ) 构成了该组的一个 p 元总体分布, 我们主要试图从各组的总体分布或其 分布特征出发来判断样本 x 是来自哪一类的。 具体模型:欧式距离分类模型、Fisher 准则分类模型、模型三、神经网络模型 欧式距离分类模型和 Fisher 准则分类模型基于元素 1,2,3,4 含量特征分类的模型通 过观察很容易发现各样本的元素都为 1,2,3,4 由于每个样本的指标都很多, 考虑用每个元 素的百分含量来提取样本的特征, 从而得到一个可以解释样本的四维向量 (a1 , a2 , a3 , a4 ) 。 考虑到 a1 , a2 , a3 , a4 之间的线性关系 (a1 a2 a3 a4 1) ,可以用三维向量 (a1 , a2 , a3 ) 简化, 来简便计算。对不同标号 i 的样本,记它的特征向量为 x ,显然, 任意序列的特征向量
一、问题的提出
给定 3588 个数据(见附件 1) ,其含义是 1-582 组数据来自总体 ,583-3588 组数据 来自总体 。根据这些数据,请大家完成下面的问题: 1.至少选择三个模型区分这两类数据,并比较结果。 2.将 3588 个数据随机分成测试集和训练集, 使用测试集重新讨论 1 的最优模型, 同 时使用训练集检验模型,并讨论结果。 给定 1468 个数据(见附件 2) ,其含义是数据来自 25 个总体。根据这些数据,请大 家完成下面的问题: 3.至少选择三个模型区分 25 个总体,并使用 5 个和 34 个样本检验结果。它们分别 来自两个不同的总体。 4.确定这 25 个总体的回归函数。并讨论结果。
数据的分析
摘要
本文讨论的是数据的分类问题。依据多元分析、人工神经网络、回归分析等理论, 建立了欧氏距离、Fisher 准则分类、人工神经网络,聚类分析、多元线性回归等模型, 并运用 EXCEL 等数据处理软件对数据进行处理,运用 SPSS、MATLAB 对模型进行求解。 对问题一:我们根据问题的要求对数据进行分类判断,由多元分析法,建立了欧氏 距离分类模型和 Fisher 判别模型来判别数据所属总体;又由题中所给数据来自某一统 计,根据人工神经网络的模拟功能,建立了人工神经网络模型来对样本进行分类;再由 分类所要考虑的水平较多,建立了每个总体的水平取值范围建立了模型,根据样本在那 个总体的水平的范围的水平多少来判断样本所属总体。 对问题二:我们用 MATLAB 对问题一中模型进行求解,发现问题一中人工神经网络 模型判断正确率最高,判断两总体的正确率分别为:89.62%、93.34%。按题目要求采用 人工神经网络模型进行测试和训练,得出在训练集中判断两总体的正确率分别为: 88.56%、93.67%。 对问题三:由于要对数据分类,我们考虑将相似的数据聚集在一起组成一类,建立 了分析方差、相关性系数、聚类分析等模型,由所给数据样本中有大量相同或相近的数 字的特点建立了模型四,用 EXCEL 对数据进行预处理,用 SPSS、MATLAB 对模型进行了 求解。并检验了 5 个和 34 个样本,结果为 5 个和 34 个样本都来自于两个样本。 对问题四:由问题三中所建立的模型四中所求出的分类,将每个总体数据波动最大 水平作为因变量,其他水平做为自变量进行回归,运用 MATLAB 求出每个分类总体的回 归函数,求得的所有回归函数都属于线性回归,拟合程度较好。 关键字:多元分析 回归分析 人工神经网络 MATLAB SPSS
p
式中 x1 , x2 ,
, x p 为输入信号, w1 , w2 ,
, wkp 为神经元的权值, uk 为线性组合结果,
k 为阀值, () 为激活函数, yk 为神经元的输出。
问题二: 通过上面对模型的检验和比较,可以看出神经网络模型为问题一的最优模型。 根据题目要求我们将 X、Y 两个总体随机分成测试集和训练集,使用测试集重新讨 论问题一中的最优模型神经网络模型,同时使用训练集检验模型。 问题三: 聚类分析模型: 聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。 聚类分 析也称群分析、 点群分析, 是研究分类的一种多元统计方法。 在本问题中要将给定的 1468 个数据分成 25 个总体,很容易就想到要用聚类分析解决问题。最简单的聚类算法——k 均值()算法
d ( xi , x j )
按照上面的步骤进行聚类。
(x
k 1
n
ik
x jk ) 2
相关性系数模型: 这里采用绝对值指数法来求样本之间的相关性系数
rij exp( | xik x jk |)
k 1
m
(i, j 1, 2,
, n)
分类方法和步骤: 1、相关系数 rij [0,1]
湖南工学院数学建模竞赛
承 诺 书
我们仔细阅读了湖南工学院数学建模竞赛的竞赛规则。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与本队以外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的 资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正文引用处和参 考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规 则的行为,我们愿意承担由此引起的一切后果。
i
与一个 3 维空间的点对映。 欧式距离分类模型: 在欧氏距离分类模型中, 计算样本之间的相似程度可以转化为求样本之间的欧氏距 离。以其到总体中心距离的大小 d ( xi , x j ) 模型的建立: 计算 X,Y 总体的几何中心: 1 n1 CX xi n1 i 1
(x
k 1
n
神经网络模型: 由于神经网络具有运用已知认识新信息, 解决新问题,学习新方法, 预见新趋势, 创造新思维的能力, 所以我们将神经网络处理问题的方法介入进来 , 处理数据分类的 问题。 神经网络的主要特点有: 高度的并行性; 高度的非线性全局作用; 良好的容错性 与联想记忆功能。十分强的自适应, 自学习功能。 对于神经网络常采用如下几种方案:1,单层感知器 2,BP 网络 3,LVQ 矢量量 化学习 模型的建立与求解: 下图表示出了作为人工神经网络的基本单元的神经元模型,它有三个基本要素:
2、取 rij =1(最大值) ,对每个 xi 作相似类: [ xi ]R x j | rij 1 ,即将满足 rij =1 3、令 rij ,依次取 1 2
25 将样本分为 25 类,即 25 个总体。
4
的 xi 与 x j 视为一类,构成相似类。
用 MATLAB 软件将样本分成 25 类,由于数据很多,所以分类结果这里就不列出。 分析方差模型: 从数据本身来看发现其中某些样本 0 元素占到很大的比例,而有些样本中的元素大 小有很大的差异,于是我们又想到一种利用样本的方差给数据分类的方法,数据之间的 方差反应数据之间波动情况,将波动基本上相同或处于同一范围的样本归为一类,有其 统计方面的合理性。 样本 xi
别与距离判别一样不需要知道总体的分布类型,但两总体的均值向量必须有显著的差异 才行,否则判别无意义。 模型三: 总体 X , Y 中每个样本都含有 19 个指标水平,对于一个要判别的样本。可以通过比较 19 个指标中,符合总体 X , Y 的个数来反映样本与总体的隶属程度。符合个数越多,隶 属程度越高。这样就可以进行分类。 总体 X: xi :第 i 个指标水平的平均值