2012数学建模A题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以就需要进行主成分分析。
主成分的理论分析:因为在所有的线性组合中所选取的应该是方差
最大的,故称为第一主成分。如果第一主成分不足以代表原来个变量的
信息,再考虑选取即第二个线性组合,为了有效地反映原来信息,已有
的信息就不需要再出现在中,用数学语言表达就是要求,称为第二主成
分,依此类推可以构造出第三、四……第个主成分。
五 模型的建立与求解
5.1 问题一
5.1.1评价结果的显著性差异分析
单因素方差分析方法的原理:首先在单因素试验结果的基础上,、、。
(1)
(2)
(3)
从公式可以看出,总方差衡量的是所有观测值对总均值的偏离程度,反
Fra Baidu bibliotek
映了抽样随机误差的大小,组内方差衡量的是所有观测值对组均值的偏
离程度,而组间方差则衡量的是组均值对总均值的偏离程度,反映系统
分。主成分又叫主分量。这里我们称为主成分系数。
上述模型可用矩阵表示为:
,其中
(13) 称为主成分系数矩阵。 基于因子分析法的理论,运用SPSS软件,分析酿酒红葡萄的理化指标, 可得以下结果: 第一因子:乙醛,乙酸甲酯,乙酸乙酯,乙醇,丙酸乙酯,2-戊酮,甲 苯,乙酸 丁酯,3-甲基-1-丁醇乙酸酯,乙酸戊酯,乙酸己酯,2-辛 酮,4-己烯-1-醇-乙酸盐,1-己醇,(Z)-3-己烯-1-醇, 乙酸辛酯,5-甲基糠醛,甲氧基苯基丙酮肟; 第二因子:花色苷鲜重,DPPH自由基,总酚,单宁,葡萄总黄酮;
我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 杨晓宇
2. 梁 言 3. 李玉珠 指导教师或指导教师组负责人 (打印并签名):
日期: 年 月 日
赛区评阅编号(由赛区组委会评阅前进行编号):
从表中结果可以直观看出,对于红葡萄酒和白葡萄酒而言,都是第 二组的方差较小,所以得出结论:第二组的评分结果更为可信。 5.2问题二 5.2.1分析酿酒葡萄的理化指标及葡萄酒的质量 (1)数据预处理:对酿酒葡萄的各项理化指标进行无量纲化处理(当 出现多组数据时,将多组数据求平均值得出指标的唯一值;当有二级指 标时,值采用一级指标。):
方差
自由度 均方差 F值
P值
组间方差 87.50
1
87.15
2.499297 0.119961
组内方差 1813.23 52
34.86981
总方差 1900.38 53
(2)根据一、二组对白葡萄酒的综合评价可以得到表二:
方差
自由度 均方差 F值
P值
组间方差 85.51
1
85.51
5.082542 0.028247
(7) 对葡萄酒的评分进行无量纲化处理:
(8) (2)对量化指标进行选择
因子分析法应用原理:在这个问题中,需要研究多个变量,并且
这多个变量之间存在一定的相关性。为了从多个变量中综合为少数几个
代表性变量,既能够代表原始变量的绝大多数信息(80%或85%)以上,
又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,所
首先对附件一中的数据进行无量纲化处理,得到每种葡萄酒的平均 得分,用因子分析法,对酿酒葡萄的理化指标进行选择,得到十种因 子,再用0-1规划模型,最后对酿酒红葡萄进行分级。 2.2.3问题三的分析
要求研究葡萄与葡萄酒理化指标之间的联系,我们先对于葡萄的30 个理化指标进行主成分分析法,得到葡萄一些具有代表性的理化指标。 然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性 回归方程,得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。 2.2.4问题四的分析
各有两组数据,每种酒都有两组人进行对其进行评分,每件样品酒有十
名品酒员号打分,采用单因素方差分析法,我们将样品酒的总分作为唯
一考虑的因素,运用matlab软件编程求出品酒员对每组样品打的总分的 平均分,见附录一:根据以上分析和计算可以得到以下两个方差分析表
格:
(1)根据一、二组对红葡萄酒的综合评价可以得到表一:
第三因子:(Z)-2-庚烯醛,(E)-2-己烯-1-醇,1-庚醇,反式-2-壬 烯酸; 第四因子:三氯甲烷,(E)-2-壬烯-1-醇; 第五因子:柠檬烯; 第六因子:á-蒎烯,(Z)-3,7-二甲基-2,6-辛二烯醛,(R)-3,7-二甲
不成立,总体均值不完全相等,差异并非仅由随机因素引起。在本题
中,分析红酒时,分析白酒时,此题设显著性水平,
说明:值反应了可以以多大的把握认为原假设成立。如果计算的值
小于给定的显著性水平0.05则应该接受原假设,否则应拒绝原假设。如
果值小于显著性水平,则均值相等,否则不相等。 首先我们对数据进行处理,附件1里有四组数据:红葡萄酒和白葡萄酒
关键词: 单因子方差分析 0--1规划 主成分分析法 多元回归模型
一 问题重述
随着我国经济的快速发展,葡萄酒市场竞争也日趋激烈。虽然国家 已经对葡萄酒的质量做了规定,但由于相应规范的制定工作的限制,我 国关于葡萄酒质量等级划分的标准还未完善,所以国家需要制定统一的 质量等级制度。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。 每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其 总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有 直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡 萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附 件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请 尝试建立数学模型讨论下列问题:
问题一:分析附件1中两组评酒员的评价结果有无显著性差异,哪 一组结果更可信?
问题二:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄 进行分级。
问题三:分析酿酒葡萄与葡萄酒的理化指标之间的联系。 问题四:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响, 并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2012高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电 话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、 讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果 或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献 的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。 如有违反竞赛规则的行为,我们将受到严肃处理。
对于哪组数据更加可信,我们知道方差是考察数据的波动性的,方 差小就说明数据比较稳定,方差大就是波动性比较大。故我们将红酒, 白酒每组样品酒的平均组内方差求出来,比较方差和的大小,则可知道 哪组数据更加可信。
平均组 内方差
红葡萄酒 第一组 第二组 51.92 15.24
白葡萄酒 第一组 第二组 22.75 9.70
2012高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评 阅 人
评 分
备 注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
葡萄酒的评价
摘要
本文所研究的是葡萄酒等级的划分等一系列问题,这对于我国目前 存在的葡萄酒的不完善的评价体系的改善有着深刻的意义。
的误差。
在此基础上,还可以得到组间均方差和组内均方差:
(4) (5)
在方差相等的假定下,要检验n个总体的均值是否相等,须首先给定原 假设和备择假设。
原假设
:均值相等即
备择假设
:均值不完全不相等
则可以应用统计量进行方差检验:
(6) 该统计量服从分子自由度,分母自由度为的分布。给定显著性水
平,如果根据样本计算出的统计量的值小于等于临界值,则说明原假设
二 问题分析
2.2.1问题一的分析 根据附件1的数据可知:两组评酒员分别对27组红葡萄酒和28组白
葡萄酒进行评分,相当于每件样品都进行了两次评分,故可以求出平均 的评分。此问题要求分析两组评酒员的评价结果有无显著性差异以及哪 一组结果更可信,对于分析显著性的差异,我们用单因素方差分析法, 取显著性水平为0.05,运用Excel求出值,根据值与0.05的关系来判断 有无显著差异性。方差是描述数据波动的大小的,求出方差,比较两组 数据方差的大小来判断哪一组结果更可信。 2.2.2问题二的分析
三 模型的假设
3.1 假设题目所给的数据真实可靠; 3.2 评酒员的评价尺度相同; 3.3 二级指标里的因素对酿酒葡萄分级的影响不大,可忽略不计; 3.4 测试理化指标用的葡萄和相应酒样的酿酒葡萄是同一批; 3.5 附件所给的理化指标具有代表性;
四 符号说明
—— 总方差; ——组内方差; ——组间方差; ——实验次数; ——组间均方差; ——组内均方差; ——酿酒葡萄的主成分即为新的指标; ——葡萄酒的第项理化指标; ——酿酒红葡萄的前十二个主成分; ——红葡萄酒的各理化指标; ——酿酒白葡萄的前十三个主成分; ——第种葡萄样品的第个指标的值; ——葡萄样品的第个理化指标的值; ——无量纲化处理后的第种葡萄样品的第个理化指标的值; ——第个品酒员给第类葡萄酒的评分; ——第个品酒员给第类葡萄酒的第项指标的评分; ——第类葡萄酒的平均总得分。
针对问题三,分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运 用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成 分,进而通过多元回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系 的模型。
针对问题四,首先利用因子分析法分别给出酿酒葡萄和葡萄酒的理 化指标对葡萄酒质量的影响因素,再将每类葡萄和葡萄酒中的芳香物质 总和作为样品中的芳香指标,与葡萄酒的理化指标一并进行因子分析, 根据前后两者结果中由样品的芳香指标导致的影响差异,再结合感官指 标,最终确定感官指标是评价葡萄酒质量的最有效指标。
组内方差 908.51 54
16.82426
总方差 994.02 55
通常情况下,实验结果达到0.05水平或0.01水平,才可以说数据之 间具备了差异显著或是极显著。在作结论时,应确实描述方向性(例如 显著大于或显著小于),在此我们取0.05作为显著性水平标准。
根据以上两表可知:红葡萄酒中表中值为0.119961>0.05,故接受,且 对应的也很小,故可知品酒员对红葡萄酒的评分没有显著性差异。白酒 表中的值为0.028247<0.05,故拒绝,则评酒员对白酒的评分具有显著 性差异。 5.1.2评价结果的可信度
针对问题一,要分析两组评酒员的评价结果有无显著性差异以及哪 一组结果更可信。首先对葡萄酒的得分数据进行无量纲化处理,然后运 用单因素方差分析法,将各样品酒的总分作为唯一的因子,取显著性水 平为0.05,通过计算可信度指标值来判断差异性,最后通过计算出的方 差来判断出第二组的评价结果更可信。
针对问题二,首先用因子分析法,对酿酒葡萄的理化指标进行选 择,得到十种因子。再用0-1规划模型,对酿酒红葡萄进行分级:一级 (优)包含样品9,25,20,2,17,3;二级(良)包含样品26,5, 21,14,19;三级(中)包含样品4,24,27,22;四级(合格)包含 样品1,25,12,10,13,16;五级(不合格)包含样品11,7,18, 15,8,6。酿酒白葡萄分级:一级(优)包含样品17,15,9,1,22;二级 (良)包含样品6,18,7,27,13;三级(中)包含样品 5,20,28,4,14,21;四级(合格)包含样品23,26,2,12,10,24;五级 (不合格)有样品8,11,19,25,16,3。
主成分分析的数学模型:对于一个样本资料,观测个变量,个样品
的数据资料阵为:
(9)
其中:
(10)
主成分分析就是将个观测变量综合成为个新的变量(综合变量),即
(11)
简写为:
(12)
要求模型满足以下条件:
①互不相关(,)
②的方差大于的方差大于的方差,依次类推
③
于是,称为第一主成分,为第二主成分,依此类推,有第个主成
利用因子分析分别给出酿酒葡萄和葡萄酒的理化指标对葡萄酒质 量的影响因素,将附件3中4个表格里的每张样品中所含各种芳香物质求 和作为样品中的芳香指标与葡萄酒的理化指标一并进行因子分析,比较 前后两者结果中由样品中的芳香指标导致的影响差异来确定,不能只用 葡萄和葡萄酒的理化指标来评价葡萄酒的质量,最后结合感官指标做出 分析。