2012全国数学建模论文a题(葡萄酒)省一等奖范文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): A
我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员(打印并签名) :1.
2.
3.
指导教师或指导教师组负责人(打印并签名):指导组
日期:2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):2
葡萄酒的评价
摘要
本文主要根据评酒员对葡萄酒的一系列指标的打分,从而对葡萄酒的质量作出判别。
考虑到酿酒葡萄的好坏、所酿葡萄酒的质量和酿酒工艺、陈酿技术等约束条件,为此我们建立模型来确定影响葡萄酒评价的各种因素。
在这模型中利用excel,spss,matlab等一系列的数学工具对模型进行求解,综合统计分析的应用对所给的结果进行比较,从而得出最终的结果。
首先,对于问题1,分析两组评酒员的评价结果,每个评酒员对外观、口感、香气、平衡/整体四个方面指标得分进行求和,得到其总分,确定葡萄酒的质量。
由于葡萄酒的质量满足正态分布,为了能分辨出两组的差异,所以利用spss进行配对T检验,从而得出两组评酒员有显著的差异。
其次,用excel对两组进行方差分析,根据所得到的P值大小,得出第一组的评价结果更为可信。
对于问题2,在问题1的基础下,根据所给的理化指标和葡萄酒的质量利用spss统计分析软件进行分析,相关性分析对数据进行预备分析,剔除与葡萄酒质量无显著性相关的指标,再利用系统聚类的方法对酿酒葡萄进行分级。
对于问题3,利用主成分分析法,对问题二得出的相关显著性整合后的酿酒葡萄理化指标与葡萄酒的理化指标进行分析,确定两者的相关系数以及多元回归方程,从而得出两者之间存在的联系。
对于问题4,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,且在确定葡萄酒的质量时,感官指标也会对其产生影响。
所以,由影响所酿葡萄酒质量有关的因素建立一个多元线性回归方程,并由此求出其相关系数,验证结果对错。
关键:T检验,方差分析,相关性分析,聚类分析,多元线性回归
1
一、问题的提出
通常确定葡萄酒质量时一般是通过一批有资质的评酒员对葡萄酒进行品评,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
但是每个评酒员的品味、风格等各有千秋,故导致最后葡萄酒的质量变化,同时葡萄酒的好坏和所用酿葡萄酒质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
通过对影响葡萄酒因素的综合计算,以得到葡萄酒质量与各影响因素之间的关系。
二、问题的假设
1.假设当时每个评酒员的精神处于最佳状态,即其感官分析很好。
2.假设所给的数据真实可靠。
3.假设两组品酒员都是随机分配。
4.假设在判断哪组更可信时候,忽略系统误差。
5.假设评酒员对待每一份酒样品都保持公平、公正的工作原则。
6.假设在简化问题的过程中,酿酒工艺等环节对葡萄酒的质量无影响。
三、符号说明
2
3
四、问题分析与模型求解
4.1.1、问题一:针对两组评酒员的评价结果,可分别对评酒员最终评出的葡萄酒的总分(即葡萄酒的质量)进行讨论,进而可以得出两组评酒员之间的差异,确定哪组可信度更高。
首先,查看附件1中的葡萄酒品尝评分表可以看出有两个可疑的数据,一个为第一组的白葡萄酒第3个样本的数据过大,而另一个为第一组红葡萄酒第20个样本则无数据。
针对数据过大的样本,该评酒员对样本的持久性评分为77分,而持久性的满分值为8分,显然不可能,由此可知数据77可能是由于某种原因而不小心多出一个7,即原先样本的数据应为7。
而对于无数据的样本,由数据表格可以看出,无数据的样本是由评酒员4评出,而观察评酒员4对其他样品的评价,始终比较保守,分数变化不大,故可用均值填补法,无数据的样本数据进行弥补,计算可得样本数据为5。
针对两组评酒员的评价结果,利用公式
90
c i j Ai ij ==∑,9
i Bij dij ==∑(j=1、2)
得出各组红,白葡萄酒的总分, 利用spss17.0软件分析工具中的Descriptive statistic 中的explore 对第一组白葡萄酒进行正态检验可得如下
表 1
图 1
正态性检验
Kolmogorov-Smirnov a Shapiro-Wilk
统计量 Df Sig. 统计量 df Sig. 得分
.123
28
.200*
.964
28
.425
图
2
4
5
综上可知,评酒员对第一组白葡萄酒的评价结果满足正态分布。
所以同理可得第二组白葡萄酒,第一组红葡萄酒和第二组红葡萄酒的评价结果都满足正态分布(详图见附录)
而对于该问题来说,目的是为了判断两组评酒员的评价结果是否有显著性差异。
又因为两组的评价结果都满足正态分布,故可用Compare means 中的paired-samples T test 来分析两组。
假设这两组评价结果无显著性差异,利用公式(查阅网上)
,1d
d
t df n S =
=- 其中d s 为差异标准误,计算公式为
:
d S =
=
=
式中:d 为两样本各对数据之差,即:
B j d Aij ij =- i=0、1…9 j=1、2
j d d n =∑;
借助软件spss17.0的Compare means 中的paired-samples T test 对第一,第
二组白葡萄酒进行配对T 检验,可得如下
表 2
、
表 3
成对样本相关系数
N 相关系数 Sig.
对1 G1 & G2 28 .241 .217
表4
对红葡萄酒进行配对T检验,可得如下(表5表6详见附件)
表7
并由 p>0.05 不显著差异
p<=0.05 显著差异
p<=0.01 非常显著差异
可得两组的值Sig<0.05,所以拒绝原假设,即两组评价结果有显著差异性。
4.1.2
针对“哪一组的结果更为的可信”,需要考虑到各组内、组间的系统误差和偶然误差,即可用方差分析法进行求解,所得的结果若组内各成员评分结果的方差较小时,说明该组的结果更可信,并且可用方差分析中的p值大小来进行比较,当p趋近于0时表明该组的评价结果更为的稳定,即可信度越高。
利用excel工具中的数据分析分别对第一组的红,白葡萄酒和第二组的红,白葡萄酒进行组内方差分析,可得如下表
6
通过上表可知,第一组白葡萄酒的评价结果的p值更接近于0,所以第一组白葡萄酒的评价结果的可信度更高。
对于红葡萄酒,第一组的p值也更接近于0,即第一组红葡萄酒的评价结果的可信度更高。
综上可得第一组评酒员的评价结果的可信度更高。
4.2
问题2:根据已知所给的理化指标以及从问题一推出的葡萄酒质量,要对这些酿酒葡萄进行分级,是属于SPSS中的聚类分析问题,目的就是为了求出酿酒葡萄的理化指标与葡萄酒的质量对酿酒葡萄的影响。
糖、酸、单宁、色素和芳香物质是构成酿酒葡萄品质优劣的要素。
由于考虑到酿酒葡萄的理化指标分为两种不同
7
的评级标准,以及有些指标多次测量,数据过于冗多。
由于理化指标中的二级指标大部分是一级指标的组成部分,故可只考虑一级指标。
而对于理化指标中的H1,H2,H3和C1,C2,C3三个二级指标对其求和分别为H和C,并将其当成一级指标来用。
但由于一级指标中并不是所有的指标都对葡萄酒的质量有着显著的影响,通过spss17.0的Correlate中的Bivariate分析,不同等级葡萄酒与总酚、单宁、总酸3个理化指标呈极显著相关(<0.01)并且总酚、单宁、总酸之间也呈显著相关。
接着利用相关性分析来判别哪些指标与葡萄酒的质量呈显著相关,通过spss17.0的Correlate中的Bivariate分析的进行相关性的整合后可得(图见附件)红葡萄的酿酒葡萄与花色苷、酒石酸、苹果酸、柠檬酸、多酚氧化酶活力、褐变度、DPPH自由基、总酚、单宁指标和葡萄酒的质量有显著关联。
白葡萄的酿酒葡萄与酒石酸、苹果酸、柠檬酸、总酚、单宁、总糖、还原糖和葡萄糖的质量有显著关联。
接着利用聚类分析法,通过spss软件进行聚类,并由此得出如下图(具体数据及相关矩阵具体见附录)
2 -+
9 -+-+
19 -+ +---+
10 -+-+ |
24 -+ +---+
20 -+ | |
21 -+-+ | |
4 -+ +---+ +---+
23 -+-+ | |
25 -+ | |
3 -+---------+ |
7 -+ +-----------+
8 -+---+ | |
11 -+ | | |
15 -+ +-----+ | |
16 -+-+ | | | |
18 -+ +-+ +---+ +---------------------+
22 ---+ | | |
5 ---+---+ | | |
14 ---+ +---+ | |
6 -------+ | |
26 -+-------------------+ | |
28 -+ +-----+ |
1 ---+-----------------+ |
17 ---+ |
12 ---+-----------------+ |
27 ---+ +---------------------------+
13 ---------------------+
图4 红葡萄酒的分级图
8
2 -+
9 -+-+
19 -+ +---+
10 -+-+ |
24 -+ +---+
20 -+ | |
21 -+-+ | |
4 -+ +---+ +---+
23 -+-+ | |
25 -+ | |
3 -+---------+ |
7 -+ +-----------+
8 -+---+ | |
11 -+ | | |
15 -+ +-----+ | |
16 -+-+ | | | |
18 -+ +-+ +---+ +---------------------+ 22 ---+ | | |
5 ---+---+ | | |
14 ---+ +---+ | |
6 -------+ | |
26 -+-------------------+ | | 28 -+ +-----+ |
1 ---+-----------------+ |
17 ---+ |
12 ---+-----------------+ | 27 ---+ +---------------------------+ 13 ---------------------+
图5 白葡萄酒的分级图
9
1
表 13 白葡萄的分级
4.3
问题3:分析1:葡萄酒中的理化指标有的是多次测量而来,故先把葡萄酒中用多次测量而来的指标先进行求和取平均值。
酿酒葡萄和葡萄酒理化指标之间的联系,可以对数据进行拟合,又因为酿酒葡萄和葡萄酒有着不同的理化指标,通过问题二已经得到经过红,白酿酒葡萄相关显著性整合后的各种理化指标,接下来对酿酒葡萄和葡萄酒的相关性进行分析,建立多元回归方程,令
()1,2, 3...1X X X Xn f Y = ()1,2, 3...2X X X Xn f Y =
…
()1,2, 3...X X X Xn n f Y =
即:
12233...i i i ni i n X X X Xn Y ααααε1=+++++
i=1、2 n=1、2...
对于红葡萄酒和红酿酒葡萄的关系,利用spss 软件的Dimension reduction 中的factor 对整合而成的两者数据进行因子分析,将损失信息不超过15%的主成分排除,得到最终的结果。
如下表
表 14
表15 红酿酒葡萄和红葡萄酒的理化指标关系矩阵
表16
由表14可得,1到5个主成分的累计贡献率达到了87.065%,即提取1到5五个主成分进行分析,并根据表16可以得出
11
1
2
111112131...0.3900.9020.8930.935X X X X n Y =++++ 121112131...0.6550.3260.2220.249X X X X n Y =--+-
……
151112131...0.4160.450.0040.085X X X X n Y =--+-
11111112345
Z =0.48777Y +0.20242Y +0.09152Y +0.05094Y +0.03800Y
而对于白酿酒葡萄和白葡萄酒的理化指标的关系,利用spss 同理可知(表格详见附录),1至7个主成分的累计贡献率达到了89.81%,即提取1到7号的主成分进行分析,可以得到如下方程
212122232...0.3480.8660.9080.713X X X X n Y =+++- 22=2122232...+0.5800.2300.102397X X X X n Y --+ 23=21222320....+0.0190.1220.146229X X X X n Y --++
……
27=2122232n 0....+0.1531670.100062X X X X Y --+
221222327Z =0.28868Y +0.16347Y +0.11871Y +...+0.04764Y
所以综上可得,酿酒葡萄的理化指标和葡萄酒的理化指标呈线性相关。
4.4
问题4:为了探究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,可以通过建立多元回归方程,将酿酒葡萄和葡萄酒的理化指标当做一般变量对于第一组红葡萄的线性回归模型可以表示为
111121121111112112111......n n m m i X X X Y Y Y c εβββδδδ+=+++++++ 第二组红葡萄的线性回归模型
12
21
22
12
2
112
11
22
12
2
12......n n
m m
i X X X Y Y Y
c εβββδδδ+=+++++++
第一组白葡萄的线性回归模型
13
21
23
22
3
213
21
23
22
3
21......n n
m m
i X X X Y Y Y
d ε
βββδδδ+=+++++++第二组白葡萄的线性回归模型为
13
14
21
24
22
4
214
21
24
22
4
22......n n
m m
i X X X Y Y Y
d εβββδδδ+=+++++++
而多元线性回归方程的参数估计通常采用最小二乘法估计估计,但是由于问题四的数据过于冗多,且有四个线性回归方程,故借助网络将最小二乘法的基本步骤记为如下
11
11
21
12
1
111
11
21
12
1
12
2
1ˆ()[()]......n n
m m
i X X
X X X X Y Y Y c βββδδδ=-=-+++++++∑∑
111122112112222211
22X X X X X X X X X X X X n n Y
n n Y nm n nY
n n b b b b b b b b b ⎧⎪
⎪⎨⎪
⎪⎩++
+=+++=++
+=
, =1,2,,n, j=1,2
()(), 1,2
,i
j
i j j
jY j j j X X
X X i n
X Y l X X Y Y X Y j m
n
-
⋅⋅⋅=--=-
=∑∑∑∑∑∑∑
1234
ˆ5943301424035150270606382Y ..X .X .X .X =++-+ 012:0m H βββ==⋅⋅⋅==, 1:j
H β⋅⋅⋅各(j=1,2,,m)不全为0, 0.05ε=
SS SS SS =+总回残
//1)SS m MS F SS n m MS =
=
--回回
残残
( ~(,1)F F m n m --
多元线性回归方差分析表
变异来源
自由度
SS
MS
F
P
总变异 n -1 SS 总
回 归 m SS 回 SS 回 /m MS 回/MS 残 残 差
n -m -1
SS 残
SS 残 /(n -m -1)
1
4
查F 界值表得31.4)22,4(01.0=F ,31.4>F ,01.0<P ,在05.0=α水平上拒绝H 0,接受H 1认为所建回归方程具有统计学意义。
2. 决定系数R 2
:
102≤≤R ,说明自变量m X X X ,,,21 能够解释Y 变化的百分比,其值愈
接近于1,说明模型对数据的拟合程度愈好。
而通过计算可得 247.5790.549186.654
R ==
表明葡萄酒质量的54.91%会受到酿酒葡萄和葡萄酒的理化指标的影响,所以认为不能完全根据葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
从现实的角度出发,一种品质极佳的葡萄酒,酿造它所用的葡萄必定是优质葡萄。
然而优质葡萄并不一定能够酿造出好的葡萄酒,因为葡萄酒是葡萄的发酵产品,所以葡萄酒的原料的质量、所采用的加工工艺及相应的陈酿技术都是影响其质量的重要因素。
从科学的角度出发,我们知道对葡萄酒的质量进行评价是通过感官指标和理化指标来实现的;葡萄酒理化指标分析是通过化学法和仪器法,而葡萄酒的感官指标则是通过视觉、嗅觉、味觉即感官分析来实现的。
另外葡萄酒的质量评价体系完全是根据人们对食物的各项指标的好恶感来制定。
人是决定其品质的主体。
因此葡萄酒的感官指标是评价葡萄酒质量的最终及最有效的指标,葡萄酒的质量检定,单单依靠化学分析或仪器分析,其理化性质即使完全符合国家标准,也是远远不够的,因为化学分析和仪器分析只能表示葡萄酒的化学成分或卫生指标。
无法表示酒的风味质量。
只有通过目测、鼻嗅与口尝,依靠视觉、嗅觉、味觉对酒的色泽、芳香、滋味做出精密的检定。
在品尝葡萄酒的四项指标中我们看到香气分析占到很大的比重。
这与葡萄和葡萄酒的芳香物质的存在有密切联系。
葡萄酒的芳香物质极为复杂、多样。
形成葡萄酒的外部嗅觉特征——香气是由几十甚至上百种的芳香物质构成,这些物质不仅气味各异,而且他们之间还通过累加作用,协同作用、分离作用以及抑制作用等,使香气多种多样。
葡萄酒的香气质量首先决定葡萄品种与发酵产生香气的比例及其优雅度。
葡萄酒的果香与酒香存在着相互协调,香气可以帮助我们判断葡萄酒的典型性,而这些因素是不能够通过葡萄与葡萄酒理化性质来确定的。
因此通过仪器测量到的各种理化性质不能够完全代替人的主观感受,只能够在一定程度上反映葡萄酒的品质程度。
而想要挑选出真正符合人们的感官指标的优质葡萄酒,只能够通过一些资深的品酒师通过切身品尝过后才能够确认。
这也是几百年来确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评的重要原因!
21SS SS
R SS SS ==-回残
总总
五、模型的评价与改进
5.1模型的评价:
虽然建立的模型使得问题得到了解决,但对于我们的模型,缺点还是很明显的。
如:
一、算法较为繁琐,不够便捷,且不够精密。
二、忽略了每组10个品酒员之间的差异。
三、所构造的数学模型还是不够明显,方法较为单一。
四,对于数据比较多的问题时所产生的数据过于繁多,不利于数据的处理。
虽然存在着缺陷,但是在实际的应用当中也有它独特的一面,如:
一、对于数据的拟合,采用多元线性回归方程,有效地把酿酒葡萄与葡萄酒的理
化指标之间的关系,及与葡萄之间的关系形象地表示出来
二、在解决问题时,充分应用spss软件以及excel软件,避免了冗长的代码编程,
灵活地解决了繁杂方程的求解。
三、数据处理能够将化繁为简,使问题简单化。
四、相关性分析可以了解葡萄酒各成分之间、各成分与感官质量之间关系密切程
度,结果可为葡萄酒的质量分析与控制提供依据,主成分分析可以明确对葡萄酒(感官)质量有重要贡献的成分指标,分析结果也是确定葡萄酒特征性成分的重要基础。
同时运用了聚类分析可以有效地区分不同来源、不同质量等级的葡萄酒,反应各样品的相似性,并根据其质量特点进行归类。
五、将统计学方法充分的应用于葡萄酒质量的分析与评价之中。
6.2模型的改进:
对于问题一,由于matlab具有完备的图形处理功能,实现计算结果和编程的可视化,在配对T检验之前,可以运用matlab软件来检验数据是否满足正态分布。
在确定可信度的时候,也可以运用matlab进行分析,功能丰富的应用工具箱(如信号处理工具箱,通信工具箱等等),并且利用matlab进行方差分析,能使问题变得更加的明朗和简便。
对于问题二,对理化指标进行相关性分析整合后,可以进行深入的分析——通径分析。
相关分析只是简单地估测了2个变量之间的关系(密切程度),而通径分析不仅能说明原因,而且能够准确地估测出各性状因子对因变量(感官得分)的相对重要性。
由于通径系数是自变量与因变量间有方向的相关系数,它表示的是在剔除其他因素影响后的作用。
因此,通径分析反应的是两者之间真正的关系。
所以在进行相关性系数分析之后,再进行通径分析,有利于实验数据的精确性的提高和减少误差。
同时,对葡萄酒进行分级,还可以利用模糊数学中的权重向量的选择,根据各项指标对质量影响的程度不同,用数学方法确定各项指标的权重量,从而得出模糊矩阵,再对其进行模糊运算,最后依据统计结果对各项指标的质量和整体质量的控制和改进。
对于问题三、问题四,对葡萄酒的理化指标应该进行相关显著性分析,排除与其不显著的理化指标。
同时,主要是采用的回归分析存在很多欠缺,如要求大量数据、计算量大以及可能出现反常情况等。
为克服以上弊病,可以采用灰色关
15
联度分析的办法来做系统分析关联度是把各个时刻的关联系数集中为一个平均值,即把过于分散的信息集中处理。
六、参考文献
[1] 韩中庚。
数学建模方法及其应用(第2版),北京:高等教育出版社,2009.6.
[2]李运,李记明,姜忠君。
统计分析在葡萄酒质量评价中的应用,酿酒科技报,2009,(04).
[3]霍红. 模糊数学在食品感官评价质量控制方法中的应用. 食品科学专题论述 , 2004,(06) .
16
七、附录第一问(利用spss和excel)
17
8 第二组白酒的正态分布图
1
第一组红葡萄酒的正态分布图
第二组红葡萄酒的正态分布图
成对样本统计量
均值 N
标准差 均值的标准误
对 1
G1 730.7407 27 73.57758 14.16001 G2
705.1481
27
39.77988
7.65564
成对样本相关系数
N
相关系数
Sig.
对 1
G1 & G2
27
.702
.000
成对样本检验
成对差分
t df
Sig.(双侧)
均值
标准差
均值的标准误
差分的 95% 置信区间
下限
上限
对 1
G1 - G2
25.59259 53.73672 10.34164
4.33505 46.85013
2.475
26
.020
红葡萄酒的配对T 分析
第二问:(利用spss 和excel )对于红,白酿酒葡萄的相关性整合,由于数据过多,故放在压缩包里
白酿酒葡萄相关整合后的数据
红酿酒葡萄相关整合后的数据。