数学建模葡萄酒的评价 大学毕业设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

葡萄酒的评价
摘要
葡萄拥有很高的营养价值,本文通过对葡萄酒的评价,以及酿酒葡萄和葡萄酒的理化指标之间的关系进行讨论分析,对不同的酿酒葡萄进行了分类,并更深入讨论两者的理化指标是否影响葡萄酒质量。

针对问题一,我们首先分别计算每类葡萄酒样品在两组组评酒师评价下的综合得分,以此作为每组评酒师的最终评价结果。

再运用统计学中的T 检验进行假设与检验,得出两组评价结果具有显著性差异。

最后通过计算各组评价员的评价结果的标准差,以此推算稳定性指标值P ,P 值较大的可信度较高,得出
2p p <红1红与2P P <白1白,进而得出第二组的评价结果更加可信。

针对问题二,我们分别对两组葡萄进行分类。

在这里我们采用聚类分析法和主成分分析法,在matlab 中实现对酿酒葡萄的分类。

针对问题三,根据σ
μ
-=
x Z 对附件2中的数据进行标准化处理,排除单位
不同的影响。

以酿酒葡萄的30个一级理化指标作为自变量X ,葡萄酒9个一级的理化指标作为因变量y,建立多元线性回归模型εβ+=X y ,得出酿酒葡萄的理化指标与葡萄酒的理化指标之间的联系即回归系数矩阵β。

针对问题四,用灰色关联度分析对两者的关系进行度量,求得理化指标对样品酒的的关联系数。

然后根据葡萄酒综合得分及指标的相关系数得出样品酒的综合指标,通过MATLAB 软件对综合指标与第二问中葡萄酒的分数进行指数拟合,拟合效果不佳,因此不能定量的用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,只能根据图像大致猜测综合指标与葡萄酒的质量负相关。

关键词:T 检验 聚类分析法 主成分分析法 Z 分数 多元线性回归
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。

每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。

酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。

附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。

请尝试建立数学模型讨论下列问题:
1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、问题分析
葡萄酒的评价是一个复杂的过程,需要综合考虑不同评价员的评分,而且葡萄酒和葡萄的组成成分非常复杂,它们也要影响葡萄酒的质量,对如此繁多的数据,我们就必须依靠计算机工具,运用数学统计学知识对它们进行处理,并找出各个含量之间的关系,联系生活实际,对葡萄酒作出有理有据的评价。

对于问题一:要想得到两组评价员的评价结果有无显著差异,并对它们的可靠性作出判断,我们首先就应该将两组评价员的对27组红葡萄酒和28组白葡萄酒的评价结果整理出来,求得葡萄酒的综合得分,再运用统计学中的T检验进行假设与检验,判断两组是否存在显著性差异,再通过计算各组评价员的评价结果的标准差和稳定性指标,进而判断谁的结果更加可信。

对于问题二:需要对葡萄进行分级,由于葡萄酒的质量与酿酒葡萄的好坏有直接关系,所以我们可以根据葡萄酒的质量对酿酒葡萄做一个简单的分级,之后,我们用主成分分析法算出每一组样本葡萄的哪些指标该葡萄的主成分,然后通过数据分析判断出这些成分哪些对葡萄酒的质量作出了贡献,筛选出主要成分后,对不同葡萄的成分做加权求和,以此作为葡萄分级的另一个依据。

对于问题三:要想得到葡萄与葡萄酒的指标间的联系,即得到它们之间的函
数关系表达式,必须求出两者指标之间的相关系数。

但是,由于它们各自的指标太多,此处仅以一级指标作为相关因素进行分析。

令酿酒葡萄的30个一级指标作为自变量,葡萄酒的9个一级指标作为因变量,建立线性回归模型,通过最小二乘法计算出回归系数,即酿酒葡萄的指标与葡萄酒的指标间的相关性。

对于问题四:题中想要求出理化指标对质量的影响,即各理化指标与质量的线性或非线性关系,但是,由于理化指标太多,并且并非没个理化指标都会对葡萄酒的质量造成影响,所以首先必须进行数据的筛选,这里我们使用spss软件进行典型相关性分析,找出哪些指标与质量有较大的关系,然后将这些指标设为自变量,将质量设为因变量,对它们进行多元线性拟合,最后得到一个多元表达式以后,我们就可以通过这个方程来对葡萄酒的质量进行验证,如果验证的结果与评价员打分的结果基本吻合的话,就说明可以用葡萄与葡萄酒的理化指标来对葡萄酒的质量进行评价。

三、基本假设
1、假设评酒员对每种葡萄酒的评价结果是大致符合正态分布的;
2、假设酿酒葡萄与葡萄酒中的芳香物质主要成分是:低醇、酯类、苯等,其余
成份忽略;
3、假设酿酒葡萄与葡萄酒的理化指标中一级指标为主要影响。

4、假设酿酒葡萄中存在的而葡萄酒中不存在的理化指标也会影响葡萄酒的理化
指标及质量;
5、假设不考虑多种葡萄可制成一种酒,只考虑一种葡萄制成一种酒;
6、假设只考虑红葡萄制成红葡萄酒,白葡萄制成白葡萄酒,忽略去皮红葡萄可
酿制白葡萄酒;
7、假设质量高的葡萄酒一定由质量好的酿酒葡萄制成,但是质量好的酿酒葡萄
不一定能酿制成质量高的葡萄酒;
A表示第i瓶酒的第j个指标无量纲化后的值
8、
ij
B表示第i种酿酒葡萄的第j个指标无量纲化后的值
9、
ij
M表示第i瓶酒的综合指标
10、
i
四符号说明
:
T统计量T
:
khij
a第k组序号为h的样品第i个指标第j个品酒师的给分
:
khi
a序号为h的样品中第i个指标第k组10位品酒师给分的平均值
:
khi
S第k组序号为h的样品第i个指标10位品酒师评分的标准差ki
b:第k组第i个指标所占权重
:
kh
x第k组序号为h的样品的稳定性指标
k :
p

第k组红葡萄酒的评分总平均稳定性指标
k :
P

第k组白葡萄酒的评分总平均稳定性指标
ij
X: 为第i个样品的第j个指标
i
s: 第i个葡萄样品的总得分
i
σ: 第i个样品葡萄理化指标得分为
1,2
k=
其中:第一个指标指澄清度,第二个指标指色调,第三个指标指香气纯正度,第四个指标指香气浓度,第五个指标指香气质量,第六个指标指口感纯正度,第七个指标指口感浓度,第八个指标指持久性,第九个指标指口感质量,第十个指标指平衡/整体评价。

五模型建立与求解
5. 1 问题一:葡萄酒评价结果的显著性差异及可信度分析
5. 1. 1 葡萄酒评价结果数据预处理
对附件1中数据通过Excel筛选观察时可发现某些数据错误,如:第一组红葡萄酒品尝评分中酒样品20号下4号品酒员对于外观分析的色调评价数据缺失;第一组白葡萄酒品尝评分中酒样品3号下7号品酒员对于口感分析的持久性评价数据为77,明显超过该项上限8;第一组白葡萄酒品尝评分中酒样品8号下9号品酒
员对于口感分析的持久性评价数据为16,明显超过该项上限8等。

对这些异常数据为减少其对于总体评价结果的影响,采取预处理:取该酒样对应误差项目其余品酒员评价结果平均值替代该异常数据。

经过数据预处理可得出每一种类葡萄酒的综合得分,建立表1与表2。

表1 红葡萄酒总得分平均值
红酒n 12345678910第一组62.780.380.468.673.372.273.772.381.574.2第二组68.17474.671.272.166.365.36678.268.8 11121314151617181920
第一组
70.153.974.67358.774.979.359.978.679.2 2
第二组61.668.368.872.665.769.974.565.472.675.8 21222324252627
第一组77.177.285.67869.273.873
第二组72.271.677.171.568.27271.5
根据表1,用excel 作出两组评酒师对每一类葡萄酒的评分折线图。

图1
表2 红葡萄酒总得分平均值
白酒n 1 2 3 4 5 6 7 8 9 10 第一组82 74.2 78.3 79.4 71 68.4 77.5 70.4 72.9 74.3 第二组77.9 75.8 75.6 76.9 81.5 75.5 74.2 72.3 80.4 79.8
11 12 13 14 15 16 17 18 19 20
第一组 72.4 63.3 65.9 72 72.4 74 78.8 73.1 72.2
77.8 第二组 71.4 72.4 73.9 77.1 78.4 67.3 80.3 76.7 76.4 76.6
21 22 23 24 25 26 27 28 第一组 76.4 71 75.9 73.3 77.1 81.3 64.8 81.3 第二组
79.2 79.4 77.4 76.1 79.5 74.3 77 79.6
根据表2,用excel 作出两组评酒师对每一类葡萄酒的评分折线图。

图2
根据图1、 图2可初步简单看出两组评酒师的评价结果存在有显著性差异。

5.1.2 葡萄酒评价结果差异性分析与可信度分析模型建立与求解 (1) t 检验模型建立
首先假定两个总体平均数间没有显著差异,即 210:μμ=H
查T 值表,比较计算得到的T 值与理论T 值,推断发生概率(一般为95%)。

两个正态总体的均值检验模型
假设 n X X X ,...,,21 是来自总体(
)
21
1,σμN 的样本n
Y Y Y ,...,,2
1
是来自总体(
)
222,σμN 的样本,且两样本独立。

设1μ ,2μ和2
22
1,σσ 均未知,其检验问题为
210:μμ=H . 且
()2t ~11)
(212
1321-++
---n n n n S Y X μμ.
当0H 为真时,统计量T 的计算公式
()2~11212
13-++
-=
n n t n n S Y
X T .
式中,
()()2
11212
222113-+-+-=
n n S n S n S .
查T 值表,比较计算得到的T 值与理论T 值,推断发生概率(一般为95%),其中α 为显著性水平,05.010095-1==α
因此当05.0< T 则认为0H 不成立,两组评酒员对红葡萄酒的评价结果有显著性差异。

(2)两组评酒员对红葡萄酒的评价结果比较: 分别计算出 7.3426 S ,73.0556 ,2711 ===X n
3.9780 S ,70.5148 ,27n 22=== Y
05.00210.0<=T ,说明该两组评酒员对红葡萄酒的评价结果有显著性差异。

(3)两组评酒员对白葡萄酒的评价结果比较: 分别计算出 4.8266 S ,73.9786 ,2811 ===X n
3.1709 S ,76.5321 ,28n 22=== Y
05.00129.0<=T ,说明该两组评酒员对白葡萄酒的评价结果有显著性差异。

5. 1. 3可信度分析模型建立与求解 :
第k 组序号为h 的样品 第i 个指标10位品酒师给分的平均值
10
1
=
10
khij
j khi a
a =∑
第k 组序号为h 的样品第i 个指标10位品酒师的标准差
10
2
1
()10
khij
khi j khi a
a S =-=

算出第k 组序号为h 的样品的稳定性指标
10
1
kh khi ki i x S b ==∑
第k 组红,白葡萄酒的评分总平均稳定性指标 27
1
kh
h p x
==
∑红k 28
k 1
kh
h p x
==
∑白
计算求得:
27
1
136.90kh h p x ===∑红1 27
1
115.13kh h p x ===∑红2
比较红葡萄酒的两组总平均稳定性指标,因为2p p <红1红,所以第二组品酒师的
评价结果更可信。

2811
179.58kh h p x ===∑白 28
21
129.13kh h p x ===∑白
同样,比较白葡萄酒的总平均稳定性指标,因为2
P P <白1白,所以第二组品酒师的评价结果可信度更高。

5.2问题二:
根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

问题二 求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,葡萄酒由酿酒葡萄酿制而成,则酿酒葡萄的质量与葡萄酒的质量有着直接的关系,则可以根据葡萄酒的质量对酿酒葡萄做一个简单的分级,在根据主成分分析从葡萄的理化指标中筛选出对葡萄质量产生影响的主要因素,根据所得各主要因素的贡献率给个因素加权作为系数,求出葡萄中主成分的含量,并进行排名,之后将此排名与之前根据葡萄酒质量所得出的排名综合,进而得出较准确的对酿酒葡萄的分级。

5.2.1 K 均值法聚类分析模型 k 均值法的基本步骤:
(1)选择k 个葡萄酒样品作为初始凝聚点,或者将所有葡萄酒样品分成k 个初始
类,然后将这k 个类的重心(均值)作为初始凝聚点。

(2)对除凝聚点之外的所有葡萄酒样品逐个归类,将每个葡萄酒样品归入凝聚点
离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有葡萄酒样品都归了类。

(3)重复步骤(2),直至所有的葡萄酒样品都不能再分配为止。

最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。

经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。

也就是:先算各类的均值再算各类中样本到本类及其他类的均值的绝对值距离(欧氏距离)将葡萄酒样本重新归类到欧氏距离较小的类中(重新归类就得算均值)
首先,根据第一问得出的结果,我们采用第二组评酒员的结果作为判断葡萄酒质 量的依据,根据各葡萄酒的分数,我们得出了红葡萄酒和白葡萄酒的排名 ,虽 然是葡萄酒质量的排名,但由于葡萄酒的质量由酿酒葡萄的质量决定,所以上表 可以看作是葡萄质量的排名,以上表中葡萄酒的分数作为酿酒葡萄质量的分数, 可以对酿酒葡萄作出初步的分级,针对葡萄酒的成绩,我们用聚类分析的方法, 得出了葡萄的初步分级,运行的得到的图样如下:
-0.200.2
0.40.6
0.81
1
23
4
Silhouette Value
C l u s t e r
红葡萄酒K 均值聚类
图 3
0.2
0.4
0.6
0.8
1
1
23
4Silhouette Value
C l u s t e r
白葡萄酒K 均值聚类
图 4
根据上述结果,得出红、白葡萄酒的等级分类,建立表3,表4. 表 3 红葡萄酒等级分类
等级 酒样品号 A 1,10,12,13,16,25 B 4,5,14,19,21,22,24,26,27
C 6,7,8,11,15,18 D
2,3,9,17,20,23
表 4 白葡萄酒等级分类
等级 酒样品号
A 5,9,10,15,17,21,22,25,28
B 1,2,3,4,6,14,18,19,20,23,24,27
C 7,8,11,12,13,26
D
16
5.2.2 主成分—权值分级模型
虽然酿酒葡萄所对应葡萄酒的质量能在一定程度上反映酿酒葡萄的质量,但葡萄的质量还应以葡萄本身的成分来区分其级别,为了得到更准确的分级,我们又对附件中所给酿酒葡萄中的理化指标做了一些分析。

为了综合考虑酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,将附件3中芳香物质含量总和作为一个一级理化指标,设第i 个样品葡萄理化指标得分为i σ,葡萄酒的质量总分为i ω,则第i 个葡萄样品的总得分i s 可以表示为
10,)1(<<-+=θωθθσi i i s
(5.2.2.1)
选取一个使得样品趋于较稳定值的θ,此时的θ可作为酿酒葡萄的分级权值。

(1)首先对各理化指标进行归一化处理,酿酒葡萄一级理化指标中样本有n 个,指标有m 个,分别设为m X X X ,...,21,令ij X 为第i 个样品的第j 个指标。

做变换
j
i
ij ij s X X N -=
(5.2.2.2)
得到标准化的数据矩阵m n ij N N ⨯=)(,其中
∑∑==--==n i j ij j n i ij j X X n s X n X 1
21)(11,1 (5.2.2.3) (2)在标准化数据矩阵N 的基础上计算ϕ个原始指标相关性系数矩阵 m n ij r R ⨯=)(
其中 ∑∑∑===----=
n
k j
kj n
k i ki n
k j kj i ki
ij X X
X X
X X X X
r 1
2
1
1
)()
()
)(( (5.2.2.4)
(3)求相关性系数矩阵R 的特征值并排序m λλλ≥≥≥...21,再求出R 的特征值的相应的正交单位化特征向量T m i i i i l l l l ),...,(21=,则第i 个主成分可表示为各指
标k X 的线性组合∑==m
i k ki i X l Z 1。

计算综合得分。

首先计算得到第i 个样本中第k 个主成分的得分为
∑==m
j j ki ik X l F 1
,再以ϕ个主成分的方差贡献率为权重,求得第i 个样品的综合得
分),...2,1(1
n i F f m
i k ik i ==∑=λ。

5.2.2模型求解:
表5 红葡萄样品主成份及其排序
表 6 红葡萄样品综合得分 葡萄样品号
综合得分 分数排序 对应样品号 样品分差值
1 74.5 89.3 9
2 67.0 88.6 2
3 0.7 3 80.6 84.6 20 4.0
4 48.9 82.
5 22 2.1 5 59.4 80.
6 3 1.8 6 76.5 77.5 12 3.2
7 42.7 76.5 6 1.0
8 66.3 76.0 18 0.5
9 89.3 74.5 1 1.5 10 54.4 67.7 13 6.3 11 67.5 67.5 11 0.3 12 77.5 67.0 2 0.5 13 67.7 66.3 8 0.7 14 46.3 66.0 26 0.3 15 42.9 59.4 21 6.6 16
51.6 59.4 5
0.1
主成份序列 1 2 3 4 5 6 7 主成份 花色苷 缬氨酸 干物质含量 顺式白藜芦醇苷
PH 值 多酚氧化酶活力 果梗比 主成份序列 8 9
主成份
酪氨酸
百粒质量
17 53.9 54.4 10 5.0
18 76.0 53.9 17 0.5
19 49.6 52.4 27 1.5
20 84.6 51.6 16 0.8
21 59.4 49.6 19 2.0
22 82.5 49.1 24 0.5
23 88.6 48.9 4 0.1
24 49.1 47.4 25 1.5
25 47.4 46.3 14 1.1
26 66.0 42.9 15 3.5
27 52.4 42.7 7 0.2
对综合得分相邻样品分差值进行分析,当其值达到3.5及以上,认为两酿酒葡萄的品质差异较大,不能分在同一级,按照此方法,红葡萄可分成六级,一级到六级表示葡萄品质逐渐降低,具体情况如下表:
表 7 红葡萄分级结果
级数红葡萄样品号
一级9 23
二级 1 3 6 12 18 20 22
三级 2 8 11 13 26
四级 5 21
五级 4 7 10 15 16 17 19 24 25
六级27
本模型中主要以红葡萄样品的相关数据进行分级,按照同样的方法将白葡萄的相关数据代入,求得白葡萄分级如下:
表 8 白葡萄分级结果
级数白葡萄样品号
一级27
二级 1 4 10 15 18 22 23 28
三级 5 6 12 13 17 20
四级 2 3 14 16 21 24 25
五级7 8 9 11 19
5. 3 问题三:分析酿酒葡萄与葡萄酒的理化指标之间的联系
5.3.1 数据预处理标准化及综合理化指标
在处理附件2中数据时可以发现某些存在异常的数据值,如:葡萄理化指标
中白葡萄百粒质量的第三次检测值为2226.1 g ,明显超过其它两次的检测值。

为避免异常数据值对分级结果的影响,取其它两次值的平均值替代该异常值。

同时对数据进行标准化处理,取其z 分数:σ
μ
-=
x Z :
其中,x 为变量值, μ 为平均数, σ 为标准差。

Z 分数表示的是此变量大于或小于平均数几个标准差。

由于z 分数分母的单位与分子的单位相同,故z 分数没有单位,因而可以用Z 分数来比较两个从不同单位总体中抽出的变量值。

同时将原始数据直接转化为z 分数时,常会出现负数和带小数点的值。

5. 3. 2多元线性回归模型 (1)模型建立
观察所给附件中的数据易知,影响酿酒葡萄与葡萄酒理化指标的因素往往不止一个,所以建立多元线性回归模型求解酿酒葡萄与葡萄酒两者理化指标之间的联系。

设变量Y 与变量 P X X X ,...,,21间有线性关系
εββββ++++=P P X X X Y ,...,22110 .
式中,()
P N βββσε,...,,,,0~102和2σ是未知参数,2≥P 。

设n i y x x x i ip i i ,...,2,1,),,...,,(21= 是()Y X X X P ,,...,,21 的n 次独立观测值,则多元线性模型可表示为
n i x x x y i iP P i i i ,...,2,1,...,22110=++++=εββββ. 式中,()
2i ,0σεN ∈,且独立同分布。

可用矩阵形式表示,令

⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎣⎡=
⎥⎥⎥
⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=n np n n p p p n x x x x x x x x x X y y y εεεεββββ...,...1..................1...1,...,...y 212122221112111021 则多元线性模型可表示为 εβ+=X y 。

式中()()n I Var E 2,0σεε== . (2)模型求解
类似于一元线性回归,求参数的估计值,就是求最小二乘函数
()()()βββX X Q T
--=y y .
达到最小的β值,可以证明的最小二乘估计
()y 1
T T X X X -∧
=β.
从而可得经验回归方程为 P P X X X Y ∧
∧∧∧∧+++=ββββ,...,22110 .
将酿酒葡萄看做自变量,葡萄酒看做因变量。

注意,计算时用的是经过处理后的Z 分数表。

我们用() 301≤≤i X i 表示酿酒葡萄的30个一级指标,作为自变量X ;用
()91≤≤j Y j
表示葡萄酒的9个一级指标,作为因变量y 。

其中,理化指标的编号顺序依照所给附件中的大小顺序。

例如,红葡萄酒中理化指标顺序依次为花色苷、单宁、总酚、酒总黄酮、白藜芦醇、DPPH 半抑制体积、L 、a 、b 。

经过MATLAB 对回归系数的最小二乘估计计算,得出回归系数
() 3010,...,,βββ,即自变量与因变量之间的联系,见附表。

根据回归系数表得出两者之间的正负相关性,其中数字为酿酒葡萄理化指标编号。

表 9 酿酒红葡萄与红葡萄酒正相关回归系数
表 10 酿酒红葡萄与红葡萄酒负相关回归系数
负相关
花色苷
单宁
总酚
酒总黄酮 白藜芦醇
DPPH 半抑制体积
L* a* b*
9 15 19 6 8 18 23 26 19 29 23 29 20 28 29 27 14 25 18 29 28 7 30 23 1 28 20 15 9 25 23 18 27 16 4 24 25 25 9 21 5 15 6 17 23 1 5 1 25 29 25 19 23 29 30
6
11
15
17
30
10
20
15
正相关
花色苷
单宁
总酚 酒总黄酮 白藜芦醇 DPPH 半
抑制体

L*
a*
b*
10 10 17 17 13 17 22 13 17 17 17 16 12 22 10 26 27 14 12 20 4 4 23 12 11 6 8 16 16 12 16 11 16 30 5 4 8 21 14 18 14 20 9 1 18 20 12 8 14 20 14 25 18 5 6 7 10 5 27 21 21 3 13 4 4 20 8 25 4 24 19 16 7 14 7 13 4 8 29 8 1 21 3
13
10 1 6 28 15 27 14 24 18 24 19 1 15 12 7 28 28 24 3 3 13 20 3 3 8
3 28 21 5 11 2
4 19 5
9 9 28 30 19 21 29 7 7 12 5
23 19 19 13 1 3 23 9
24
27 1 6 30 6 26 12 7 21 26 18 15 27 15 11 3 25 26 11 11 30 11 26 22 5 22 9 22 30 27 26 16 7 30 28 13 26 22 24 14 29 6 27 22 12
4 21 10 26 10 13 9 22
22
18 10
8 16 17 24
11
表11 酿酒白葡萄与白葡萄酒正相关回归系数
表12 酿酒白葡萄与白葡萄酒负相关回归系数
正相关
单宁
总酚
酒总黄酮 白藜芦醇
DPPH 半抑制体积
L*
a*
b*
30 18 30 9 20 24 2 1 4 22 16 12 21 11 18 30 23 3 29 4 3 18 14 12 15 24 12 15 18 23 17 9 27 6 11 1 22 16 20 27 29 21 23 23 13 10 24 15 12 2 15 10 24 30 8 16 16 28 9 27 2 26 6 29 11 26 27 7 17 2 21 4 10 23 5 5 19 29 11 5 26 7 4 26 25 7 5 9 12 10 28 22 19 5 14 26 4 28 18 20 8 5 10 17 6 13 7 3 14 26 23
25
5. 4 问题4灰色关联度分析模型
5. 4. 1模型的建立
若要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,则应该先求出它们的相关性。

本题应用灰色关联度分析对系统两者的关系进行度量。

灰色综合分析用以下模型
W Y R ⨯=.
R 为M 个被评价对象的综合评价结果向量:W 为N 个评价指标的权重向量:E 为评判矩阵。

)(k i ς为第i 个被评价对象的第k 个指标与第k 个最优指标的关联系数。

根据
负相关
单宁
总酚
酒总黄酮 白藜芦醇
DPPH 半抑制体积
L* a* b*
1 25 26 13 1 14 2
2 7 28 1
3 1 25
4 6 4 23 2 19 7 8 10 9 7 28 7 1 6 22 1
5 25 27 2
6 22 8 13 28 9 12 29 11 8 2
7 2
8 24 5 8 15 25 6 15 8 1
9 23 3 12 10 13 4 25 6 12 15 16 13 25 11 14 14 27 13 9 22 24 9 18 20 29 19 30 19 19 5 22 18 11 21 1 8 17 10 19 2 30 1 17 14 30 24 17 16 28 3 3 29 17 21 27 6 20 16 2 3 17 20 21 20 20 14 3 21 21 2 18
24
R 的数值,进行排序。

设],...,[21n j j j F =,此最优序列的每个指标值可以是各个评价对象的最优值。

式中i k j 为第i 个葡萄样品第k 个指标的原始数值
由于评价指标间有不同的量纲和数量级,故不能直接进行比较,因此需要对原始指标进行规范处理。

则可以用下式将原始数值变成无量纲值
)
1,0(∈i
k C
i
k k k i
k i k
j j j j C --=21
,i=1,2,...m; k=1,2,...n. 根据灰色系统理论将},...,{}{*
*2*1*n C C C C =.
作为参考数列将},...,{}{21i n i i C C C C =作为比较数列,则用关联分析法分别求
得第i 个被评价对象的第k 个指标与第k 个指标最优指标的关联系数,、即:
i
k K
i
k
i k
K
i k K i k
i k K k
i
i C C C C C C C C -+--+-=
***
*min min min min min min ρρς.
上式中:),1,0(∈ρ一般取5.0=ρ. 这样综合评价的结果为:
W E R ⨯=
如果关联度i r 最大,说明}{C 与最优指标}{*C 最接近,据此可排出被评价对象的优劣次序。

5.4.2模型的求解
选取五种理化指标和六种葡萄酒进行研究,具体数据见表: 部分理化指标数据
指标 葡萄样品14 葡萄样品18 葡萄样品24 葡萄样品 8 葡萄样品 4 葡萄样品 12 乙醛 0.344 4.165 4.619 2.897 1.304 1.294 乙醇 41.144 77.416 77.457 81.064 55.189 76.219 1-己醇 0.411 2.946 1.621 2.213 1.166 2.369 1-辛醇 0.629 1.161 6.152 1.789 1.848 1.835 苯乙醇
10.469
43.048
11.499
13,.617
8.298
22.898
0617
.4)()(0617
.4067.0)
()(min min )()()()(min min min min 0000*+-+=
-+--+-=
k X K X k X k X k X k X k X k X C C i i i
k
i i i
k
i
k K k
i
i ρρς.
设分辨系数为0.5 将值带人
max
max
min )(∆+∆∆+∆=
ρςk i 中,运用matlab 求得
1ς={0.9980 0.9964 0.3337 0.9962 0.9974 0.9963} 2ς={0.9995 0.9981 0.3334 0.9995 0.9997 0.9989}
3ς={0.5371 0.8057 0.7110 0.7546 0.4160 0} 4ς={0.4357 0,7672 0.5516 0.7110 0.3643 0}
5ς={0.4281 0.7380 0.5516 0.6059 0.3333 0} 计算关联度),(0i X X R ,由公式
∑==10
1
)(1i i i k n R ς.
分别计算出乙醛,乙醇,1-己醇,1-辛醇,苯乙醇的关联度
2244.3,6344.3,7854.3,3142.4,9980.054321=====R R R R R . 得出结论15432R R R R R >>>>.
同理可得:白葡萄酒的关联度大小关系为:51234R R R R R >>>>.
由以上说明醇类物质等理化指标对葡萄酒的质量有重要影响,然而影响葡萄及质量的因素不止这些。

比如:葡萄果实中糖的成分的多少,是制约发酵后葡萄酒的酒精度的要素。

因此我们建立了综合指标评价模型来论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。

5.4.3 综合指标评价模型: 模型建立:
综合指标计算公式:
121212..+......
+i in i in i i i i in i in ij in ij
ij in A B A B M A A A B A B A B A A B =+与正相关的之积与正相关的之积
与负相关的之积与负相关的之积
与正相关的之积与负相关的之积
每一瓶酒对应一个综合指标
红葡萄酒有27个综合指标i M (127
i ≤≤)
白葡萄酒有28个综合指标i M (128i ≤≤) 5.4.4 模型求解:
利用计算机编程求解出每瓶葡萄酒的综合指标i M (程序见附录)见下表: 红葡萄酒编号 分数 综合指标 白葡萄酒编号
分数 综合指标 1 68.625 35 1 78.25 151 2 73.625 62 2 76.75 5594 3 75.125 33 3 78 14 4 71.625 7092 4 77.375 577 5 72.25 181 5 81.375 32 6 66.25 1489 6 75.625 11 7 66.5 25407 7 74.875 30 8 66.375 60 8 72.75 735 9 78.5 132 9 82.625 630 10 68 8 10 80.875 229 11 62.375 213 11 71.375 505 12 68.75 20958 12 74.5 30 13 68.5 4898 13 74.5 284 14 72.75 9 14 77.625 6398 15 66.25 8714 15 79.125 21 16 69.625 95 16 66.875 13 17 74.75 64 17 80.75 376 18 64.875 45532 18 77 23 19 72.875 88 19 76.875 7467 20 76 53276 20 77.375 15 21 72.5 16 21 81.125 343 22 71.875 132 22 79.875 66 23 77.625 157 23 77.25 20 24 71.625 127 24 76.625 184 25 67.25 14012 25 81.875 29 26 71.75 1596 26 75.875 2257 27 71.125
978 27 77.875 1021
28
79.5
12
利用matlab拟合综合指标的值与第二问中葡萄酒的分数得到下图:红葡萄酒:
去除一个奇点后用指数函数拟合得下图:
拟合结果:
f(x) = a*exp(b*x)
a = 6.06e+011 (-1.011e+013, 1.132e+013)
b = -0.2746 (-0.5484, -0.0007818)
R-square: 0.1055
白葡萄酒:
用指数函数拟合后如下图:
拟合结果:
f(x) = a*exp(b*x)
a = 1215 (-2.173e+004, 2.416e+004)
b = -0.002948 (-0.2472, 0.2413)
R-square: 0.000322
由R-square值可以看出两组曲线拟合的结果不好,变换拟合函数尝试数次后所得拟合结果均不理想,因此我们认为不能定量的用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,只能根据图像大致猜测综合指标与葡萄酒的质量负相关
六模型评价
优点:
1.本文在建模过程中,使用了建模与软件分析相结合的方法,提高了计算结果的准确性;
2.本文在求解是对同一问题使用两种不同方法,使模型得出的结果更加可靠;
3.本文在建模过程中使用的方法简单有效,在原模型的基础上又有一定的创新。

缺点:
通过经验设定综合指标进行求解,简化了相应的数学模型,只是缺少对综合指标设立的检验,依据性不强。

七参考文献
[1]陈光亭裘哲勇《数学建模》高等教育出版社 2010年2月
[2]王宏洲《数学建模优秀论文》清华大学出版社 2011年9月
[3] 姜启源、谢金星、叶俊,《数学模型》(第四版),北京:高等教育出版社,2011年。

[4] 白凤山、么焕民等,《数学建模》(上册),哈尔滨:哈尔滨工业大学出版社,2003年。

附录
酿酒红葡萄与红葡萄酒理化指标的回归系数 酿酒白葡萄与白葡萄酒理化指标的回归系数
X(j) Y(i) 1
2
3
4
5
6
7
8
9
1 -0.2939 -0.2183 -0.0856 0.0307 0.3886 0.4114 -0.153
2 0.5279 0.6025 2 0 0
3 0.231 0.1927 0.2919 0.245
4 0.1444
0.148 -0.5035 0.2596 0.2488
4 0.529
0.4011 0.9345 1.0331 0.5891 0.4825 -0.7737 -0.0263 1.0347
5 0.105
6 -0.1402 0.2693 0.6886 -0.1335 0.3276 -0.5174 0.6513 0.7406 6 0.5844 -0.1459 -0.3268 -0.0156 -0.4844 0.4458 -0.1949 0.8651 -0.791
7 7 0.4028
0.49 0.5139 -0.0761 0.0478 0.2471 -0.5586 -0.304 0.3219
8 0.6757 0.0145 0.6445 0.6113 -0.0212 0.4536 -1.0604 0.2364 1.1306 9 -0.0419 -0.0722 -0.0853 0.1631 0.0715 0.1099 0.3072 -0.6609 -0.6592 10 1.3882 1.8048 0.5808 0.4203 -1.5631 1.4905 -0.3176 -0.6871 -1.3317 11 -1.1797 -0.263 -0.1758 -0.8132 0.8668 -1.2125 0.5416 -1.4323 0.1555 12 0.9062 0.6548 0.9026 1.6602 -1.0225 1.3666 -0.3772 0.007
0.0302
13 0.0496 -0.6012 0.4262 0.533 2.3083 0.3761 -0.9561 1.7484 0.7294 14 0.2344 0.3817 0.8542 0.6955 0.8293 0.5723 -0.6883 -0.0012 1.2336 15 -0.0709 -0.0124 -0.4332 -0.4714 -0.6982 -0.4123 0.1668 0.1659 -0.259 16 0.8285 1.1222 0.9616 0.9258 -0.814 1.2234 -0.1732 -0.7652 0.607 17 1.1235 1.2208 1.6108 1.9935 -0.3962 2.0512 -1.4189 -0.2267 1.8726 18 -0.0657 -0.2189 0.383 0.8614 -0.0723 -0.0175 -0.9748 0.4732 0.88
19 0.1501 0.0028 -0.0119 0.0729 0.3857 0.2368 -0.2282 0.2397 -0.0582
20 0.6079
1.128 0.5376 -0.0742 0.7205 0.7836 0.0646 -0.2808 -0.0729
21 0.3471 0.9831 0.2625 -0.2197 0.1026 0.4886 0.2927 -0.4963 -0.3998 22 -1.8162 -1.2592 -2.4526 -3.1305 1.1578 -2.8233 2.7169 -0.3318 -3.4018 23 0.027 -0.0191 0.162 -0.1046 1.0528 -0.209 -0.0944 -0.243 -0.1614 24 0.1548 0.1717 0.2942 0.289 -0.956 0.062
0.2645 -0.9549 -0.0903
25 -0.2798 -0.0856 -0.0768 -0.3933 0.593
-0.595 0.3013 -0.3295 -0.0625
26 -0.7894 -0.7781 -1.1092 -0.9787 -0.7182 -0.9881 0.853 -0.0008 -0.5969 27 -0.5975 -0.6561 -0.7757 -0.632 0.6272 -0.2544 -0.1186 1.3705 0.4788 28 0.234
0.1088 -0.0678 0.2182 -0.0548 0.2844 0.2286 -0.0219 -0.7358
29 -0.0488 -0.0693 -0.0231 0.0739 -0.254 -0.0789 0.2442 -0.3972 -0.2566 30
-0.5334 -0.4797 -0.4833 -0.4922 -0.0631 -0.6429 0.3917 -0.3735 0.0374
X(j)
1 2 3 4 5 6 7 8
Y(i)
1 -0.0775 -0.356
2 -0.6008 3.261 -0.1584 -1.6267 -3.4304 2.8726
2 -0.4117 0.7757 -6.4361 -8.2351 2.2334 0.7822 3.6066 -3.6274
3 -2.6326 1.9255 -11.3309 -9.7403 3.8201 -0.631 0.575
4 -1.6698
4 1.6394 -0.8679 2.1053 4.4843 -0.3614 0.2301 -0.7366 0.8229
5 0.4905 -1.3439 2.893
6 0.3865 -1.4309 0.140
7 1.222
8 0.1245
6 -1.2524 1.161
7 -2.7305 -5.9449 0.573 -0.130
8 2.1114 -1.8379
7 -0.4337 0.5813 -1.117 0.4249 0.4609 0.5381 -0.7685 -0.0288
8 -1.1394 -0.5186 -3.4291 -4.0037 1.0231 -0.3696 2.2561 -1.5621
9 0.5912 -1.0864 3.0313 5.6021 -1.2914 -0.2634 -2.4473 2.2716
10 0.6779 -1.3482 1.463 1.9829 -0.5556 1.1763 0.8845 -0.9102
11 0.9226 -1.0227 4.9893 6.3579 -2.2537 2.4754 1.2613 -0.697
12 1.0663 0.5341 5.6371 4.7425 -1.6584 -0.3612 -1.8254 2.2747
13 -1.3251 -0.3077 -2.9018 -2.6694 2.5179 -0.7141 0.5961 -1.0277
14 -2.3273 0.479 -4.9301 -6.4373 0.0256 -0.1095 2.9802 -2.5721
15 1.5029 -0.7992 3.9164 3.6208 -0.6783 -0.6478 -1.7823 2.0314
16 1.0012 -3.3688 8.5862 11.9411 -3.3467 1.535 -2.3658 1.9128
17 -2.1801 0.059 -6.3435 -8.4873 1.9533 -2.0081 2.7645 -1.5679
18 0.2879 4.2003 -5.0452 -7.6429 3.2976 1.718 3.1645 -3.6815
19 -2.1442 -0.3103 -5.5205 -4.927 1.6575 -0.898 1.1746 -1.4916
20 -3.1746 0.3342 -8.3392 -6.6164 5.4792 -2.2411 2.5988 -2.1958
21 -4.1039 0.9201 -12.1479 -8.876 4.5047 -1.4265 1.6016 -3.1538
22 -0.8488 2.7882 -5.0948 -4.0381 2.5998 0.4599 -0.3086 -1.1178
23 1.5818 0.6136 4.3816 3.0509 -1.4371 1.6705 0.4239 -0.3453
24 -2.1007 1.3185 -5.7827 -4.7249 2.2502 2.8834 2.5813 -4.3033
25 -1.5962 -0.2168 -3.9852 -2.8715 1.329 -0.3306 0.2634 -0.7551
26 0.6102 0.6181 -0.0937 0.2283 1.0596 0.814 0.5245 -0.6934
27 1.1826 -0.6385 2.9253 1.3685 -1.8168 -1.9137 -0.7936 2.1883
28 -0.3147 0.6909 -2.9299 -4.6174 1.1858 -1.71 0.9629 -0.4379
29 1.0841 -2.0519 6.3797 7.2457 -2.1638 0.573 -0.9508 1.4606
30 2.3042 -1.6065 8.6017 10.5035 -2.49 1.0391 -2.6558 2.8344 代码
T 检验
function[H,P,CI]=ttest(X,Y)
%H表示在显著性水平为0.05下,H=1时能拒绝原假设,验的零假设H0为两总体均
值之间不存在显著差异
%p<0.05 拒绝H0有显著性差异
%Cl均值μ的0.95置信区间不跨越0时说明有显著性差异
[Muhat, sigmahat, muci, sigmaci]=normfit(X)
%Muhat为均值 muci为均值0.95 置信区间
%sigmahat为标准差 sigmaci标准差0.95 置信区间
a=Muhat;
b=sigmahat;
Cx=b/a%X的变异系数
[Muhat, sigmahat, muci, sigmaci]=normfit(Y)
%Muhat为均值 muci为均值0.95 置信区间
%sigmahat为标准差 sigmaci标准差0.95 置信区间
a=Muhat;
b=sigmahat;
Cy=b/a%Y的变异系数如果Cx<Cy,则说明x比y更可靠
if Cx<Cy
disp('x比y 变异系数小,更稳定,结果更可靠')
else
disp('y比x变异系数小,更稳定,结果更可靠')
end
end
聚类分析程序:
x = [68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5]'; opts = statset('Display','final'); % 显示每次聚类的最终结果
% 将原始的5个点聚为3类,距离采用绝对值距离,重复聚类5次,显示每次聚类
的最终结果
idx = kmeans(x,4,'Distance','city','Replicates',27,'Options',opts)
%****************************绘制聚类轮廓图
*********************************
x = [68.1 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5]'; % 例9.1中的观测数据
% 将原始的5个点聚为3类,距离采用绝对值距离,重复聚类5次
idx = kmeans(x,4,'Distance','city','Replicates',27);
[S, H] = silhouette(x,idx) % 绘制轮廓图,并返回轮廓值向量S和图形句
柄H。

相关文档
最新文档