#数学建模葡萄酒问题二的分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏和所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄和葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
附件1:葡萄酒品尝评分表(含4个表格)
附件2:葡萄和葡萄酒的理化指标(含2个表格)
附件3:葡萄和葡萄酒的芳香物质(含4个表格)
二、问题分析
问题二的分析
问题二要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
题目对葡萄酒样品给出了葡萄酒品尝评分表、理化指标分析表和芳香物质分析表。
由于葡萄酒理化指标分析表和芳香物质分析表没有一个可行的分析方法对葡萄酒的质量进行判断。
因此,把葡萄酒品尝评分表作为对葡萄酒质量的评定。
由问题一,得到第二组评酒员的评价结果更可信。
先对葡萄酒评分求平均值。
再用主成分分析法处理酿酒葡萄的理化指标,将30个指标缩减为几个主成分。
由于数据的计量单位不同,对葡萄酒的平均分和酿酒葡萄的理化指标量纲化处理。
通过spss求出葡萄样本各指标和主成分的相关系数矩阵。
从而求出各葡萄
样本和主成分的关系矩阵Y=()
y
ij
最后用综合主成分分析法,将各葡萄酒的平均值(量纲化处理)和各葡萄样本跟主成分的关系矩阵建立一个线性关系。
通过这个线性关系对葡萄样品进行打分,再用分值对葡萄进行分级。
三、模型假设
1、葡萄酒的质量仅由葡萄酒的评分决定。
2、葡萄酒的二级理化指标的信息全部反应在相对应得一级理化指标中。
四、符号说明
μ 表示综合得分的数学期望,
i α 表示第i 组评分和总平均值之差,
ij β 表示第i 组第j 个评酒师的评分和第i 组评分均值的偏差;
ijk x 表示第i 组的第j 号评酒师对第k 号酒的综合评分
ijk ε 表示第i 组第j 个评酒师弟K 号样品酒分析结果和第j 号评酒师评
分的偏离;
A SS 称为因素A 的离差平方和, E SS 称为因素E 的离差平方和,
B SS 称为因素B 的离差平方和 i X 酿酒葡萄的不同的理化指标
Y 各葡萄样本和主成分的关系矩阵
i a 酿酒葡萄理化指标提取的主成分对应理化指标中的贡献率 i b 各葡萄酒评分量纲化处理后的数值
i Z 主成分Y 和其贡献率i a 的乘积加上葡萄酒评分数值构成线性组合
五、模型建立及求解
5.1.1问题一模型的建立及求解
葡萄酒历史悠久,在葡萄酒诞生之初,人类就给予了它对于其它任何食物和饮品都没有的偏爱。
然而即使是极品葡萄酒不同的人对他的评价也不可能完全一样,本问就是要讨论两组评酒员的评价结果有无显著性差异,及哪一组结果更可信。
对于要分析无显著性差异,这里是通过用三因素(酒类,品酒员,组号)方差分析及T 检验法,T 检验当中的值小于0.05则说明
而对于要判断哪一组结果更可信,则是通过计算出每组样品酒方差的平均来判断,平均值越小则说明越稳定,结果就更可靠。
首先建立三因素方差分析的数学模型 三因素方差分析的数学模型:
ijk i ij ijk x μαβε=+++ (1,2;1,......10;1,
i j ==
μ表示综合得分的数学期望,
i α表示第i 组评分和总平均值之差,
ij β表示第i 组第j 个评酒师的评分和第i 组评分均值的偏差;
ijk x 表示第i 组的第j 号评酒师对第k 号酒的综合评分
ijk ε表示第i 组第j 个评酒师弟K 号样品酒分析结果和第j 号评酒师评分的偏
离;
三因素方差分析的计算步骤
根据数理统计原理,计算各离差平方和:
22111
11111()()a b c
a b c
A ijk
ijk bc
abc
i j k i j k SS x
x =======-
∑∑∑∑∑∑
2
21111
11
1
()a
b
c a
b
c
E ijk ijk
c
i j k i j k SS x x
=======-
∑∑∑∑∑∑
2
2
11
11
1
1
11
()()
a b c a b c
B ijk ijk c bc i j k i j k SS x x =======-∑∑∑∑∑∑ A SS 称为因素A 的离差平方和,反映因素A 对试验指标的影响。
E SS 称为因素E 的离差平方和,反映因素E 对试验指标的影响。
B SS 称为因素B 的离差平方和,反映因素B 对试验指标的影响
计算样本方差
21
A
A A SS SS A A f a MS S -===
2(1)
B B
B
SS SS B B f a b MS S -==
= 2(1)
E
E E SS SS E E f ab c MS S -=== Sig 单总体T 检验
1
X
X t n σ-∆
=
-。
如果样本是属于大样本(n >30)也可写成: X
X t n
σ-∆
=。
在这里,t 为样本平均数和总体平均数的离差统计量;
X 为样本平均数;∆为总体平均数;X σ为样本标准差;n 为样本容量。
以0.05为显著性水平, t>0.05则说明无显著性差异。
反之说明有显著性差异。
可信度分析的数学模型
ijn M 表示第i 组的第j 号评酒师对第n 个评分项目的分值(n =1……10,分别
表示澄清度,色调,香气分析当中的纯正度,香气分析当中的浓度,香气分析当中的质量,纯正度,浓度,持久性,质量,整体评价 )
1210......ijk ij ij ij x M M M =++
1210()......ik i k i k i k E X x x x =++
2221210var()(())(())......(())ik i k ik i k ik i k ik x x E x x E x x E x =-+-+-
1227var()var()......var()i i i Q x x x =++
()ik E X 表示第i 组中第j 号酒的综合得分期望。
var()ik x 表示第i 组j 号酒的综合得分方差。
Q 表示该组方差的平均值
方差的平均越小说明越稳定,则可信度越高。
数据的处理及结果
根据附表一中的数据通过excel 可以算出白酒第一组中毎位评酒师对各样品酒的综合得分,例如第26号酒的综合得分如表一所示:
表一
总分:100 品酒员1 … 品酒员
10
26 项目满分 酒样品26 …
外观分析 5 澄清度 4 (4)
15 10 色调 6 (8)
香气分析 6 纯正度 5 (5)
30 8 浓度7 (7)
16 质量14 (14)
口感分析 6 纯正度 4 (4)
44 8 浓度7 (6)
8 持久性7 (7)
22 质量13 (19)
平衡/整体评
价11 8 (10)
75 (84)
如表一所示算出第一组及第二组每种样品酒的综合得分,将所有白酒的数据整理得到下表二:
组别品酒员酒样品综合得分
1 品酒1号26 75
1 品酒2号26 66
…………
2品酒员1号2680
...………
全表为附录表一
将附录表一当中的数据导入到SPSS,分析综合得分和酒类,品酒员,组号的关系,得到数据如表三:
离差来源离差平方
和方差分
量
F值Sigt
组别3376.11 1 28.02 0.00
评酒员13876.08 9 12.79 0.00
酒样品34113.20 27 10.48 0.00
T检验当中组别的t小于0.05可得知白酒的两组评价员的结果有显著性差异。
同样的方法用SPSS对红酒进行三因素分析得到表四:
表四
离差来源离差平方和方差分量F值sig t
组别871.47 1 871.47 0.00
评酒员14380.58 26 553.1 0.00
酒样品3477.71 9 386.41 0.00
T检验当中组别的t小于0.05可得知白酒的两组评价员的结果有显著性差异。
不管是白酒还是红酒,两组评价员的结果都有显著性差异。
附录表一当中已经算出来所有样品酒的综合得分利用excel可以很容易的算出每组综合得分的方差平均值,结果如表五所示:
表五
白酒第一组129.19
第二组55.63
红酒第一组58.62
第二组33.79
从表五中可以看出不管是白酒还是红酒,第二组方差的平均值都小于第一组的方差平均值,可得出结论第二组的稳定性更好,结果更可靠。
5.3.1问题三模型的建立及求解
为了研究酿酒葡萄和葡萄酒的理化指标之间的联系,将葡萄酒的理化指标定义为Y,把酿酒葡萄的理化指标定义为X,
先利用相关性分析,可以分别算出每一个Y关于所有X的相关系数矩阵。
取出其中相关系数大于0.35的X,在利用多元线性回归,分别算出每一个Y关于相关系数大于0.35的X的R2,及各X的系数和置信区间。
根据R2的值把Y分成三类:A类为R2大于0.8。
B类为R2介于0.5到0.8之间C类为R2小于0.5.
对于A类如果置信区间包含0,则把相应的变量踢除。
根据这些新的变量,从新做一次线性回归如果R2的值和剔除变量之前相差不大,就取剔除变量之后的变量。
若相差较大则取没有剔除变量的那些X来表示Y。
对于B类可直接得出Y关于X的线性方程,
对于C类,
模型的建立和求解:
问题二的模型
葡萄酒的理化指标分为一级指标和二级指标。
由于二级指标都在一级指标中进行反应,剔除二级指标。
对多次测试的项目取平均值,精简得到酿酒葡萄的理化指标分析表,共30个指标。
由于指标太多,并且多指标之间往往存在着一定程度的相关性。
为了把指标复杂的关系进行简化,对理化指标做主成分分析。
由于理化指标中的指标不同,其计量单位不同,所以数据量纲也不一致。
因
此,在进行主成分分析前,先对数据进行量纲化处理。
统计学原理告诉我们,要对多组不同量纲数据进行比较,可以先将它们标准化转化成无量纲的标准化数据。
而综合评价就是要将多组不同的数据进行综合,因而可以借助于标准化方法来消除数据量纲的影响。
无量纲标准化法:
s
x
x y i i -= 上式中:
∑==n i i x n x 11 ∑=--=n i i x x n s 1
2)(11 无量纲化处理葡萄样品的评分、葡萄酒的理化指标结果(以下仅是表的一部分)如下:
红葡萄 得分平均均值标准化 氨基酸
总量标
准
蛋白质标准 VC 含标
准
葡萄样品
1
-0.607044289 -0.23 -0.05 -0.13
葡萄样品
2
0.876117601 -0.16 1.56 -0.22
葡萄样品
3
1.026947623 3.84 0.65 -0.09
白葡萄 得分平均值标准化 氨基酸
总量标
准
蛋白质标准 VC 含标
准
葡萄样品1 0.431372889 -0.73 -0.18 2.2 葡萄样品2 -0.230891494 -0.08 0.55 -0.75 葡萄样品3 -0.293964293 3.37 -0.69 -0.29 主成分分析模型:
酿酒葡萄的无量纲化理化指标有30个,设为123
30
,,X X X X。
令
X=(123
30,,X X X X ),假定存在二阶矩阵,其均值和协方差分别记为
(),()E X D X μ=∑=。
每个主成分的系数平方和为1。
主成分之间相互独立,即
无重叠信息。
主成分分析的目的是减少变量的个数,所以一般不会使用所有的变量,忽略一些带有较小的主成分将不会给总方差带来太大的影响。
主成分的方差依次递减,重要性依次递减,即12()()()p Var Y Var Y Var Y ≥≥
≥。
如果第一主成
分表达的信息不够,这依次往下找。
主成分对整个数据的反应能力越强,则它对数据的贡献率越大。
一般,累积贡献率达到85%左右就可以说对数据有了较好的反映。
将数据带入SPSS ,得出结果。
综合评价模型:
酿酒葡萄的分级和酿酒葡萄的理化指标、葡萄酒的质量有关。
葡萄的评分决
定葡萄酒的质量,设评分量纲化数值为b1,b2,b3,,,bx 。
通过主成分分析酿酒葡萄的理化指标进行将变量缩减。
由于以上数据都做了量纲化处理,所以这些数据可以进行比较。
主成分123
,,n Y Y Y Y 和其贡献率123
,,n a a a a 加上葡萄酒评分数
值构成线性组合,其中i a 的累积贡献率很大,这些主成分可代表理化指标的信息。
考虑到酿酒葡萄和葡萄酒的质量、酿酒葡萄的理化指标有关。
令综合数值Z :
即 Z1=1(1,1)2(1,2)3(1,3)(1,)****n n a Y a Y a Y a Y +++
+b1
由于各样品的综合成分值各不相同。
当得分越高时,样品葡萄的等级越高。
将酿酒红葡萄的理化指标带入SPSS 软件中,进行主成分分析。
Component Extraction Sums of Squared Loadings
Rotation Sums of Squared Loadings Total % of Variance
Cumulative %
Total % of Variance
Cumulative %
1 6.966 23.221 23.221 5.196 17.318 17.318
2 4.940 16.467 39.687 4.458 14.859 32.177
3 3.737 12.457 52.14
4 3.13
5 10.451 42.629 4 2.840 9.467 61.611 2.712 9.039 51.668 5 1.999 6.663 68.274 2.690 8.968 60.63
6 6 1.742 5.808 74.082 2.565 8.552 69.18
7 7 1.41
8 4.728 78.810 2.257 7.523 76.711 8
1.270
4.234
83.044
1.900
6.333
83.044
的贡献率是16.467%,第3个因子的贡献率是12.457%,第3、4、5、6、7、8因子的贡献率分别是9.467%、6.663%、5.808%、4.728%、4.234%,这8个因子的累积贡献率达到83.044%,则这8个因子能反应足够的信息。
图上为30个指标和8个因子之间的相关系数图。
通过SPSS 分析,即将30个指标精简为8个主成分。
从图上可以看出,不同的理性指标和各因子的相关系数不相同。
例如:将红葡萄样品1的各指标乘以图表上的相关系数,求到的是红葡萄样品1和因子1的相关系数。
红葡萄样品1表达式为
(1,1)(1,1)(1,2)(1,3)(1,30)(1,2)(1,1)(1,2)(1,3)(1,30)(1,3)(1,1)(1,2)(1,3)*(0.534)*(0.583)*(0.545)*(0.313)*(0.355)*(0.212)*(0.181)*(0.87)*(0.472)*(0.172)*(0.271Y X X X X Y X X X X Y X X X =-+-+-++=-+-+-++=-+-+-(1,30)(1,8)(1,1)(1,2)(1,3)(1,30))*(0.214)
*(0.194)*(0.40)*(0.15)*(0.165)
X Y X X X X +
+-=+++
+红葡萄样品2······红葡萄样品27。
Y1=278
()ij y ⨯ 矩阵如下:见附录。
用矩阵Y1和8个主成分的贡献率、评分数值来求综合数值Z 。
综合评价方程如下:
Z1=1(1,1)2(1,2)3(1,3)(1,)****n n a Y a Y a Y a Y +++
+b1
Z2=1(2,1)2(2,2)3(2,3)(2,)****n n a Y a Y a Y a Y ++++b2
Zm=1(,1)2(,2)3(,3)(,)****m m m n m n a Y a Y a Y a Y +++
+bm
得到27个葡萄样品的得分 红葡萄 得分 红葡萄 得分 红葡萄 得分
葡萄样品11 -2.16363 葡萄样品12 -0.4975183 葡萄样品19 0.3501305 葡萄样品7 -1.66461 葡萄样品16 -0.4274949 葡萄样品5 0.6392122 葡萄样品18 -1.44279 葡萄样品4 -0.2411962 葡萄样品14 0.6962257 葡萄样品15 -1.40382 葡萄样品27 -0.15253 葡萄样品20 1.2188329 葡萄样品25 -1.1349 葡萄样品1 -0.0330426 葡萄样品2 1.2380468 葡萄样品10 -1.02062 葡萄样品26 0.19987594 葡萄样品17 1.3808782 葡萄样品6 -0.99605 葡萄样品22 0.2176509 葡萄样品3 1.4740503 葡萄样品13 -0.72034 葡萄样品21 0.25860596 葡萄样品23 2.2283205 葡萄样品8 -0.6507 葡萄样品24 0.33750222 葡萄样品9
2.309916 从以上图表,对葡萄样品进行分类。
第一类,得分大于2,葡萄样品9、葡萄样品23。
第二类,得分2~1,葡萄样品3、葡萄样品17、葡萄样品2、葡萄样品20。
第三类,得分1~0,葡萄样品14、葡萄样品5、葡萄样品19。
第四类,得分0~-1,葡萄样品8,葡萄样品13、葡萄样品6。
第五类,得分-1~-2,葡萄样品10、葡萄样品25、葡萄样品15、葡萄样品18、葡萄样品7。
第六类,得分小于-2,葡萄样品11. 酿酒白葡萄的主成分分析法如上: 将表二带入SPSS 进行主成分分析,
Total Variance E xplaine d
5.83019.43419.434 4.62415.41215.4124.9271
6.42235.856 3.28210.94026.3523.63012.1024
7.958 3.10810.35836.7112.081 6.93554.893 2.9639.87746.5871.889
6.29761.190 2.080 6.93253.5191.655 5.51666.705 2.059 6.86260.3811.523 5.07771.782 1.864 6.21566.5961.280 4.26676.049 1.850 6.16772.7631.238 4.12780.175 1.825 6.08378.8461.002 3.34083.516 1.401 4.67083.5165.83019.43419.434 4.62415.41215.4124.92716.42235.856 3.28210.94026.3523.63012.1024
7.958 3.10810.35836.7112.081 6.93554.893 2.9639.87746.5871.889 6.29761.190 2.080 6.93253.5191.655 5.51666.705 2.059 6.86260.3811.523 5.07771.782 1.864 6.21566.5961.280 4.26676.049 1.850 6.16772.7631.238 4.12780.175 1.825 6.0837
8.8461.002 3.34083.516
1.401 4.67083.516
Component
1234567891012345678910
Raw
Rescaled
Total % of Variance Cumulative %Total % of Variance Cumulative %E xtraction Sums of Squared Loadings Rotation Sums of Squared Loadings
E xtraction Method: Principal Component Analysis.
从上图可得,第1个因子的贡献率为19.434%,第2个因子的贡献率是16.422%,第3个因子的贡献率是12.102%,第3、4、5、6、7、8、9、10因子的贡献率分别是6.935%、6.297%、5.516%、5.077%、4.266%,4.127%,3.340%。
前10个因子的累积贡献率为83.516%,能反映足够的信息。
图上为30个指标和10个因子之间的相关系数。
白葡萄样品1表达式为
(1,1)(1,1)(1,2)(1,3)(1,30)(1,2)(1,1)(1,2)(1,3)(1,30)(1,3)(1,1)(1,2)(1,3)*(0.577)*(0.261)*(0.519)*(0.170)*(0.204)*(0.368)*(0.366)*(0.390)*(0.231)*(0.371)*(0.497)Y X X X X Y X X X X Y X X X =-+-+-++-=++++-=-++-(1,30)(1,10)(1,1)(1,2)(1,3)(1,30)*(0.480)
*(0.450)*(0.177)*(0.091)*(0.058)
X Y X X X X +
+-=-++++
-白葡萄样品2······白葡萄样品28。
Y2=2810
()ij y ⨯ 的矩阵见附录。
用矩阵Y1和8个主成分的贡献率、评分数值来求综合数值Z 。
得到28个白葡萄样品的分值,如下: 白葡萄 得分 白葡萄 得分 白葡萄 得分 葡萄样品16 -3.55127 葡萄样品
19 -0.4803603 葡萄样品1 0.812696
葡萄样品11 -2.39328 葡萄样品24 0.03380824 葡萄样品
27
1.012145
葡萄样品8 -2.3848 葡萄样品3 0.20140592 葡萄样品
21
1.022047
葡萄样品12 -2.02182 葡萄样品15 0.22233295 葡萄样品
10
1.067077
葡萄样品7 -1.67015 葡萄样品4 0.23961075 葡萄样品
28
1.296516
葡萄样品
14
-1.04134 葡萄样品6 0.24348091 葡萄样品9 1.439858
葡萄样品13 -0.89459 葡萄样品
25 0.39224737 葡萄样品5 1.945056
葡萄样品18 -0.73534 葡萄样品23 0.66725259 葡萄样品
22
2.111706
葡萄样品2 -0.61099 葡萄样品20 0.71353903 葡萄样品
17
2.894169
葡萄样品
26
-0.53099
通过以上图表对白葡萄样品进行分类。
第一类,得分大于2,葡萄样品17、葡萄样品22。
第二类,得分2~1,葡萄样品5、葡萄样品9、葡萄样品28、葡萄样品10、葡萄样品21、葡萄样品27。
第三类,得分1~0,葡萄样品1。
第四类,得分0~-1,葡萄样品26、葡萄样品2、葡萄样品18、葡萄样品13。
第五类,得分-1~-2,葡萄样品14、葡萄样品7。
第六类,得分小于-2,葡萄样品12、葡萄样品8、葡萄样品11、葡萄样品16。
模型的评价和推广
问题二考虑到,酿酒葡萄的理化指标多而且复杂,多个指标之间往往存在着一定程度的相关性。
先用主成分分析法对理化指标进行最佳综合简化,再用综合评价模型对酿酒葡萄进行分级。
参考文献
姜启源.数学模型(第三版)[M].北京:高等教育出版社
杨振华等,钢管订购和运输问题一的数学模型和求解
马欣等,管道订购和运输[J].数学的实践和认识。