2012数学建模A葡萄酒地评价与衡量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规如此.
我们完全明白,在竞赛开始后参赛队员不能以任何方式〔包括、电子、网上咨询等〕与队外的任何人〔包括指导教师〕研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规如此的, 如果引用别人的成果或其他公开的资料〔包括网上查到的资料〕,必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们X重承诺,严格遵守竞赛规如此,以保证竞赛的公正、公平性。
如有违反竞赛规如此的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进展公开展示〔包括进展网上公示,在书籍、期刊和其他媒体进展正式或非正式发表等〕。
我们参赛选择的题号是〔从A/B/C/D中选择一项填写〕: A
我们的参赛报名号为〔如果赛区设置报名号的话〕:
所属学校〔请填写完整的全名〕:
参赛队员(打印并签名) :1.
2.
3.
指导教师或指导教师组负责人(打印并签名):
日期: 2012 年 9 月 7 日赛区评阅编号〔由赛区组委会评阅前进展编号〕:
编号专用页
赛区评阅编号〔由赛区组委会评阅前进展编号〕:
全国统一编号〔由赛区组委会送交全国前编号〕:全国评阅编号〔由全国组委会评阅前进展编号〕:
葡萄酒的评价
摘要
目前,葡萄酒备受大家的青睐,其质量也日益受到人们的关注。
葡萄酒的质量与酿
酒葡萄的好坏有直接关系,葡萄酒和酿酒葡萄的理化指标会在一定程度上反响葡萄酒和
酿酒葡萄的质量。
对于问题1,我们采用方差分析的方法建模解决。
根本思路是:对两组评酒员的评
价结果进展单因素方差分析,然后再用F检验对得出的结果进展进一步验证,得出两组
评酒员的评价结果无显著性差异,通过比拟两组评酒员评价结果的方差值,得出第二组
的结果更可信。
对于问题2,我们采用主成分分析方法,建立综合评价模型,对酿酒葡萄进展分级。
根本思路是运用因子分析的方法,以特征值大于1为标准,得出酿酒葡萄理化指标的8
种主成分,在此根底上把综合因子作为一项排名指标,结合问题1得出的葡萄酒的质量,
对酿酒葡萄进展排名,用两种排名的名次之和作为对酿酒葡萄分级的主要依据。
此方法
消除了主观加权的盲目性,保证了分级的客观性;防止了两个指标中因某一指标数值上
远远大于另一指标而使另一指标对排名起不到作用的现象的发生。
最终将酿酒葡萄分为
了Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ五个等级。
对于问题3,我们对酿酒葡萄和葡萄酒的理化指标中具有可比性的同类指标一一比
照,经相关性检验得到他们具有显著的线性相关性,进而用线性回归的方法得出回归方
程,找到酿酒葡萄和葡萄酒的理化指标之间的联系。
对于问题4,先将酿酒葡萄和葡萄酒的量化指标进展无量纲化处理,用F检验验证两组值的相似程度为1,得出酿酒葡萄和葡萄酒的理化指标会对葡萄酒质量产生影响,所以可以用葡萄和葡萄酒的理化指标来评判葡萄酒的质量。
文章最后对论文的优缺点做了评价,并给出了一些改良方向,以利于在实际中应用
和推广。
关键词:方差分析;因子分析;主成分分析法;线性回归分析;SPSS软件;F检验
1.问题的重述
确定葡萄酒质量时一般是通过聘请一批有资质的的评酒员进展品评。
每个评酒员在对葡萄酒进展品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年分一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论如下问题:
1.分析附件1中两组评酒员的评价结果又无明显差异,哪一组结果更可信?
2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进展分级。
3.分析酿酒葡萄与葡萄酒的理化指标之间的关系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2.问题的分析
对问题1,我们对附件一所给的葡萄酒品尝评分表进展统计学分析,根据各组评酒员对同一种葡萄酒的评价结果算出每种酒样品的得分,并对每组的数据进展方差分析,利用F检验求出两组间的显著水平,并与0.05的显著水平比拟,从而判断两组评酒员的评价结果有无显著性差异。
确定哪组更可信时,分别求出两组评价结果的方差进展比拟,方差越小,可信度也就越高。
对问题2,要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进展分级,属于分类问题。
对该问题,可以采用主成分分析法,建立综合评价模型。
选取附件2中关于葡萄的一级指标作为影响等级划分的因素,采用因子分析法,确定主成分,结合问题1所得出的葡萄酒的质量对酿酒葡萄进展综合评价并分级。
对问题3,分析酿酒葡萄与葡萄酒的理化指标之间的联系,既然是分析两指标之间的联系,就少不了作比拟,从比拟数据成对出现这一方面考虑,应该选取酿酒葡萄与葡萄酒理化指标中的共有指标进展分析,用一元线性回归模型求出对应指标之间的函数关系,进而确定酿酒葡萄与葡萄酒的理化指标之间的联系。
对问题4,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,参照问题2中酿酒葡萄的理化指标的处理方法,对葡萄酒的理化指标做同样分析。
加权处理得出酿酒葡萄和葡萄酒的理化指标对葡萄酒质量产生影响的综合因子E,根据葡萄酒质量排名和E排名比拟出产生的影响大小。
3.模型的假设
〔1〕假设评酒员都有很高的品评资质,给出的评价结果客观可信。
〔2〕假设问题1中葡萄酒的质量只与评酒员的评分有关。
〔3〕假设更可信的评分组给出的数据可以代表葡萄酒的真实质量。
4.符号说明
符号一SS方差
符号二df自由度
符号三MS标准差
符号四F统计量
符号五value
P 假定值
符号六crit
F F临界值
符号七Sig F值实际显著性概率
符号八
F对应的主成分值
i
符号九G总主成分值
符号十
y因变量
i
符号十一
x自变量
i
符号十二E综合因子
5.模型的建立与求解
5.1问题1的模型建立与求解
在评价结果采用百分制的前提下,对每一个品酒员所给出的每一种样品酒的评价结果求和,并求出每一组10名评酒员对同一种酒评价结果总分的平均值,此平均值即为本组针对该样品酒给出的评分,得到两组分别对27个红葡萄酒样品和28个白葡萄酒样品给出的评分。
用Excel中的数据分析对每组的数据进展方差分析,利用F检验判断两组评酒员的评价结果有无显著性差异。
方差分析结果如下:
〔1〕分析两组评酒员对红葡萄酒的评价
表〔1〕:方差分析
方差分析:单因素方差分析
SUMMARY
组观测数求和平均方差
列 1 27
列 2 27
方差分析
差异源SS df MS F P-value F crit
组间 1
组内52
总计 53
因为统计量)52,1(0266.45430.205.0F F ≈<≈,所以对红葡萄酒而言,两组评酒员的评价结果没有显著性差异。
因为第二组的方差远小于第一组,所以第二组的可信度高于第一组,即第二组的结果更可信。
〔2〕分析两组评酒员对白葡萄酒的评价
表〔2〕:方差分析
方差分析:单因素方差分析
SUMMARY
组 观测数 求和 平均
方差
列 1 28 列 2 28
方差分析
差异源 SS df MS
F P-value
F crit
组间 1
组内 54 总计 55
因为统计量)54,1(0195.48931.305.0F F ≈<≈,所以对白葡萄酒而言,两组评酒员的评价结果没有显著性差异。
因为第二组的方差小于第一组,所以第二组的可信度高于第一组,即第二组的结果更可信。
综上所述,两组评酒员的评价结果无显著性差异,且第二组的结果更可信。
5.2 问题2的模型建立与求解
对于问题2,要求根据酿酒葡萄的理化标准与葡萄酒的质量,对酿酒葡萄进展分级,我们考虑红白两种酿酒葡萄与葡萄酒,建立模型,采运因子分析的方法进展主成分分析。
(1) 首先对所给附件二的数据进展求平均值等优化处理,以便于进展运算。
为了对酿酒葡萄进展客观分级,采用主成分分析法,应用SPSS 软件对数据进展因子分析,具体实施步骤如下:
1、数据的标准化
2、求出R 与其特征值,贡献率
运用SPSS 软件计算出相关矩阵R 与其特征值,贡献率。
在主成分个数选取时,按照特征值大于1的原如此,计算结果如下表:
表〔3〕:方差分解主成分提取分析表
成份初始特征值提取平方和载入
合计方差的% 累积% 合计方差的% 累积% 1
2
3
4
5
6
7
8
9 .961
10 .738
11 .691
12 .514
13 .494
14 .372
15 .296 .986
16 .254 .846
17 .218 .728
18 .200 .668
19 .112 .375
20 .070 .234
21 .062 .206
22 .043 .143
23 .032 .108
24 .016 .053
25 .010 .034
26 .003 .012
27
28
29
30
由上表可知,有8种成分的特征值大于1,总贡献率达到83%,适宜做主成分分析,因此我们选取前8个成分作为主要成分,即:F1、……、F8。
然后求出成分矩阵,得出主成分的线性表达式。
8个主成分的成分矩阵如下表:
表〔4〕:成分矩阵
成份
1 2 3 4 5 6 7 8
总酚.863 .224 .184 .088 花色苷.847 .097 .196 .063 DPPH自由基.756 .215 .114 .212 .114 单宁.756 .246 .243
葡萄总黄酮.719 .284 .031 .297 .124 .057 蛋白质.614 .181 .272 .193 .081
果梗比.583 .172 .088 .040 L* .305 .050 .076 .345 黄酮醇.558 .022 .028 .476 .216 出汁率.545 .169 .016 .398 .015 百粒质量.079 .269 .149 .222 .194 干物质含量.375 .856 .094 .095 .054 .034 总糖.256 .785 .261 .103 .297 复原糖.079 .769 .128 .116 .073 可溶性固形物.246 .760 .147 .121 .266 氨基酸总量.375 .543 .016 .455 .167
白藜芦醇.064 .818 .075 .165 .293 .294 果皮颜色.278 .738 .052 .294 .257 .213 果皮质量.325 .477 .221 b* .488 .601 .191 .455 .295 .090 可滴定酸.458 .220 .296
褐变度.597 .054 .110 PH值.270 .184 .696 .130 .240 苹果酸.391 .321 .166 .087 .367 .117 多酚氧化酶活
.313 .087 .235 .165 力
果穗质量.067 .598 .044 .227 .093 VC含量.094 .132 .160 固酸比.396 .431 .534 .223 酒石酸.381 .099 .367 .386 .312 .202
柠檬酸.305 .190 .400 .356 .292
由上面表〔4〕可以看出:总酚、花色苷、单宁、DPPH自由基、葡萄总黄酮、蛋白质、果梗比、黄酮醇、多酚氧化酶活力、出汁率和褐变度为第一主成分,干物质含量、总糖、复原糖、可溶性固体物、氨基酸总量和可滴定酸为第二主成分,白藜芦醇、果皮颜色、b*和柠檬酸为第三主成分,PH和酒石酸为第四种主成分,百粒质量、果穗质量、固酸比为第五主成分,苹果酸为第六主成分,果皮质量为第七主成分,VC含量、L*为第八主成分。
然后计算出8个主成分用原来指标表达出的线性关系式,其中各变量前的系数为表〔4〕中数据除以其对应主成分的特征值开平方得到,即:
/ji ji Z x = 〔ji x j i .30,3,2,1.8,,3,2,1 ==为表〔4〕中相应特征值,j a 为主成
分特征值〕〔所得系数见附录2〕
*i ji hj F Z b = 〔1,2,3,,8.1,2,3,30,1,2,3,b hj i j h ===,…,27。
为酿酒葡萄原始
数据〕
最后计算出综合指标,用8个主成分的贡献率分别乘以F1、F2、F3……F8的值得出最终的G 值,其表达式如下:
8
76
54321042.0047.0058.0067.0095.0125.0165.0232.0F F F F F F F F G ⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=
由问题一得到的结果可知,第二组的评价结果更可信,所以,该问题建模时使用第二组的评分作为葡萄酒质量的依据,因为酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,故两者之间有着很强的相互依赖关系。
综合考虑酿酒葡萄的理化标准和葡萄酒的质量来对酿酒葡萄进展分级。
分级见下表:
含量多少等因素直接相关,由于酿酒葡萄的理化标准是按主成分分析得出的,其F值不能与葡萄酒质量的评分直接叠加使用进展综合排名,加之葡萄酒质量除与酿酒葡萄的好坏直接相关。
我们进展了主成分分析F值的排名和根据葡萄酒的质量进展两种排名。
对于综合排名分级,我们为了防止讨论两者所占的权重,采取了两种排名名次的求和重新进展排名分级,结果显得更加客观。
最后,我们以10作为区间长度,将葡萄分为五个等级。
(2)同理,我们对酿酒白葡萄运用SPSS软件进展主成分分析,取特征值大于1的因子作为主成分,得出的主成分提取分析表如下:
表〔6〕:方差分解主成分提取分析表
成份初始特征值提取平方和载入
合计方差的% 累积% 合计方差的% 累积% 1
2
3
4
5
6
7
8
9
10
11 .967
12 .863
13 .639
14 .602
15 .396
16 .345
17 .303
18 .279 .930
19 .176 .585
20 .117 .391
21 .096 .320
22 .064 .213
23 .051 .171
24 .023 .077
25 .014 .047
26 .008 .026
27 .003 .010
28
29
30
由上表可知,有10种成分的特征值大于1,总贡献率达到83%,适宜做主成分分析,因此我们选取前10个成分作为主要成分。
各主成分的的成分矩阵如下:
表〔7〕:成分矩阵
成份
1 2 3 4 5 6 7 8 9 10
干物质含量
.835 .105 .155 .114 .222 g/100g
可溶性固形物
.802 .297 .067 .162 g/l
总糖g/L .756 .018 .037 .082 .169
复原糖g/L .721 .004 .164 .276 .245 .073 果皮颜色b* .646 .152 .004 .275 .044 .107 氨基酸总量.592 .111 .181 .532 .061 .126 .070 .164 出汁率(%) .204 .216 .210 .173
果穗质量/g .478 .278 .226 .057 .179 L* .519 .366 .357 .091 单宁
.472 .372 .231 .260 .319 (mmol/kg)
百粒质量/g .301 .282 .113 .328 .265 多酚氧化酶活
.305 .372 .135 力
总酚
.071 .763 .465 .221 .167 .050 (mmol/kg)
葡萄总黄酮
.002 .763 .502 .132 .202 .094 〔mmol/kg〕
蛋白质.224 .640 .232 .004 .273 .011
固酸比.151 .583 .127 .024 .146 可滴定酸〔g/l〕.625 .286 .059 .092 .212 .205
酒石酸.342 .019 .223 .410 .435 .329
DPPH自由基
.435 .452 .198 .278 1/IC50〔g/L〕
花色苷.129 .279 .187 .238 .302 .308 果皮颜色a* .576 .003 .281 .276
VC .014 .133 .305 .139 .215 .006 黄酮醇
.270 .288 .501 .441 .068 .081 .283 .260 .083 (mg/kg)
果梗比(%) .117 .342 .065 .312 .337
果皮质量〔g〕.368 .371 .220 .351 .129 .299 .177 苹果酸.133 .386 .101 .610 .389 .149 .281
褐变度.215 .149 .324 .395 .278 .157 白藜芦醇
.066 .062 .235 .387 .127 .241 .284 .212 (mg/kg)
柠檬酸.223 .289 .066 .301 .353 .455 .006 .000 .097 PH值.284 .355 .012 .148
与〔1〕采用一样的方法进展处理得出主成分数据。
从而根据所得数据对酿酒白葡萄进展分级如下:
5.3问题3的模型建立与求解
画出酿酒葡萄与葡萄酒的一样指标的散点图,我们以单宁含量为例
图〔1〕:酿酒葡萄和葡萄酒的单宁含量
不妨假设散点有线性关系,做一元线性回归分析,建立酿酒葡萄和葡萄酒的理化指标之间的函数关系。
把酿酒葡萄的理化指标作为自变量,葡萄酒的理化指标作为因变量,建立线性回归的数学模型:
i i i i y a x b =+
运用SPSS 统计功能,分别对每一组指标进展求解,求得每一组指标之间的函数关系,下面以酿酒红葡萄和红葡萄酒的单宁含量比照值为例
表〔9〕模型汇总b
模型
R
R 方
调整 R 方
标准估计的误差
Durbin-Watson
1
.718a
.516
.496
R 方〔拟合优度〕:是线性回归的决定系数,说明自变量和因变量形成的散点与回归曲线的接近程度,数值介于0和1之间,这个数值越大说明回归越好,也就是散点越集中于回归线上。
表〔10〕方差分析表
模型 平方和
df
均方
F
Sig.
1
回归 1
.000a
残差
25
总计 26
此表时所用的模型的检验结果,一个标准的方差分析表。
Sig 值是回归关系的显著性系数,Sig 是F 值实际显著性概率即P 值。
当Si g<=0.05的时候,说明回归关系具有统计学意义。
如果Sig>0.05,说明二者之间用当前模型进展回归没有统计学意义,应该换一个模型来进展回归。
由表可见所用的回归模型F 统计量值26.609,P 值为0.000,因此我们用的这个回归模型是有统计学意义的。
表〔11〕 系数
此表给出了包括常数项在内的所有系数的检验结果,用的是t 检验,同时还会给出标化/未标化系数。
表〔12〕 残差统计量
上面的回归分析结果明确:酿酒红葡萄的单宁含量与红葡萄酒的单宁含量关系极为密切,有显著的线性关系。
综合以上得出回归方程为:
2.8910.315y x ∧
∧
=+
图〔2〕:回归 标准化残差的标准P-P 图
由以上结果与图〔2〕的标准化残差的线性关系可以验证出假设的合理性,所以可以用线性回归对各个指标进展线性回归。
用同样的方法可以得出各有效指标〔Sig 小于0.05〕的回归分析结果〔见附表〕和回归方程:
酿酒红葡萄与红葡萄酒的总酚回归方程: 1.3620.333y x ∧
∧
=+ 酿酒红葡萄与红葡萄酒的DPPH 回归方程:0.080.886y x ∧
∧
=-+ 酿酒红葡萄与红葡萄酒的花色苷回归方程:14.335 2.386y x ∧
∧
=+ 酿酒红葡萄与红葡萄酒的总黄酮回归方程:0.7630.503y x ∧
∧
=+ 酿酒白葡萄与白葡萄酒的单宁回归方程:0.9640.237y x ∧
∧
=+ 酿酒白葡萄与白葡萄酒的总酚回归方程:0.7220.099y x ∧
∧
=+ 酿酒白葡萄与白葡萄酒的DPPH 回归方程:0.0160.124y x ∧
∧
=+ 酿酒白葡萄与白葡萄酒的总黄酮回归方程:0.4420.533y x ∧
∧
=-+ 5.4 问题4的模型建立与求解
问题4要求分析酿酒葡萄和葡萄酒的理化指标对葡萄质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
以白葡萄为例,根据问题2中对酿酒白葡萄的理化指标的分析方法,对白葡萄酒的理化指标进展同理分析,得出以下两组分析结果:
表〔13〕 白葡萄G 值和白葡萄酒的G 值与质量
因为酿酒白葡萄的G 值远大于白葡萄酒的G 值,为了防止白葡萄酒的G 值在综合评价中不起作用,把酿酒白葡萄的G 值按照降序排列得出的序号作为第一个变量t1,把白葡萄酒的G 值按照降序排列得出的序号作为第二个变量t2。
定义一个量E ,令
21t t E +=,算出E 值并按升序排序将其作为第三个变量t3,把葡萄酒的质量按打分结果进展降序排列,排出的序号作为变量t4,结果如下:
表〔14〕 白葡萄和白葡萄酒的各项排名
将表〔14〕按照白葡萄酒质量进展降序排列,对白葡萄酒质量排名t4与综合因子E 的排名t3做双样本方差的F 检验,检验结果如下表:
表〔15〕 双样本方差分析
F-检验 双样本方差分析
25
1
平均 15 方差 63 观测值 27 27 df 26 26
F
P(F<=f) 单尾 F 单尾临界
查F 分布表得〔27,27,05.021===n n α〕:
1943.2)127,127()1,1(025.0212
=--=--F n n F α
如此有:
456.0)
127,127(1
)1,1(025.0212
1=--=
---F n n F α
从表的检验结果可得: 1943.20456.1456.0<≈<F
认为总体方差相等,即白葡萄酒质量与综合因子E 相比,波动没有显著变化,可认为酿酒白葡萄和白葡萄酒理化指标对白葡萄酒质有影响,即可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
6.模型结果的分析与检验
问题1中对显著性差异的求解,用到了F 检验,得出的F 测量值可以直接和临界值比拟,从而判断两组评酒员的评价结果无显著性影响。
这种方法用起来很方便,也很实用。
在可信度方面,由方差越小水平越稳定的评判标准,判断得出第二组的结果更可信。
问题2中的模型求解,用主成分分析法把多因素进展了简化,但是由于主成分的选取严格遵守了特征值大于1的原如此,所以具有很强的代表性,说明了求解方法的合理性和很强的实用性。
问题3中的模型,先做出了假设,在假设的根底下求解,然后把求出的解和假设比拟,发现它们是一致的,从而对假设做出了检验。
7.模型的推广与改良方向
模型一用到的方差分析法可用于假设检验求测量值,模型二利用的综合评价模型,可以对一些具有多种影响因素的指标进展评价,例如在对各大学诸多影响因素进展综合排名方面的应用等。
在模型一的可信度求解方面,综合考虑方差、残差等因素,减少误差,提高准确度。
针对模型三的反复重复操作,可以编写一个小程序把多组值的比拟结果一次求出,简化运算过程。
8.模型的优缺点
模型一优点:采用方差分析法,可以用多种软件进展求解,其中用Excel的求解简单实用,容易上手。
缺点是在对可信度的评判上仅参照方差这一个指标,不够准确。
模型二优点:用主成分分析法对多种指标重新分类,将分析过程简化,在对等级的划分方面,创新性的采用对排名之和再排名的方法来防止在综合排名时,两个指标中因某一指标数值上远远大于另一指标而使另一指标对排名不起作用的现象的发生。
模型三优点:选取一样指标进展单独比拟,做出线性回归函数,从细微方面反映酿酒葡萄和葡萄酒的理化指标之间的关系。
缺点也是太零碎,同样的方法要重复做11次。
模型四优点:同模型二,对单因素排名之后再排名,使之具有一定的客观性。
此外对所得的综合排名进展的F检验,从数值上说明了酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。
参考文献
[1] 姜启源. 数学模型〔第三版〕[M]. :高等教育,1999.
[2] 韩中庚. 数学建模方法与其应用〔第二版〕[M]. :高等教育,2009.
[3] 盛骤、谢式千、潘承毅. 概率论与数理统计〔第四版〕. :高等教育,2011.
—Excel2000应用案例之二十四.
, 2012-9-9
[5] 2012-9-8
附录
附录4。