数据说:葡萄指标数据对葡萄酒的影响
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据说:葡萄指标数据对葡萄酒的影响
一、问题设立:(改编自CUMCM 2012 A题)
如我们所知,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。以上只是我们的定性分析,严重缺少定量分析验证。现在请你根据酿酒葡萄的各项理化指标数据和葡萄酒的指标数据进行分析,通过具体的数据建立数学模型解决下列问题:
1. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
2. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
3.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
附件1和附件2分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
附件1:葡萄和葡萄酒的理化指标(含2个表格)
附件2:葡萄和葡萄酒的芳香物质(含4个表格)
二、问题解答
数据说:葡萄指标数据对葡萄酒的影响
摘要
本文针对对葡萄酒的评价问题,运用了聚类分析法、偏最小二乘回归分析法等方法建立数学模型,综合分析了酿酒葡萄的理化指标、葡萄酒的理化指标与葡萄酒质量三者之间的联系。
针对问题一,对酿酒葡萄进行分级,先对不同量纲的数据进行标准化处理,运用相关性分析法分别计算两种葡萄的各种理化指标和葡萄酒质量的相关性系数,从而筛选出相关性系数较大的指标作为酿酒葡萄的分类指标;运用聚类分析法对酿酒葡萄进行聚类分析,将红葡萄和白葡萄都分成了四类,根据葡萄酒的分级标准,从而得到分级结果(见表6)。
针对问题二,分析酿酒葡萄与葡萄酒的理化指标之间的联系,先对不同量纲的数据进行标准化处理,运用相关性分析法筛选出与葡萄酒质量相关性较大的酿酒葡萄指标和葡萄酒指标。此问题是研究两组多重相关变量间的关系问题,故运用偏最小二乘回归分析法得到酿酒葡萄与葡萄酒理化指标的回归方程式,从而分析出两者理化指标之间的联系。
针对问题三,分析酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,建立了葡萄酒质量的评价模型:分别对酿酒葡萄理化指标、葡萄酒指标与葡萄酒质量运用偏最小二乘回归分析法,分别得到相应回归方程式;从而得出结论。对模型进行检验,得知可用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
本文依据葡萄和葡萄酒的各项指标数据,建立合适的模型,定量的分析了葡萄指标对葡萄酒质量的影响。
关键词数据说;偏最小二乘回归分析法;相关性分析法;聚类分析法
1、问题重述
如我们所知,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。以上只是我们的定性分析,严重缺少定量分析验证。现在请你根据酿酒葡萄的各项理化指标数据和葡萄酒的质量数据进行分析,通过具体的数据建立数学模型解决下列问题:
1. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
2. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
3.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2、模型假设
1.酿酒葡萄的酿造水平与酿造环境相同;
2.酿制同一种酒使用的葡萄是相同的;
3.葡萄的成分充分转换成葡萄酒里的成分,不存在意外的浪费和挥发。
3、通用符号说明
4、问题分析、模型的建立和求解
4.1 问题一分析、模型建立和求解 4.1.1问题一分析
本题要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,则首先应当确立适当的分级指标,然而对于题目中要求的酿酒葡萄的理化指标和葡萄酒的质量这些指标中可能存在指标间相关性较强的情况,也可能有一些指标与酿酒葡萄的分级相关性很小。所以有必要对所有的相关系数进行分析。题目提供的酿酒葡萄的理化指标中的部分指标具有二级指标,为了更为细致准确的分析各指标与葡萄酒质量的关系,对于有二级指标的一级指标,只考虑其二级指标,将该一级指标去除。然后按照剩下指标的原始顺序进行顺序编号,共有55个葡萄理化指标,记作55,,2,1, j p j 。将葡萄酒质量编号为56,即56p 对于j 个指标,第i 种葡萄样品的值为ij
p
进行相关性分析,不同单位的数据要做标准化变换,即用离均差/标准差。使数据统一。 4.2.2问题一模型建立
因为酿酒葡萄是用来酿葡萄酒的,因此,酿成葡萄酒的质量也就成为了判别酿酒葡萄的最重要指标。题目提供了酿酒葡萄的50多种指标,然而对于这些指标未必每项都对酿制的酒有影响,或者说产生的影响是可以忽略的。所以有必要对酿酒葡萄的理化指标与酿酒质量进行相似性度量,从而找出与酿酒质量相关程度较大的指标。下面通过计算相关系数衡量这些指标间的相似程度。
指标j p 与k p 的样本相关系数为:
2
111221
)()()
)((⎥
⎦
⎤⎢⎣⎡----=
∑∑∑===n i n
i k ik j ij n
i k ik j ij
jk μp μp μp μp
r
其中n p n μn
i ij j ,11
∑==为酿酒葡萄的样品数目。
筛选出与葡萄酒质量相关性比较大的指标之后,由于指标决定的葡萄分级,则需要对筛选出来的指标所决定的葡萄进行分类。可参考国家对葡萄酒的分级标准用聚类分析法进行分类。将分类后的葡萄根据国际分类标准进行分级。
4.2.3 问题一模型求解
首先在Excel 中对数据进行标准化处理处理(见附件1.xls )。 计算得红葡萄理化指标与红葡萄酒质量相关系数见图3:
图3 红葡萄理化指标与红葡萄酒质量相关系数
计算白葡萄理化指标与白葡萄酒质量相关系数如图4: