统计方法在葡萄理化指标简化中的应用
分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量
全模型的复判定系数为 R 2 ,减模型的复判定系数记为 R 2 j 。定义
2 2 R 2 j R Rj
由于在全模型中多一个自变量 x j ,所以,若 R 2 j 几乎为零,说明增加 x j , 对 y 的解释能力没有显著提高;否则,若 R 2 j 显著不为零,则 x j 就可以为回归模 型提供显著的解释信息。
(15)
(4)理化指标与芳香物质对葡萄酒质量的影响比重 理化指标对葡萄酒质量影响比重计算为
SI1
k
i 1
11
(1) i 13
k
i 1
11
(1) i
k
j 1
(16)
(2) j
芳香物质对葡萄酒质量影响比重计算为
SI 2
k
j 1
13
(2) j 13
k
i 1
11
(1) i
k
(3)两种综合主成分的逐步回归 将葡萄和葡萄酒的理化指标及芳香物质的综合主成分看作同等地位的变量 对葡萄酒的质量会产生一定的影响,现对其三者之间进行逐步回归分析(用 matlab 的 Stepwise Regression 窗口实现) ,得到理化指标与芳香物质的回归方程:
(2) (1) (1) y 0.4504 y9 0.1637 y1(1) 0.1806 y2 0.1194 y5
现将前 19 个主成分代替原来的理化指标,然后对葡萄酒的质量进行逐步回归。 运用 MATLAB 中的 Stepwise Regression 窗口(matlab 程序见附录)进行交互 式逐步回归,如图 1。
图 1 逐步回归交互式界面 复判定系数为 R 2 0.8711 ,检验值 F 15.2108 ,得到最终模型为 y 0.1423 y1 0.1782 y2 0.1027 y6 0.1936 y12 0.3670 y13 此回归方程即为酿酒红葡萄和红葡萄酒的理化指标对红葡萄酒质量的影响方程,
基于理化指标分析的葡萄及葡萄酒的评价
基于理化指标分析的葡萄及葡萄酒的评价葡萄及葡萄酒的评价是葡萄酒产业中非常重要的一环,而基于理化指标的分析是评价葡萄和葡萄酒质量的一种方法。
下面我们将对基于理化指标分析的葡萄及葡萄酒的评价进行详细讨论。
首先,对于葡萄而言,理化指标主要包括果实大小、果皮厚度、果实颜色、果汁含糖量、酸度、酚类化合物含量等。
果实大小与产量密切相关,通常越大的葡萄产量越高。
果皮厚度与葡萄外观和保存性能有关,较厚的果皮可以保护果实不受外界因素的影响。
果实颜色通常被视为葡萄的品质指标之一,深色葡萄通常含有更多的花青素,而花青素是葡萄酒中重要的色素成分。
果汁含糖量与葡萄糖度相关,是判断果实成熟度和甜度等级的指标之一、酸度是葡萄品质的重要指标之一,过低的酸度可能导致葡萄酒口感平淡。
酚类化合物含量则与葡萄的芳香物质和抗氧化能力等相关。
通过对这些理化指标的分析,可以全面评价葡萄的品质和适用于酿酒的潜力。
对于葡萄酒而言,理化指标主要包括酒精度、总酸度、挥发性酸度、PH值、葡萄酒中的有机酸、糖分、酚类化合物、色素等。
酒精度是葡萄酒中的酒精含量,对于葡萄酒的风味和醇度影响很大。
总酸度和挥发性酸度分别是葡萄酒中总酸和挥发性酸的含量,对于葡萄酒的酸度和口感起到重要作用。
PH值是葡萄酒的酸碱度,对于葡萄酒的稳定性和口感也有影响。
葡萄酒中的有机酸是葡萄酒中的重要成分,不同有机酸的含量和比例会影响葡萄酒的口感和风味。
糖分是判断葡萄酒甜度的重要指标。
酚类化合物和色素是葡萄酒中的重要成分,对于葡萄酒的色泽和口感产生显著影响。
基于理化指标的分析的定量化方法可以通过仪器设备进行测量,然后用数学和统计学的方法进行分析和处理。
利用这些分析结果,我们可以对葡萄和葡萄酒的品质进行判断和评价。
同时,可以通过与历史数据和目标品质进行对比,从而找出改进和调整的方向。
此外,还可以通过对不同产地、不同品种的葡萄以及不同酿造方法的葡萄酒进行理化指标的分析比较,探索出最佳的生产和酿造工艺。
统计分析在葡萄酒评价中的应用
23
24
25
26
27
第一组平均打
77.1 77.2 85.6
78
69.2 73.8
73
分
第二组平均打
72.2 71.6 77.1 71.5 68.2
72
71.5
分
白葡萄酒样品 1
2
3
4
5
6
7
8
9
10
第一组平均打 分
第二组平均打 分
82 77.9
74.2 75.8
85.3 75.6
79.4 76.9
71 81.5
2012 高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的 资料(包括网上查到的资料 ),必须按照规定的参考文献的表述方式在正文引用处和参 考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规 则的行为,我们将受到严肃处理。 我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展 示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
针对问题四,要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,本文采用 了三种模型,分别为:多元线性回归、多元逐步回归、相关性分析。首先,直接运用多 元线性回归模型建立它们之间的函数关系式,然后再建立多元逐步回归模型,剔除一些 不显著的、贡献不高的、影响不大的变量,抓住一些关键变量,最后通过相关性分析得 到自变量和因变量之间的皮尔逊相关系数,用相关性系数大的的变量去刻画葡萄酒的质 量,取得了较好的效果。对于题目中能否用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒 的质量这一问题,我们在对前面的模型进行相关检验后发现检验效果较好,即通过前面 的模型说明可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,但是考虑到芳香物质 对葡萄酒质量有着一定影响,为此,我们将芳香物质纳入葡萄酒的影响因素之中,重新 建立更加全面的葡萄酒质量评价体系。首先,利用题目所给附表 3 中葡萄和葡萄酒的芳 香物质求其与葡萄酒质量之间的皮尔逊相关系数,对芳香物质数据进行筛选,再将筛选 后的数据纳入影响葡萄酒质量的因素系列中,通过对所有这些因素做多元回归分析和多 元逐步回归分析,发现考虑芳香物质后拟合优度更好。
多元统计分析在葡萄酒品质评鉴中的应用
多元统计分析在葡萄酒品质评鉴中的应用多元统计分析是一种对大量多变量数据进行统计分析的技术,由数据的统计学推断和形式模型的建立两部分组成,它的基本思想是描述、表达和分析数据之间的关系,以达到深入理解数据背后含义的目的[1]。
在葡萄酒品质评鉴中,多元统计分析可以捕捉到葡萄酒的多种品位特征及其复杂关系,从而更准确地预测品质。
评鉴葡萄酒的品质是一件复杂的事情,有时需要多个葡萄酒参数来评判一种葡萄酒的质量,而这些参数之间可能存在复杂的关系。
这一点可以通过建立多元统计模型来解决。
在多元统计模型中,可以对葡萄酒的台糖含量、酸度、游离氮、乙醇含量、挥发性酸含量、醇度、香气等作为多个变量,进行多变量分析,以便更深入地了解葡萄酒品质之间的复杂关系[2]。
在多元统计分析中,可以运用不同的统计技术来探索此类复杂关系。
有用的技术包括多元回归分析、主成分分析和聚类分析,其中所述的分析技术都可以用于预测葡萄酒品质的优劣。
例如,利用多元统计分析,可以通过观察葡萄酒的理化指标作为依据,结合不同的口感和气味特征,探讨并预测葡萄酒品质的潜在变化趋势[3]。
同时,多元统计分析还可以将葡萄酒品质与微生物组合研究相结合,以进一步了解葡萄酒差异程度,展示出复杂的范围和细节。
经过多元统计技术的分析,可以通过测量几个参数来预测葡萄酒品质,比如以台糖含量、酸度、游离氮、乙醇含量等参数的组合,来评价葡萄酒的质量是否优良,以及该葡萄酒是否有特殊口感和各种其他优势[4]。
因此,多元统计分析可以帮助酿酒者更加准确地评价葡萄酒的品质,以便更快更准确地获取最优质的葡萄酒产品。
综上所述,多元统计分析是一种帮助酿酒者更准确评价葡萄酒品质的有效技术,它通过识别葡萄酒的各项参数之间的复杂关系,可以更有效地预测和预测葡萄酒的品质。
同时,多元统计分析技术也可以结合微生物组合研究,以便更深入了解葡萄酒差异程度,使之更具特色。
因此,多元统计分析在葡萄酒品质评鉴中具有重要的作用,值得酿酒者好好利用。
统计分析方法在葡萄酒评价中的应用
酒 样 6 6
品2
酒 样 7 9 品 1 1
酒 样 7 4
品l 5
4 8 4 8
8 7 8 4
7 l 6 7
8 I 7 9
6 1 6 4
7 9 7 8
6 7 6 8
7 4 8 1
8 2 7 3
7 2 4 0 1 0 8 8 7 2 0 0 1 0 1 4
_表示第 j 项理化指标的均值;
6 表示第 j 项理化指标 的标准差 。 四、 模型的建立与求解 为 了体现评委对 红 、 白葡萄酒评价得分 的区别 , 分别对 两种 酒建立显著性差异检验模型 。 ( 一) 评 价 得 分 的 描 述 性 分 析 由问题 的分析 ,以 白葡萄酒为例通过对评价得分 的数据处 理, 得到两组评酒员的检验数 据表 , 如表 1 所示 :
酒 样 7 5
品4
7 7
6 6 6 8
8 0
8 0 8 2
6 5
6 9 7 1
7 7
8 O 8 3
8 3
8 2 8 l
8 8
7 8 8 , 1
7 8
7 1 6 2
8 5
8 7 8 7
8 6
7 5 8 0
酒 样 7 8
品 1 4
分析评 价结 果是否可信 , 主要 依赖于两个指标 : 一 是评 价得 分偏离 标准值的大小 ; 二是评价结果的离散 性。由于聘请的 品酒 师是有一定资质 的,因此可 以把专 家的平均水平作为品评 的标 准值。但考虑到品酒师对某个酒样 品感 官分 析可能出现的失误 性( 引注) , 剔除2 0个品酒师对每类酒样 品评 分的异样点。对于 剩余的得分求均值作为标准评价值 的无偏估计 。再用评价得分 与标 准值 的偏差代 表每组 评酒 员评 价结果 与标 准值 的接 近程 度; 用方差来反映每组评价结果的离散程度。 在与标准值的偏差 不明显的情 况下 , 比较评 价方差的大小 , 作 为综合 判断每组评价 结果的可信 度的依据 。
基于理化指标统计分析的葡萄酒质量评价的论文
基于理化指标统计分析的葡萄酒质量评价的论文基于理化指标统计分析的葡萄酒质量评价的论文1.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
通过给定的得分及理化指标数据解决下列问题:(1)分析两组评酒员的评价结果有无显著性差异,哪一组结果更可信?(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
(3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。
(4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2.问题分析与预备知识2.1问题一利用SPSS等统计软件对评价结果进行数据分析,并采用计算均值、T-检验的方法进行计算分析,用以评判两组评酒员评价结果的差异性,从而判断评价结果可信性。
T-检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
当总体分布是正态分布,如总体标准差a未知且样本容量n<30,那么样本平均数与总体平均数的离差统计量呈t分布。
检验统计量为:其中,t为样本平均数与总体平均数的离差统计量,无为样本平均数,/x 为总体平均数,ax为样本标准差,n为样本容量。
2.2问题二在第一问的基础上,选取第二组评酒师对红白葡萄酒的评价结果平均值作为标准,先通过主成分分析法将问题简化,从而便于排序与分类,再使用聚类分析对主成分的特征向量进行分析。
最后参考酒类等级建立标准W,并使用数据分析结果支持结论。
2.3问题三根据第二问分级结果,使用SPSS软件对葡萄酒和葡萄的主要理化指标进行相关性及多元回归分析[51,从而确定酿酒葡萄与葡萄酒理化指标之间的联系。
2.4问题四根据葡萄酒评价结果与葡萄酒及酿酒葡萄主要理化指标间的关系,筛选出对葡萄酒的分有重要影响的指标,然后做多元线性回归分析,并通过数据带入对比检验后,用得出评价葡萄酒质量的公式。
应用多元统计分析葡萄、葡萄酒理化指标与葡萄酒质量的相关性
数学建模竞赛题 目。本竞赛给出了两组品尝员 ( 每
组1 o X )对2 7 个 红葡 萄酒 5 9 2 8 个 白葡萄 酒 进行 的 品
除花 色苷 外 ,其 余与 白葡萄 酒相 同。 1 . 4 红 、 白葡 萄酒 中的 芳香物 质测定 指标 7 4 种 1 . 5 红 、 白葡 萄酒 评价标 准
酶 活 力 、褐 变 度 、DP P H自 由基 1 / I C 5 0 、总 酚 、单 宁 、葡 萄总 黄 酮、 白藜芦 醇 、反 式 白藜芦 醇苷 、顺
原 料 及葡 萄酒 的 理化 指标 ,也能 在很 大 程 度上 看 出
葡 萄酒 质量 高 低 。
式 白藜 芦醇 苷 、反式 白藜 芦 醇 、顺式 白藜芦醇 、黄
关 键 词 : 葡萄 酒质 量评 价 ;主 成 分分析 ;偏 最 小二 乘 回归 ;逐 步回 归
作 为酿 酒原 料 ,葡 萄与 葡萄 酒 之 间关 系密切 ,
标表 ( 含2 个 表格 ) ,葡 萄 和葡 萄 酒 的 芳 香物 质表
( 含4 个 表格 )。
其 理化 指标 会 在一 定 程度 上 反映 葡萄 酒 的 质量 。确 定 葡萄 酒 质量 时一 般 是通 过聘 请 一批 有 资 质的评 酒 员进行 感 官 品评 ,每 个评 酒 员对 葡萄 酒 的 感官指 标 进 行打 分 ,然 后 求和 得 到其 总分 或平 均 分 。本 文通
本文 通过 引入 偏小 二 乘 回归法 对其 理 化指标 和 品尝 结果 之 间的 关 系进行 分 析 ,试 图找 出酿 酒 葡萄 与葡 萄酒 理化 指标 之 间的联 系 ,以 及酿 酒 葡萄 、葡 萄 酒 理化 指标 对 葡萄 酒 质量 的影 响 ,以探讨用 葡萄
根据葡萄酒理化指标对葡萄酒质量的统计分析
根据葡萄酒理化指标对葡萄酒质量的统计分析作者:黄潇逸来源:《商情》2013年第28期【摘要】本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估,关注影响葡萄酒质量分类的关键指标。
【关键字】葡萄酒,理化指标,质量分类,逻辑回归分析,决策树一、问题提出葡萄酒是一种成分复杂的酒精饮料,葡萄酒行业评价葡萄酒质量时,惯用的是感官评价,但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大,评定常有一定程度的主观性和不确定性,尤其在葡萄酒质量差别不大时,更易引起打分不一致和数据分析产生偏差,使品评结果不够科学。
对葡萄酒质量通过量化的方法进行评价,为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。
葡萄酒的成分与葡萄酒的质量关系密切,是判定葡萄酒质量的重要依据。
本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估,得到影响葡萄酒质量分类的重要指标。
二、主要研究方法针对葡萄酒质量及其理化指标的关系的理论研究方法,现在主要有多元线性回归、神经网络、支持向量机等方法。
本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进行对比研究。
逻辑回归模型主要研究某些因素与二分类变量之间的联系,通过逻辑变换,建立因变量与自变量的线性模型,其中,因变量的系数表示为该因素改变一个单位,个体发生事件概率与不发生事件概率之比的自然对数变化值。
系数得到则主要通过最大似然估计。
决策树通过选择分类效果最好的属性,把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例的分类。
本文主要通过Rattle中包含的决策树的CART算法对葡萄酒质量进行分类研究。
此外,本文还引入了Adaboost算法对决策树分类进行优化,以得到对葡萄酒质量最佳的分类结果。
三、指标选取及数据探索本文主要选择葡萄酒的理化指标作为分类依据进行研究。
2012数学建模A题---葡萄酒评价---国家奖
葡萄酒的评价摘要本文主要运用统计分析方法,解决与所酿葡萄酒有关的问题。
对于问题一,,分别对白酒和红酒的两组数据进行差异性检验。
构建一个能反应葡萄酒本身质量的量,对两组数据分别进行相关性分析,得到第二组评酒员的结果更可信。
对于问题二,先做聚类分析,再做线性回归分析,得到白、红葡萄分为4级和3级。
对于问题三,利用问题二中聚类得到的7个主成分,把每种葡萄酒的理化指标与酿酒葡萄之间的7个主成分进行相关性分析,得到7个回归方程,即为酿酒葡萄与葡萄酒的理化指标之间的联系。
对于问题四,首先建立模型:12W=a *Y +b *Y 。
其中a,b 分别为酿酒葡萄和葡萄酒对葡萄酒质量的贡献率,1Y ,2Y 分别为两种因素的贡献值。
然后,通过确定芳香物质是否对葡萄酒的评分有影响来论证能否用葡萄和葡萄酒的理化指标评价葡萄酒的质量。
问题一中,本文运用excel 做两组数据的显著性差异检验,得到两组评酒员在评论白酒和红酒都存在显著性差异,且通过了F 检验。
接着本文通过确定各指标的权重,构建一个能反应各葡萄酒实际平分的量,把两组数据与之做相关性分析,发现第二组与之相关性更大,故第二组评酒员的结果更可信。
问题二中,本文通过SPSS 做理化指标的聚类分析,得到7个主成分;再做指标与评分的线性回归分析,得到白葡萄的分级结果为4级:一级:白酿酒葡萄14,22;二级:白酿酒葡萄4,5,9,19,23,25,26,28;三级:白酿酒葡萄24,27;四级:白酿酒葡萄1,2,3,6,7,8,10,11,12,13,15,16,17,18,20。
红葡萄酒为3级:一级:红酿酒葡萄2,9;二级:红酿酒葡萄3,4,10,22,24;三级:红酿酒葡萄1,5,6,7,8,11,12,13,14,15,16,17,18,19,20,21,23,25,26,27。
问题三中,本文运用excel 将葡萄酒的一级指标分别与7个主成分进行相关性分析然后对每种主要成分利用SPSS 进行线性回归分析得到以下7个回归方程:()()()()()r1134r21367r3137r4136r6137r71Y =-39.542+1.727+21.850+3.9463Y =4.044+0.026-0.156-0.005-0.1954Y =2.807+0.021-0.030-0.1895Y =2.700+0.024-0.169-0.0056Y =0.069+0.001-0.006-0.0077Y =70.028-0.188+x x x x x x x x x x x x x x x x x ()()2347r8123560.841+0.280-0.187+1.7048Y =58.545-0.021-1.028+1.666+27.045-0.0049x x x x x x x x x 即为每种酿酒葡萄与葡萄酒理化指标之间的联系。
引种鲜食葡萄浆果品质分析
引种鲜食葡萄浆果品质分析史洪琴;蒋丽光【摘要】In order to provide the basic data for screening fine grape varieties in Guizhou province, the quality of 11 varieties of grape berries were analyzed by field trials approaching combined with quality analysis. The results showed that there were differences in the berry character of the tested grape; soluble solids content was in the range of 11.67% to 20.67% ; the total sugar content was 9.13%~17.17% ; titratable acidity was 0.21%~1.10%; vitamin C content was 0.31~1.16 mg/100 mL; fruit shape index was 1.08 to 1.39; longitudinal diameter was 1.86-3.23 cm; diameter was 1.27-2.76 cm, stalk length was 0.68~1.02 cm. In conclusion, the Eurasian grape's quality was better than hybrids of Europe and America, late-maturing varieties were better than early varieties.%为给贵州本地鲜食葡萄筛选优良品种提供基本数据,以11种鲜食葡萄浆果为材料,用田间试验与品质分析相结合的方法,对影响葡萄浆果品质的主要性状进行分析.结果表明,11个葡萄品种浆果品质性状存在差异,可溶性固形物含量为11.67%~20.67%,总糖含量为9.13%~17.17%,可滴定酸为0.21%~1.10%,维生素C含量为0.31~1.16mg/100 mL,果形指数为1.08~1.39,纵径为1.86~3.23 cm,横径为1.27~2.76 cm,果柄长0.68~1.02 cm.综合比较,欧亚种葡萄品质优于欧美杂交品种,晚熟品种品质优于早熟品种.【期刊名称】《湖北农业科学》【年(卷),期】2012(051)020【总页数】4页(P4616-4618,4630)【关键词】葡萄浆果;品质分析;贵州【作者】史洪琴;蒋丽光【作者单位】遵义师范学院,贵州遵义563002;遵义市红花岗区农牧局果蔬站,贵州遵义563002【正文语种】中文【中图分类】S622葡萄是世界四大主栽果树之一,改革开放以来,葡萄栽培技术的简化与完善,推动了中国葡萄产业的大发展,南方成为新的葡萄产区。
统计方法在葡萄酒质量分析中的应用
统计方法在葡萄酒质量分析中的应用近年来,葡萄酒行业取得了突飞猛进的发展。
近些年,国内葡萄酒市场的销售额持续以15%-20%的速度增长,特别是北京、上海等高消费城市的增长速度达到了30%-45%。
葡萄酒产业在中国是一个名副其实的朝阳产业,但由于发展较晚,目前我国对葡萄酒品质的评价体系尚不完善,葡萄酒的评价工作尚有很大的发展空间。
文章通过R型聚类分析的方法根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄分级,之后使用主成分分析法和灰色关联度分析法探究葡萄、葡萄酒的理化指标之间的关系,最后建立回归关系,证明葡萄、葡萄酒的理化性质指标能用来判断葡萄酒的质量。
标签:R型聚类分析;主成分分析法;灰色关联度分析法;回归分析引言葡萄酒是一种由葡萄或葡萄汁经过酒精发酵而得到的含酒精饮料。
葡萄具有种类繁多、成分复杂、气味和口感变化极大的特点。
近些年来,利用酿酒葡萄和葡萄酒的理化指标葡萄酒进行评价的方法应运而生。
但是目前理化分析仍不能取代感官评价。
本文试图探究如何采用统计方法使这些复杂关系的问题简单化,并分析它们之间的联系。
1 两组评酒员的评价结果的可信性经过对两组品酒员的评价结果分析,我们假设两组品酒员的评价结果无显著性差异,在给定显著性水平α=0.05的情况下使用配对样本t检验法来确定两组品酒员的评价结果有无显著性差异。
然后,依据两组品酒员评分的方差大小来确定哪一组更可信。
SPSS将根据T分布表给出t值对应的相伴概率值,如表1,即白葡萄酒和红葡萄酒的t值对应的伴随概率分别为P1=0.070,P2=0.088 ,在显著性水平为0.1的情况下拒绝原假设,即两组品酒师平评价结果有显著性差异。
用MATLAB计算两组品酒员评价结果的方差得到第一组和第二组的方差分别为a= 105.2289,b= 45.8341,即第二组评价结果的系统误差较小,则第二组更可信。
2 对酿酒葡萄进行分级2.1 分析为了简化数据,对于几组重复测量的数据,我们计算并选取了它们的平均值作为其所属的一级指标的数据。
酿酒葡萄的理化指标与葡萄酒的理化指标的联系
摘要为寻求并解释酿酒葡萄的理化指标对葡萄酒的理化指标的影响程度,本模型主要围绕利用统计软件和统计分析方法解决问题,利用两者的理化指标为原始数据,用spss分析软件的相关性分析研究理化指标之间的相关性程度,然后进行记录,分类工作。
经过查阅书籍、小组共同讨论并研究,利用统计手段和有效利用建模方法,由于数据庞大且有较大随机性,首先利用spss软件分析理化指标的主成分,然后记录和分类,建立超定方程模型,把理化指标的关系转化为二阶最小二乘解的问题,运用spss软件中的最小二乘法,记录计算数据。
关键字理化指标之间的相关性程度超定方程最小二乘法双变量分析5.2.3数据预处理1附件二可知,白藜芦醇是由顺式白藜芦醇、反式白藜芦醇、順式白藜芦醇苷和反式白藜芦醇苷组成;黄酮醇是由杨梅黄酮、槲皮素、山萘酚和异鼠李素组成,还原糖是由果糖和葡萄糖组成,氨基酸是由天门冬氨酸、苏氨酸、丝氨酸等组成,这些一级指标都由二级指标构成。
因此,在数据处理之时我们以一级指标作为标准进行处理。
2相关性分析的原始数据有所改动,对于三次实验值,分析的原始数据改为取均值。
3第三问中颜色指标的取值与第二问中的颜色指标雷同5.2.3分析酿酒葡萄与葡萄酒的理化指标之间的联系。
5.2.3.1由于数据过于庞大,我们有必要先整理数据,因此我们利用主成分分析,下面运用SPSS软件对白葡萄酒与白葡萄的理化指标进行系统主成份分析,我们把葡萄酒与葡萄的理化指标的主成份得出的结果,做了归类如下表5.2.3.1模型的建立通过查阅部分书籍,我们意识到要清楚数据中元素之间的联系,可以通过统计方法的相关性分析,把得出的相关性参数利用matlab 软件,建立两种指标间的联系,将问题转化为用线性最小二乘拟合求解超定方程组的问题。
5.2.3.2相关性分析红葡萄与红葡萄酒的理化指标的相关性分析相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
统计分析在葡萄酒质量评价中的应用
0.05),上述指标在较大程度上影响了感官得分 。 2.2 深入分析— ——通径分析
1 1.1
材料与方法 试验材料
不同来源的成品红葡萄酒 166 种 ; 测定其中的 100
种成分 ,并对其进行感官评价 。
1.2
检测方法
收稿日期 :2008-12-01
李运 (1965- ), 大学本科 , 工程师 。 作者简介:
李记明 (1966- ), 研究员 , 博士生导师 , 现任张裕葡萄酿酒股份有限公司总工程师 。 通讯作者:
感官指标 : 感官指标是能直接反映出葡萄酒质量差 异的指标 , 由具有品酒经验的专业品酒员对上述葡萄酒 进行感官品评 , 并将所有品酒员的分数平均后作为样品 的最终得分 。 常规指标 : 酒精度 、 总酸 、 挥发酸 、 还原糖 、 干浸出物 的分析方法按国家标准 GB/T15038 -94 ( 葡萄酒 、 果酒通 用试验方法 ) 中的有关方法进行 。
酿酒科技
· 2009 年第 4 期 ( 总第 178 期 ) LIQUOR-MAKING SCIENCE & TECHNOLOGY 2009 No.4(Tol.178)
79
统计分析在葡萄酒质量评价中的应用
李
摘 要:
运, 李记明, 姜忠
264001)
统计学方法应用于葡萄酒质量分析与评价中, 可以更加清楚地了解葡萄酒成分与感官质量之间的相互关
系, 为葡萄酒的质量控制、 预测、 预报、 区分提供一种有效的途径。通径分析—— —能够准确地反应出葡萄酒中两个变 量之间的直接作用; 相关性分析—— —可为葡萄酒的质量分析与控制提供依据; 变异系数分析—— —可反应葡萄酒中含 量的稳定性, 主成分分析—— —确定葡萄酒特征性成分的重要基础。 (丹妮 ) 关键词 : 葡萄酒; 统计分析; 质量评价; 感官质量 文献标识码 :B 文章编号 :1001-9286 (2009 )04-0079-04 中图分类号 :TS262.6; TS261.7; TB114; O21
基于理化指标分析的葡萄及葡萄酒的评价
基于理化指标分析的葡萄与葡萄酒的评价摘要针对酿酒葡萄与葡萄酒理化指标的统计,通过聚类法,典型相关分析及逐步回归分析法等,建立数据统计模型:对于问题一,首先对两组数据进行整理分析,然后利用spss软件进行配对数据t-检验(详见第三页表二),从而判断出两组评酒员的评价结果具有显著性差异。
而后利用excel进行方差分析-无重复双因子分析得出二组结果更为可信。
详细见第 3 页。
对于问题二,使用matlab软件对原始变量进行主成分分析得出中和变量,然后使用spss软件应用离差平方和法对中和变量进行聚类分析,从而根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,为了检验欧式测距是否可以正确区分出葡萄的等级,所以对主成份分析后的理化指标求均值,经过验证,均值相差大,足以区分葡萄等级,最终将红葡萄分为3级,白葡萄分为4级。
详细见第 5 页。
对于问题三,首先通过matlab软件对葡萄酒的理化指标进行主成分分析,得出中和指标。
然后使用spss软件进行典型相关分析,得到葡萄酒的理化指标与酿酒葡萄的理化指标的关联度。
再通过对关系度表格的分析,得到酿酒葡萄与葡萄酒的理化指标之间的联系。
详细见第 14 页。
对于问题四,考虑到葡萄酒质量与酿酒葡萄和葡萄酒理化指标可能成线性关系,故应用逐步回归分析,将葡萄酒质量设为因变量,酿酒葡萄和葡萄酒理化指标设为自变量,列出线性回归方程,通过spss软件进行数据拟合和显著性分析,排除影响不显著的变量,将因变量与评酒员打分结果对比,得出拟合结果基本符合。
再通过分析得到分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。
最后根据F检验判断所得数据的正确性。
由于葡萄酒可能会收到年份和贮藏环境等其他因素的影响,因此不能单纯地通过葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
详细见第 16 页。
关键字:典型相关分析 t检验主成分分析一、问题重述葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同。
酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响
酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响钱圳冰,黄鸿基,冯 帆,周行洲(南京邮电大学,江苏 南京 210046)[摘 要]文章研究的是葡萄酒的根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级和分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。
首先研究筛选了一组合理的葡萄酒样本进行了标准化处理。
分析理化指标对葡萄酒质量的影响,研究对筛选出的理化指标作标准化处理,分别得到红葡萄提取出的5个无相关性因子和白葡萄6个无相关性因子。
[关键词]因子分析;理化指标;两变量相关分析[DOI]10 13939/j cnki zgsc 2017 18 2051 引 言酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
本文研究分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。
2 算法模型分析对于理化指标对葡萄酒质量的影响的分析,首先应对之前筛选出的酿酒葡萄和葡萄酒的理化指标作标准化处理。
考虑到筛选后的理化指标数量仍然较多且彼此间都具有一定的相关性,可以利用因子分析对理化指标进行降维。
理化指标对葡萄酒质量的影响可以用多元线性回归方程来表示,将红、白葡萄降维后无相关性因子作为自变量,红、白葡萄酒质量作为因变量进行线性回归分析,得到酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的多元线性回归方程。
3 建立因子分析模型对理化指标进行降维我们以红葡萄为例,建立因子分析模型:(1)对筛选出的17个原始理化指标进行标准化处理进行因子分析的指标变量有17个,表示为xj(j=1,2,…,17),共有27个评价对象,第i个评价对象的第j个指标的取值为aij,i=1,2,…,27;j=1,2,…,17。
(2)求解相关系数矩阵R相关系数矩阵R=(rij)16×16,有rij=27k=1aki·akj27-1,i,j=1,2,…,17其中,rii=1;rij=rji;rij为第i个指标与第j个指标的相关系数。
利用数据分析提升葡萄栽培和酿造工艺的效率和质量
利用数据分析提升葡萄栽培和酿造工艺的效率和质量标题:利用数据分析提升葡萄栽培和酿造工艺的效率和质量引言:葡萄是一种重要的果树作物,在全球范围内被广泛种植,并用于生产葡萄酒。
为了提高葡萄的产量和质量,以及酿造过程的效率和质量,许多葡萄园和酿酒厂开始利用数据分析技术来优化栽培和酿造工艺。
本文将探讨如何利用数据分析来提升葡萄栽培和酿造工艺的效率和质量。
1. 数据收集和存储:要利用数据分析来优化葡萄栽培和酿造工艺,首先需要收集并存储相关的数据。
这包括葡萄园的气象数据(例如温度、湿度、降雨量等)、土壤质量数据、葡萄品种和植株生长数据,以及酿酒过程中的各项指标和质量检测数据。
这些数据可以通过气象站、土壤传感器、智能物联网设备和生产线传感器等手段进行收集,并与数据库集成以便后续分析。
2. 数据分析和模型建立:将收集到的数据进行预处理,清洗掉异常点和缺失值,并进行统计分析和可视化,以便更好地理解数据的特征和关系。
利用统计学方法和机器学习技术,可以建立相关的模型和算法来预测葡萄产量和品质,优化施肥、灌溉和采摘时间等栽培决策,以及改进酿酒工艺。
3. 栽培决策优化:通过分析历史数据和当前数据,可以预测葡萄产量和品质的变化趋势,并基于这些信息来优化栽培决策。
例如,根据天气情况预测葡萄病虫害的发生概率,及时进行预防性喷药;通过分析土壤质量数据,调整施肥方案,提高葡萄植株的养分吸收效率;结合植株生长数据和天气数据,确定最佳采摘时间,确保葡萄的成熟度和品质。
4. 酿酒工艺改进:利用数据分析可以更好地控制酿酒过程中的各项指标,提高酒的质量和口感。
通过分析历史数据和当前数据,可以确定影响酒质的关键因素,例如发酵温度、酒液浓度、酒槽通风等。
建立模型来预测酒的口感和质量,并根据模型的推荐进行调整,可以减少试错和试验的成本,提高酒的一致性和稳定性。
5. 质量控制和问题识别:利用数据分析可以实时监测葡萄园和酿酒过程中的各项指标,并及时发现和解决问题。
基于通径分析法对酿酒葡萄指标与葡萄酒质量相关性的研究(全文)
基于通径分析法对酿酒葡萄指标与葡萄酒质量相关性的研究本文主要研究酿酒葡萄与葡萄酒质量的理化指标之间的相关性。
首先将数据进行归一化处理,再运用逐步回归法,提取出酿酒葡萄与葡萄酒中较为关键的几项理化指标,然后采纳通径分析法,对各项理化指标之间的直接影响与间接影响进行详细的讨论。
结论表明,酿酒葡萄指标与葡萄酒质量具有相关性,且不同的酿酒葡萄指标之间亦会相互影响,因此,在酿造工业中对各项指标应予以全面的考虑。
XX:1 题目的背景与意义在实际生活的问题中,常常需要研究多个相关变量并分析变量之间的线性关系。
用于此类分析的方法繁多,其中较为常用的便是多元线性回归分析、偏相关分析与通径分析。
本文旨在研究,运用通径分析法分析酿酒葡萄与葡萄酒质量理化指标之间的相关性。
酿酒葡萄,是指以酿造葡萄酒为主要生产目的的葡萄品种,大致可分为红色品种与白色品种。
而葡萄酒的风格与品质会因为酿酒葡萄的不同而产生差异。
因此,分析酿酒葡萄与葡萄酒的理化指标之间的联系,并得出多个相关变量的线性关系,对于葡萄酒酿造工业的改进,显得意义重大。
2 数据背景数据来自20XX年全国大学生数学建模竞赛题。
3 基本假设1)假设题目所给数据具有随机性与代表性;2)假设评酒员提供的数据具有客观性。
4 通径分析酿酒葡萄与葡萄酒理化指标的相关性4.1方法介绍通径分析法是由数量遗传学家Swll Wright于1921年首先提出,经过遗传育种学者不断改进和完善形成的一种多元统计技术。
作为相关分析的继续,通径分析法通过将简单相关系数分解为多个部分,以显示某一变量对因变量的直接作用效果和间接作用效果,其实质上是标准化变量的多元线性回归分析。
其中,通径系数既是自变量与因变量之间带有方向性的相关性系数,又是变量标准化的不带单位的偏回归系数。
4.2原理及解释由于酿酒葡萄与葡萄酒理化指标的单位不统一、数值差异较大,这样大的差异容易导致计算复杂,计算结果不精确。
为幸免以上情况的发生,将数据进行归一化,归一处理后的数据属性值在(0,1)之间。
多元统计研究在葡萄酒评价中的应用
承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式<包括电话、电子邮件、网上咨询等)与队外的任何人<包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料<包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示<包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是<从A/B/C/D中选择一项填写):A我们的参赛报名号为<如果赛区设置报名号的话):所属学校<请填写完整的全名):参赛队员(打印并签名> :1.2.3.指导教师或指导教师组负责人 (打印并签名>:日期:2018年9月10日赛区评阅编号<由赛区组委会评阅前进行编号):编号专用页赛区评阅编号<由赛区组委会评阅前进行编号):全国统一编号<由赛区组委会送交全国前编号):全国评阅编号<由全国组委会评阅前进行编号):多元统计分析在葡萄酒评价中的应用摘要本文在葡萄酒评价中针对多组指标的多组数据,在数据处理上应用了标准化处理、主成分分析等多重方法,应用方差分析、聚类分析、回归模型中的趋势面分析等多种多元统计的方法对葡萄酒进行评价。
针对问题一,其要求是对两组评酒员的评价结果有无显著性差异进行分析,并判断哪一组的结果更可信。
本文建立了单因素方差分析模型,经过求解,假设与检验,得到的结果是这两组评酒员的评价结果无显著性差异,然后又经过比较两组评酒员所打分数的平均值与方差,由于第二组的方差比第一组小,因此第二组的评价更可信。
针对问题二,首先用葡萄酒中的芳香物质来定量分析葡萄酒的质量,对数据进行无量纲化以及主成分分析法进行处理,然后对每一个酿酒葡萄及葡萄酒样本进行相对性的综合评分,最后用着两组数据进行二维的聚类分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写):_________A____________我们的参赛报名号为(如果赛区设置报名号的话):____________13_____________所属学校(请填写完整的全名):__________________________________________参赛队员 (打印并签名) :1. _____________________________________________2. _____________________________________________3. _____________________________________________指导教师或指导教师组负责人 (打印并签名):_____________________________日期: 2012 年 _9_月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):统计方法在葡萄酒评价中的应用摘要本文针对葡萄酒质量评价问题,首先对葡萄理化指标和葡萄酒理化进行分析,然后对基本数据进行统计分析及无量纲化处理,再对各指标进行相关性分析,最后针对各个问题建立模型并求解。
问题一,利用方差分析对两组评酒员的红酒的打分数据进行显著性检验,得到两组是显著差异的,利用方差知识,认为第二组评酒员打分更可信;问题二,利用主成分对一级指标进行聚类,将红(白)酿酒葡萄都分成三类,根据葡萄酒的打分,对葡萄进行分级;问题三,利用典型相关分析,将葡萄指标和红(白)葡萄酒理化指标进行分析,均得到两对典型变量;最后,用逐步回归分析对葡萄指标、葡萄酒指标与葡萄酒打分,得到回归模型,将回归模型进行拟合,利用残差数据论证葡萄和葡萄酒的理化指标来评价葡萄酒的质。
关键词:方差分析相关分析主成分典型相关分析逐步回归一.问题重述如题所说,葡萄酒质量一般是通过聘请一批有资质的评酒员进行品评确定的。
通过每个评酒员在对葡萄酒进行品尝后,对其分类指标打分的总和,从而确定葡萄酒的质量。
葡萄酒的质量与所用酿酒葡萄的好坏有直接的关系,同时,该葡萄酒和所用酿酒葡萄的质量,在一定程度上是由在这二者中所检测到的理化指标所表现的。
题目中给出了某一年份一些葡萄酒的评价结果,这是由两组评酒员做出的评价。
并给出了与之质量相关的各种数据,数据信息很充分。
在此基础上,要求建立必要的数学模型,进而研究如下几个问题:第一,分析两组评价结果,考查是否存在显著性差异,得出一组更可信的结果;第二,根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级,其实就是确定酿酒葡萄的好坏;第三,分析酿酒葡萄与葡萄酒的理化指标之间的联系;第四,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,即分析酿酒葡萄和葡萄酒的理化指标是如何影响葡萄酒的质量的,然后在研究结果中论证是否确实能用酿酒葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
二、问题分析1)分析两组评酒员对葡萄酒的评价有无显著性差异,是为了便于从整体分析两组评判员打分是否具有差异性。
本文将每组10个评酒员看成一个整体,将每个人对葡萄酒样品的评分进行平均,反映出某一组评酒员对某葡萄酒样品的的评价情况。
可列出一个关于红酒的2行27列的矩阵和一个关于白酒的2行28列的矩阵。
用SAS的分别对这两个矩阵进行方差分析,并进行F检验和t检验。
2)对酿酒葡萄进行分级,首先建立酿酒葡萄理化指标和葡萄酒外观、香气、口感之间的关系。
由于葡萄的指标很多,并且还包含二级指标,首先将二级指标剔除,保留一级指标,然后对一级指标进行主成分分析,提取主要成分,以综合指标表示,然后对得到的主要的主成分进行聚类,结合每种葡萄对应的葡萄酒的打分,对葡萄进行分级。
3)考虑到酿酒葡萄与葡萄酒的理化指标数量大,是多维对多维变量的分析,本文采用典型相关分析,找出各自的线形组合的典型变量。
从而找出典型相关变量与哪几种因素有较大关联,最后做出酿酒葡萄和葡萄酒理化指标之间的联系。
4)为了分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,本文考虑以葡萄酒的打分为因变量,以葡萄和葡萄酒的理化指标为自变量,用逐步回归的方法,来选取变量,最后得到回归方程,利用回归方程拟合葡萄酒打分,最后做残差论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
三、基本假设1. 评酒员的打分结果相互独立,是独立实验。
2. 假设评酒员均无主观情感色彩,严格遵守葡萄酒评判标准。
3. 葡萄酒的质量不受环境变化等因素的影响。
4. 各项理化指标标准,数据统计无误。
5. 评酒员的评分基本呈正态分布。
6. 葡萄的数据测测定基本没有误差四、符号说明i:第i个评酒员j:第j种红葡萄酒样品k:第k组评酒员R:第一组第j个红葡萄酒样品的评分均值1jR:第二组第j个红葡萄酒样品的评分均值2jw:第一组第j个白葡萄酒样品的评分均值1jw:第二组第j个白葡萄酒样品的评分均值.2j五、模型建立与求解5.1 两组评酒员评价的结果有无显著性差异分析5.1.1 建立模型对于i =1...10,j =1...28.k=1,2令ijk x 为第j 种红葡萄酒样品,第k 组第i 个评酒员的总评分。
ijk y 为第j 种白葡萄酒样品,第k 组第i 个评酒员的总评分。
将两组评酒员对某一样品红葡萄酒和白葡萄酒的评分进行平均,可得:10111110i j ij i R x ===∑10221110i j ij i w y ===∑10111110i j ij i w y ===∑ 10221110i j ij i R x ===∑其中1j R 表示第一组第j 个红葡萄酒样品的评分均值.2j R 表示第二组第j 个红葡萄酒样品的评分均值. 1j w 表示第一组第j 个白葡萄酒样品的评分均值. 2j w 表示第二组第j 个白葡萄酒样品的评分均值.得到两组评酒员对红白葡萄酒打分,见表1:由于红葡萄酒的评价分析与白葡萄酒的评价分析基本一致,因此我们只描述红葡萄酒的模型。
为了分析两组评酒员打分是否有差异,采用T 检验,取统计量)11(2)1()1(212122221121n n n n S n S n R R T +-+-+-=-故拒绝域为:122(2)T t n n α=≥+-当T 122(2)t n n α≥+-时可判断两样本之间有显著性差异,反之可判断无显著性差异。
5.1.2 模型求解利用SAS 工具对以上两个矩阵表一数据进行方差分析得到以下表格:表3 红葡萄酒的显著性差异分析表3说明对于红葡萄酒,两组评酒的打分差异明显,因为最后t 检验统计量以8.13%的概率拒绝原等方差假设,说明两种体是异方差的,所以采用非参数检验,在附录中利用SAS 软件做非参数检验数据,更充分的说明了两种体是异方差的。
表4 白葡萄酒的T 检验分析由表4,5知道,对于白葡萄酒打分,两组变量方差相等的F 检验值为2.09,概率值r ()P F 为0.0603,大于0.05,所以两组方差相等的假设是合理的。
由此,我们采用适应于两组方差相等时的t 值,即采用标记为Equal 一行的t 值和概率值。
由输出知r P >∣t ∣=0.0513,大于0.05,因此两组白葡萄酒评价结果均值不存在显著性差异,在实际问题中, 该值较小,认为还是有差异的。
由于红白葡萄酒均值是显著性差异的,为判断哪一组评价结果更可信,对两组两钟葡萄酒的评分方差进行比较,见表6:由表6可以看出:第一组红(白)酒的方差绝大部分要比第二组的方差大,方差表示均值的离散程度,由此说明第二组红(白)葡萄酒的评价比第一组更可信。
5.2 根据酿酒葡萄的理化指标对酿酒葡萄进行分级 5.2.1 建立模型由于二级指标构成一级指标,因此一级指标可以总整体上反映二级指标,故将酿酒葡萄理化指标中的二级指标剔除,提取出一级指标,对一级指标进行主成分分析。
同样,白葡萄的建模过程与红葡萄类似,我们就以白葡萄模型进行说明。
令ij z 为第i 组酿酒葡萄中的第j 个一级指标量,于是可作酿酒葡萄理化指标的矩阵,⎪⎪⎪⎪⎪⎭⎫⎝⎛mn m m n n z z z z z z z z z 212222111211对原始数据进行标准化处理∑∑==---=ni j ij ni ijij ij z z n z n z z 121')(111 )...2,1......3,2,1(m j n i ==得到标准化矩阵⎪⎪⎪⎪⎪⎭⎫⎝⎛=mn m m n n z z z z z z z z z Z '2'1'2'22'21'1'12'11'计算样本相关系数矩阵。
⎪⎪⎪⎪⎪⎭⎫⎝⎛=nn n n n n r r r r r r r r r R 212222111211经标准化处理后的数据的相关系数为:∑=-=nt tj ti ij z z n r 111 )....3,2,1,(n j i = 求相关系数矩阵R 的特征值)21,(n λλλ 和相应的特征矩阵A ⎪⎪⎪⎪⎪⎭⎫⎝⎛=nn n n n n a a a a a a a a a212222111211. 由主成分分析可以得到n 个主成分,我们根据各个主成分累计贡献率的大小选取前k 个主成分,其中贡献率为∑=pi ii1λλ贡献率越大,说明该主成分所包含的原始变量的信息越强。
主成分个数k 的选取,主要根据主成分的累积贡献率来决定,我们取累计贡献率为80%为基准,即累计贡献率达到80%以上,我们就认为所选取的前K 个主成分能够基本包含原始信息。
根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。
具体形式可如下。
111212122212k k n n nk C C C C C C C C C ⎛⎫⎪ ⎪⎪⎪⎝⎭标准化矩阵Z 与特征矩阵A 的前k 列相乘得到以降维以后的可以反映总体指标的矩阵M 即'''1112111121'''2122221222'''1212k n k n n n nk m m mn a a a z z z a a a z z z M a a a z z z ⎛⎫⎛⎫ ⎪ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭对此M 矩阵进行聚类分析,将酿酒葡萄样品分为N 类,我对这N 类葡萄按照其相对应葡萄酒评分进行等级划分,其对应的葡萄酒评分均值大小与该类酿酒葡萄的等级高低呈正比。