2012年大学生数学建模竞赛A题(优秀论文A题葡萄酒)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
葡萄酒质量的评价
摘要
葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。
本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。
首先,采用双因子可重复方差分析方法,对红、白葡萄酒评分结果分别进行检验,利用Matlab软件得到样品酒各个分析结果,结合01
-数据分析,发现对于红葡酒有70.3%的评价结果存在显著性差异,对于白葡萄酒只有53%的评价结果存在显著性差异。
通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。
为了评价两组结果的可信度,借助Alpha模型用克伦巴赫α系数衡量,并结合F检验,得出红葡萄酒第一组评酒员的评价结果可信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。
综合来看,主观因素对葡萄酒质量的评价具有不确定性。
结合已分析出的两组品酒师可靠性结果,对葡萄酒的理化指标进行加权平均,最终得出十位品酒师对样品酒的综合评价得分。
将每一样品酒的综合得分与其所对应酿酒葡萄的理化指标(一级指标)共同构成一个数据矩阵,采用聚类分析法,利用SPSS软件对葡萄酒样进行分类,根据分类的结果以及各葡萄样品酒综合得分最终将酿酒葡萄分为A(优质)、B(良好)、C(中等)、D(差)四个等级,客观地反映了酿酒葡萄的理化指标与葡萄酒质量之间的联系。
为了分析酿酒葡萄与葡萄酒理化指标之间的联系,采用相关分析法,能有效地反映出两者间的联系,取与葡萄各成分相关性显著的葡萄酒理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
由于已经通过回归分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此从酿酒葡萄成分对葡萄酒的理化指标的影响,再研究出葡萄酒理化指标与葡萄酒质量的联系,便可作为一个桥梁,反映出葡萄与葡萄酒理化指标对葡萄酒的质量的作用。
研究葡萄酒理化指标与葡萄酒质量的联系,需要运用变量间的相关性及Pearson系数法分析葡萄酒的理化指标与葡萄酒质量评价指标的相关性,通过比较选出与葡萄酒评价的一级指标相关性程度大的葡萄酒成分,进行回归分析法,建立酿酒葡萄的理化指标与葡萄酒质量之间的拟合方程,结合各个质量一级指标的权重,从而完成了从葡萄酒成分对葡萄酒质量的客观评价。
综合计算结果,与酿酒葡萄分级的结果吻合,所以分析结果较客观。
关键词:葡萄酒双重多因素分析01
-数据分析 Alpha模型聚类分析及欧式距离相关性分析多元回归Pearson系数法
1.问题重述
葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
试建立数学模型求解下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
2.问题分析
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。
问题一:
要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。
通过绘制每个样品酒的均值评分差异图,对每个样品酒的两组评酒员在各个指标的均值进行比较,发现对于红葡萄的评价,两组评酒员还是存在着显著性的差异的,而对于白葡萄酒的评价,两组评酒员的差异性并不是很明显,列举部分红、白葡萄酒评分差异图如下:
图表 1红葡萄酒样品12差异图(左边),系列1为第二组品酒员打分均值,系列2为第一组品酒员打分均值。
图表 2红葡萄酒样品15差异图(右边),横坐标为10个指标变量,包括澄清度、色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感质量以及整体评价。
针对两组评酒员在大量差异图中表现出来对红、白葡萄酒的评价存在差异,对红、白葡萄酒进行分开地显著性检验。
第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的27种葡萄样品酒各个分析结果。
比较27个显著性检验
的结果,若具有显著性差异的样品酒占总样品酒的比例高于 ,有足够的把握认定两组
评酒员的评价结果具有显著性差异。
第二步,对两组评酒员给予红、白葡萄酒的打分进行可信性分析,将红、白葡萄酒分别进行可信度分析,比较两组评酒员对不同种类葡萄酒的评价是否具有各自的优势。
在进行双因子多重分析和可信性分析之前,需要对原先数据进行如下处理:
3
1.对于附件1给出的数据,先将两组品酒员的评价结果按着样品酒进行统一划分,每一样品酒对应着两种评价结果。
将每一样品酒的评价结果组成评价矩阵,矩阵以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共20行。
2.针对红葡萄酒样品20评酒员4号对色调的评分缺失,利用同组评酒员对红葡萄酒样品20色调评分的平均值作为4号评酒员的评分值。
做可信度分析时,将两组的27种酒样品评价结果组成两组评价总矩阵,以葡萄酒的评价指标为列项,共10列,以每个评酒员作为横向量,共270行,分别用SPSS19.0对两组矩阵进行信度分析,目的是对量表的可靠性与有效性进行检验,判断出哪一组可信度更高。
问题二:
问题二要求对酿酒葡萄进行分级,酿酒葡萄的成分直接影响葡萄酒的质量,选取优质营养成分高的酿酒葡萄酿酒,保证了葡萄酒的营养价值和保健价值。
但是葡萄酒质量优劣,不单单从营养成分和养身价值上考虑,一瓶优质的葡萄酒,还得具备着可观赏性,纯正的口感、芬芳的酒香等优点,而这些优点,都得由评酒员来给出评价。
所以,对酿酒葡萄进行分级,不单单从葡萄的成分上考虑,还得结合最终酿成的葡萄酒质量综合考虑。
因此将酿酒葡萄的各成分与评价员给予所酿成的葡萄酒的质量打分综合起来,进行聚类分析,将酿酒葡萄依据综合指数进行分类,结合聚类分析的结果以及综合指标的分数将葡萄划分等级。
依据:
在进行据聚类分析之前,需要对原始数据进行预先处理
1.分别计算附件一中评酒员各项评分指标的权重并加和,最后求取10位评酒员
的权重平均值作为葡萄酒样品的综合评价指标。
2.用酿酒葡萄各项理化指标(多次测得的取平均值)以及酒样的综合指标形成
一个31列28行的原始资料阵,并用SPSS 的Z标准化将数据标准化。
问题三:
酿酒葡萄和葡萄酒的理化指标都很多,为了找出它们之间的联系,首先将葡萄的成分与葡萄酒的理性指标列成一个大矩阵,分析葡萄成分与葡萄酒理想指标的相关性,找出它们之间相关性大的指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。
1.酿酒葡萄的成分和葡萄酒的理化指标列成一个大矩阵。
2.通过SPSS软件做相关性分析,选取与葡萄酒理化指标相关性程度大的葡萄酒成
分n个指标,建立拟合方程。
问题四:
酿酒葡萄的理化指标并不能直接与葡萄酒的质量建立联系,由于在问题3中已经通过相关性分析建立了酿酒葡萄和葡萄酒理化指标之间的关系,因此我们分析葡萄酒的理化指标与葡萄酒质量的相关性,计算相关性系数,通过比较选出系数高的即与葡萄酒质量指标相关性程度大的葡萄酒成分,进而用回归分析法建立酿酒葡萄的理化指标与葡萄酒质量之间的关系。
1.附表一中列出了十位品酒员对葡萄酒外观、香气和口感分析三者的数据,用Matlab7.6.0b,分别对四项指标求27(28)种红(白)葡萄酒样品权重平均值作为葡萄酒质量的评价指标。
2.通过SPSS软件作因子分析分析两者之间的相关性,选取与葡萄酒质量指标相关性程度大的葡萄酒成分n个指标,建立拟合方程。
3.符号说明
4.模型假设
(1)假设数据来源真实有效
(2)假设各变量的相差微小,各坐标对欧式距离的贡献是同等的且变差大小相同,欧氏距离效果理想。
(3)假设酿酒工艺条件相同,无其他人为因素影响
(4)0.35
Cronbach Alpha≤为低信度,0.350.7
≤≤则尚可,若
Cronbach Alpha
Cronbach Alpha≥则属于高信度。
假设组一与组二评分分别处于不同信度区间,可
0.7
信度差异明显。
5
5. 建模过程
5.1. 问题一的建模与求解 模型建立:
利用双因素可重复方差分析结合0-1分析检验两组评酒员的评价结果有无显著性差异
1.双因子可重复方差分析的统计模型[]1。
假设在两因子方差分析中,因子A 共有r 个水平,记作12,,...,r A A A ,每个水平下,进行t 次试验,因子B 共有k 个水平。
一个典型的双因子方差分析的数据结构如下表所示。
表格 1 双因子可重复方差分析的数据结构
tk x 为因子A 的某个水平下第t 试验所得结果,i A 表示因子A 的第i 个水平,
1,2,...,i r =。
第j 列数据为因子B
的第j 个水平下所考察的变量取值,每一列为一个总
体,j =1,2,…,k 。
所以一个两因子方差分析的数据结构表里,共有r t k ⨯+个总体,在本题中,2,10,10r k t ===。
下表给出因子B 所对应的各个指标:
01:H 两组评酒员的评价结果不存在差异.⇔02:H 两组评酒员的评价结果存在着差异.
7
11:H 各个指标对评价结果不存在影响.⇔12:H 各个指标对评价结果存在影响. 当原假设01H 为真时,说明两组评酒员的评价结果不存在显著性差异,反之称两组评酒员的评价结果存在着显著性影响因素。
当原假设11H 为真时,说明选取的各个指标对评价结果没有显著性影响,在本题中,显然原假设11H 是不成立的,后续的检验将证明这点。
2.两因子方差分析的方差分解。
(1)误差平方和。
每一个观察值ij x 与总平均值x 之间的离差平方和称为误差平方和,记作SST
SST =(
)
2
11r
k
ij i j x x ==-∑∑
其中11
/r k
ij i j x x rkt ===∑∑,称为总均值。
(2)行组间误差。
双因子误差平方和分解的第一部分,称为行组间误差,记作SSA
SSA =()
2
.1r
i i k x x =-∑
(3)列组间误差。
双因子误差平方和分解的第二部分,称为列组间误差,记作SSB
SSB =()
2
.1
k
j j r x x =-∑
(4)组内误差。
双因子误差平方和分解的第三部分,称为组内误差,记作SSE
SSE =()2
..11r
k
i j ij i j x x x x
==--+∑∑
行组间误差衡量的是行因子不同水平之间的差异,列组间误差衡量的是列因子不同水平之间的差异。
它们的误差值中既包含随即误差也包含了因子影响的系统误差。
所以判断行(列)因子是否有显著性影响,主要考察行(列)组间误差和组内误差之间的差异大小。
如果行(列)组间误差和组内误差很接近,就认为行(列)因子无显著性影响。
反之,认为行(列)因子有显著性影响。
两因子方差分析的检验统计量。
()22
1SST
n χσ
- 其中n r k t =⋅⋅。
根据单因素方差分析推导,有行组间误差服从自由度为1r -的2χ分布
()22
1SSA
r χσ
-
列组间误差服从自由度为1k -的2χ分布
()22
1SSB
k χσ
-
剩余的列组服从自由度为1rkt r k --+的2χ分布
()22
1SSE
rkt r k χσ--+
则两因素方差分析的检验统计量为如下两个: (1) 行检验统计量。
()1,1A MSA F F r rkt r k MSE
=
---+
(2) 列检验统计量。
()1,1B MSB
F F k rkt r k MSE
=
---+
双因子可重复方差分析的结果判定
当显著性水平为α时,如果 ()11,1A F F r rkt r k α->---+,拒绝01H ,说明两组评酒员的评价结果存在显著性差异;等价的P 值检验是,当A P 值<α时,拒绝原假设01H ;综合来讲,当()11,1A F F r rkt r k α->---+,或A P 值< α时,拒绝原假设01H 。
0-1数据分析
在给定*0.05α=条件下,对于有m 个样品酒来说(红葡萄酒27m =,白葡萄酒28m =),定义函数:
1
0.051,2,...,0
0.05
i i i p Y i m p ≤⎧==⎨
>⎩ (1)
其中i p 为每个样品酒的A P 值。
给定置信度:
i
Y m
β=∑
(2)
对m 个样品酒的双因子可重复方差检验后,得出β值,则认为在置信水平β下,两组评酒员的评价结果存在着显著性差异。
Alpha 模型进行可靠性分析
克伦巴赫α系数:测度内部一致性的一个指标, α与皮尔逊r 系数都是一样的范
9
围在0—1 之间,如果为负值则表明表中某些项目的内容是其他一些项目的反面;α越接近于1,则量表中项目的内部一致性越是高,可信度越大。
根据量表中的项目数k 和各项之间的相关系数r 计算得出
1(1)kr
k r
α=
+-
当量表中项目k 增加时,α值也会增大;同时,项目之间的相关系数r 较高时,α也会比较大。
这里的r 是指各项与其他各项之和计算相关系数的平均值。
模型求解:
双因子可重复方差分析模型检验
利用Matlab7.6.0的anova21函数对已经预处理的数据进行双因子可重复方差分析,可以得到每个样品酒的检验结果,列举两个检验结果如下所示:
提取每个样品酒的Rows 所对应p 值,然后结合公式(1)、公式(2)进行0-1分析,得到红、白葡萄酒的各个样品酒的i p 如下:
图表 3模型检验结果
模型结果分析
分析图标3的结果,可以知道,对于红葡萄酒来说,对27个葡萄酒样品评分检验中,有70.3%的评价结果中,两组评酒员的评价结果存在着显著性差异(置信水平
为95%)。
对于白葡萄酒的28个葡萄样品评分的检验,只有53%的评价结果中,两组评酒员的评价结果存在显著性检验(置信水平为95%)。
这样的结果,符合之前问题分析中,各个组队样品酒的评分均值差异图。
即:两组评酒员对红葡萄的评分结果更具有显著性差异,而对于白葡萄酒的评分,两组评酒员的评价差异性较不明显。
Alpha 模型的可靠性分析
1. 利用SPSS19.0进行可靠性统计量对红葡萄酒的两组品酒员评分的分析
若将某一项目从量表中剔除,则量表的平均得分、方差(每个项目得分与剩余各项目得分间的相关系数、以该项目为自变量所有其他项目为应变量建立回归方程的2R 值以及Cronbach α值将会改变。
有表知第一组数据中剔除了两项,1α增加到0.874,第一组评酒员红葡萄酒的12Cronbach 0.874Cronbach 0.750αα=>=,组2尚有35%的内容未曾涉及,故信度不高。
表格 2第一组红葡萄酒
11
表格 3第二组红葡萄酒
分析比较两者的F 检验表明, 1F =516.417<2F =3293.639,组2的显著性更强, 而1p 、
2p 均小于0.01,表示两组该量表的重复度量效果良好。
综合分析结果表明,组一的评酒员可信度更高。
(2)可靠性统计量对白葡萄酒的两组品酒员评分进行分析
同样利用SPSS 可靠性分析,建立Alpha 模型对白葡萄酒的品酒员评分数据进行检
验,发现不同种类的酒,因其酿造,成分的不同,品酒员对葡萄口感,质量的分析评价上有差异,得出第一组品酒员白葡萄酒的120.7630.838Cronbach Cronbach αα=<=
127.437.63S S =<=、121270.3614891.463F F =<=,组2的显著性更强,1p 、2p 均小于0.01 表示两组该量表的重复度量效果良好。
综合分析结果表明,白葡萄酒组二的品酒员可信度更高。
5.2. 问题二的建模与求解 模型建立:聚类分析及欧式距离
对样品和指标(变量)进行分类主要采用聚类分析法[]2
,而求取样品以及类之间的
距离有多种方法,其中主要使用欧式距离和最短距离法。
(1) 数据标准化
由于所选数据的量纲和数值大小都不一致,数值的变化范围也不同,因此必须首先对所选数据进行标准化处理,如果有n 个样本,个样本有m 个指标,则每个变量可表示为ij x ,
均值
1
1n
j ij i x x n ==∑
标准方差
j s =则标准化后
()*0ij j
ij j
j
x x x s
s -=
≠
(2)聚类
距离:对样品进行聚类时,“靠近”往往由某种距离来刻画。
若每个样品有p 个指标,故每个样品可以看成p 维空间中的一个点, n 个样品就组成p 维空间中的n 个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。
令ij x 表示第i 个样品的第j 个指标, ij d 表示第i 个样品与第j 个样品之间的距离,最常见最直观的计算距离的方法是:
明考斯基距离(Minkowski )
()1/1q
p
q ij ik jk k d x x =⎡⎤=-⎢⎥
⎣⎦
∑
当1q =时,
()1
1p
ij ik jk k d x x ==-∑ 即为绝对距离
当2q =时,
()()1/2
212p
ij ik jk k d x x =⎡⎤=-⎢⎥⎣⎦
∑ 即为欧氏距离
当q =∞时
()1max ||ij ik jk k p
d x x ≤≤∞=- 称为切比雪夫距离。
当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标
准化后的数据进行计算。
系统聚类;,将n 个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。
开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直至所有的样品都成一类为止,最终完成养分的分类。
计算类与类之
13
间的距离主要有: (1)最短距离法:
设p G 、q G 、r G 分别为一类,则最短距离的计算公式为:
(,)min{,}k jl p q D p q d j G l G =∈∈
此时将类p G 与类q G 合并为类r G ,则任意的类k G 和r G 的距离公式为
2,,,min
min{
min
,
min
}min{,}i k j r
i k j p
i k j q
kr ij ij ij kp kq X G X G X G X G X G X G D d d d D D ∈∈∈∈∈∈=
==
依次下去,最终完成对样品的分类。
(2)最长距离法
(,)max{,}k jl p q D p q d j G l G =∈∈
将类p G 与类q G 合并为类r G ,则任意的类k G 和r G 的距离公式为
2,,,max
max{max
,
max
}max{,}i k j r
i k j p
i k j q
kr ij ij ij kp kq X G X G X G X G X G X G D d d d D D ∈∈∈∈∈∈=
==
(3)类平均法
1
(,)p q
G ij i G j G G p q d LK ∈∈=
∑∑ 将类p G 与类q G 合并为类r G ,则任意的类k G 和r G 的距离公式为
2222
2211()i k j r i k j p i k j p
p q kr
ij
ij ij kp kq X G X G X G X G X G X G k r
k r r r n n D d d d D D n n n n n n ∈∈∈∈∈∈=
=+=+∑∑∑∑∑∑ (4)重心法
(,)q q c X X D p q d =
将类p G 与类q G 合并为类r G ,则任意的类k G 和r G 的距离公式为
22222,
p q p q kr
kp
kq
pq r
r
r
n n n n D D D D n n n
=
+
-
模型求解:根据欧式距离对酿酒葡萄分类
(1)对红葡萄酒进行分类
将附件中的组一评酒员评价标准,算出各项所占权重并加和,最终求得十位品酒员对每个葡萄酒样品的平均值,作为27种酒样品的综合评价指标,并用葡萄酒的综合指标以及酿酒葡萄的理化指标形成一个31列28行的原始资料阵,将其数据标准化,通过spss 进行聚类分析,得到酒样品的八个类别,并列出每个酒样品所对应的综合指标,得出下表以及聚类分析树状图
表格 4 葡萄酒的分类与综合评价指标
观察表中数据,不难发现红葡萄酒样品1、10、11、25单独化为一类,而不与综合指标相近的酒品类为一组,根据这四种葡萄酒的理化指标以及酿酒葡萄的成分对综合指标相近的组类进行分析比较,得出酒品1的花色苷含量高达408.028 mg/100g鲜重,单
宁22.019 mol/kg、总酚23.604、总黄酮9.480mmol/kg、顺式白藜芦醇3.195mg/kg均高
15
于第一类酒样品理化指标的数据。
红葡萄酒样品10、11、花色苷含量较低,白藜芦醇含量较高,样品25氨基酸含量较低,果穗质量含量较高,均与指标相近的类别的理化指标数据有较大差异。
据资料[3][4]分析得,新酒主要以花色苷为主色调,陈酒种单宁起主导作用。
有单宁存在,花色苷将减少。
氨基酸的含量与人体血液中的氨基酸有着密切联系,与脯氨酸成负相关,但与缬氨酸成正相关。
这些含量的高低会影响葡萄酒口感、色泽、纯正度,从而评酒员对酒的分数存在差异。
因此,聚类分析结果在对各项理化指标进行数据处理时,达不到组间距离。
结合综合指标的高低以及聚类分析的结果,以及每一种酿酒葡萄所对应的红葡萄酒样品,将酿酒葡萄分为A 、B 、C 、D 。
分别代表优质、良好、中等、差四个等级:如下表
表格 5 酿酒葡萄(红)的等级划分
由问题一知,第二组评酒员对白葡萄酒评价可信度更高,用聚类分析的欧式距离可
分出不同组类,根据综合指标的高低划分出A 、B 、C 、D (分别代表优质、良好、中等、差)四个等级:其中葡萄样品*3氨基酸总量5022.14mg/100g 、酒石酸11.790g/L 、不含柠檬酸、葡萄*25花色苷含量较低、葡萄*27褐变度、黄酮醇含量均远远高于同组水平、因此这3种酿酒葡萄的理化指标与其综合指标相近的组类有一定的差异而达不到组间距离,单独分为一组。
表格 6 酿酒葡萄(白)的等级划分
5.3. 问题三的建模与求解 模型建立
相关性分析
相关分析是描述两个变量间关系的密切程度,主要由相关系数值表示,当相关系数r 的绝对值越接近于1,则表示两个变量间的相关性越显著。
双变量系数测量的主要指标有卡方类测量、Spearman 相关系数、pearson 相关系数等,由于酿酒葡萄和葡萄酒的数据为定距数据,则在进行两者间的相关性检验时用pearson 相关系数来判断,其公式为:
()()x x y y r --=
Pearson 简单相关系数检验统计量为:
t =
其中t 统计量服从2n -个自由度的t 分布。
回归分析
多元回归分析是研究多个变量之间关系的回归分析方法,确定变量之间数量的可能形式,并用数学模型表示如下:
01k
i i i Y X ββε
==++∑
其中0β为截距项,i β为偏回归系数,ε为残差项。
多元回归方程及其显著性检验
建立模型,要对模型进行拟合度检验,回归方程的显著性检验就是检验样本回归方程的变量的线性关系是否显著,即能否根据样本来推断总体回归方程中的多个回归系数中至少有一个不等于0,主要是说明样本回归方程2
r 的显著性。
检验的方法用方差分析,这时因变量Y 的总体变异系本分解为回归平方和与误差平方和,即表示为:
yy L Q U
=+
其中
2
2
211
11()()i N
N
N
yy i i i i i L y y y y n ====-=-∑∑∑
17
()2
1ˆN
i i Q y y
==-∑ 21
ˆ()N
i i U y
y ==-∑ 此外可以用F 检验对整个回归进行显著性检验,即Y 与所考虑的k 个变量自变量是否有
显著性线性关系,即公式为:
//(1)
U k
F Q n k =
--
检验的时候分别与F 的临界值进行比较,若()0.01,1F F k n k ≥--,认为回归高度显著 或称在0.01水平上显著;
()()0.050.01,1,1F k n k F F k n k --≤≤--。
认为回归在0.05水平上显著; ()()0.10.05,1,1F k n k F F k n k --≤≤--则称回归在0.01水平上显著。
若()0.1,1F F k n k <--,则回归不显著,此时Y 与这k 个自变量的线性关系就不确切。
表格 7 多元线性回归方差分析表
模型求解。