聚类分析例题 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5.2酿酒葡萄的等级划分

5.2.1葡萄酒的质量分类

由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共评出了六个级别（见表5）。

在问题2的计算中，我们求出了各支酒的分数，考虑到所有分数在区间[61.6，81.5]波动，以原等级表分级，结果将会很模糊，不能分得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出5个等级，为了方便计算，我们还对等级进行降序数字等级（见表6）。

通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表格（见表7）：

考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型

在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程，我们用到了聚类分析方法中的ward 最小方差法，又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。所谓类，通俗地说，就是指相似元素的集合。为了将样品进行分类，就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作P 维空间的一个点，并在空间的定义距离，距离较近的点归为一类；距离较远的点归为不同的类。面对现在的问题，我们不知道元素的分类，连要分成几类都不知道。现在我们将用SAS 系统里面的stepdisc 和cluster 过程完成判别分析和聚类分析，最终确定元素对象的分类问题。

建立数据阵，具体数学表示为：

1111...............m n nm X X X X X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦

（5.2.1）式中，行向量1(,...,)i i im X x x =表示第i 个样品；

列向量1(,...,)'j j nj X x x =’，表示第j 项指标。(i=1,2,…,n;j=1,2,…m)

接下来我们将要对数据进行变化，以便于我们比较和消除纲量。在此我们用了使用最广范的方法，ward 最小方差法。其中用到了类间距离来进行比较，定义为：

2||||/(1/1/)kl k l k l D X X n n =-+ （5.2.2） Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。

系统聚类数的确定。在聚类分析中，系统聚类最终得到的一个聚类树，如何确定类的个数，这是一个十分困难但又必须解决的问题；因为分类本身就没有一定标准，人们可以从不同的角度给出不同的分类。在实际应用中常使用下面几种

方法确定类的个数。由适当的阀值确定，此处阀值为kl D 。

根据样本的散点图直观的确定。当样本所含指标只有2个或3个时，可运用散点图直观观察。如果指标超过3个时，可用主成份法先综合指标。

根据统计量确定分类个数。在SAS 中，提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1) 2R 统计量:

222221//A T B T

R S S S S =-= （5.2.3）其中，2A S 为分类数为k 个数时的总类内离差平方和，2T S 为所有样品或变量

的总离差平方和。2R 越大，说明类内的离差平方和在总离差平方和中比例较小，也就是分为k 个类的效果越好。显然分类越多，每个类离差越小，2R 越大，所以我们只能取k 使得2R 足够大，但k 本身比较小，而且2R 不再大幅度增加。

2)半偏2R 统计量:在把类k C 和类l C 合并为下一水平的类m C 时，定义半偏相

关：

2/kl B T =半偏R （5.2.4）

其中()kl m k l B S S S =-+为合并类引起的类内离差平方和的增量: T S 为类T C 的类内离差平方和。半偏2R 用于评价单次合并效果，其值越大，说明上次合并效果越好。

3)伪F 统计量: (T-P )/(k-1)=/()

k k F P n k -伪（5.2.5）伪统计量评价分为k 个类的效果。伪F 统计量越大，表达分为k 个类越合理。通常取伪F 统计量较大而类数小的聚类水平。

4) 伪2t 统计量:

2/(()/(2))kl k l k l t B S S n n =++- （5.2.6）用此统计量评价合并类k C 和类l C 的效果，该值大说明合并的两个类k C 和类l C 是很分开的，这个合并不成功，而应该去合并前的水平。

通过使用sas 软件的cluster 过程和tree 过程，可以求解分析出结果。

5.2.3模型的求解与分析

首先，我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标，通过聚类分析，把酿酒葡萄分成五类，得到初步的结果（见图3）：

从图中我们能够直观的看到把酿酒葡萄分为5大类，为了检验效果，我们通过判别分析检验原本的28种葡萄分类的结果，得到表8.

在误差一栏我们看到，每一组的分类都存在或多或少的误差，我们觉得这个结果是不满意的。为了进一步优化方案以及简化分析过程，我们利用逐步判别法对参与分类的因素进行逐步剔除，以达到减少噪声干扰的目的，让得到的结果更加合理和完善。

通过逐步判别法，我们剔除了原本59个数据中的35个相关不大，造成干扰的因素，剩下了24个因素。经过剔除干扰项后，为了检验剔除后干扰项后的结果是否更加合理，我们重新对剩余的24个因素进行了聚类分析，做谱系聚类图和判别分析。得到了新的结果（见表9）：

之前的差异我们得到了新的谱系聚类图（见图4）

图3：谱系聚类图图4：优化后的谱系聚类图

通过对比前后的两图，我们可以发现，分类的结果除了组间的类别有点波动之外，整体的分组是没有改变的。所以，我们第一步得到了优化结果的可靠。但