聚类分析例题

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

聚类分析例题
聚类分析例题
5.2酿酒葡萄的等级划分
5.2.1葡萄酒的质量分类
由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共评出了六个级别（见表5）。

等级特优优优良良及格不及格
分数95-100 90-94 80-89 70-79 60-69 0-59
在问题2的计算中，我们求出了各支酒的分数，考虑到所有分数在区间[61.6，81.5]波动，以原等级表分级，结果将会很模糊，不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级，为了方便计算，我们还对等级进行降序数字等级（见表6）。

等级偏优偏优良良中及格
分数80-84 75-79 70-74 65-69 60-64
数字等级 5 4 3 2 1
通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表格（见表7）：
编号红酒原等级细化等级白酒原等级细化等级1号68.1 2 2 77.9 3 4 2号74 3 3 75.8 3 4 3号74.6 3 4 75.6 3 4 4号71.2 3 3 76.9 3 4 5号72.1 3 3 81.5 4 5 6号66.3 2 2 75.5 3 4 7号65.3 2 2 74.2 3 3 8号66 2 2 72.3 3 3 9号78.2 3 4 80.4 4 5
10号68.8 2 2 79.8 3 4
11号61.6 2 1 71.4 3 3
12号68.3 2 2 72.4 3 3
13号68.8 2 2 73.9 3 3
14号72.6 3 3 77.1 3 4
15号65.7 2 2 78.4 3 4
16号69.9 2 3 67.3 2 2
17号74.5 3 3 80.3 4 5
18号65.4 2 2 76.7 3 4
19号 72.6 3 3 76.4 3 4 20号 75.8 3 4 76.6 3 4 21号 72.2 3 2 79.2 3 4 22号 71.6 3 3 79.4 3 4 23号 77.1 3 4 77.4 3 4 24号 71.5 3 3 76.1 3 4 25号 68.2 2 2 79.5 3 4 26号 72 3 3 74.3 3 3 27号 71.5 3 3 77 3 4 28号 79.6 3 4 考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程，我们用到了聚类分析方法中的ward 最小方差法，又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。

所谓类，通俗地说，就是指相似元素的集合。

为了将样品进行分类，就需要研究样品之间关系。

这里的最小方差法的基本思想就是将一个样品看作P 维空间的一个点，并在空间的定义距离，距离较近的点归为一类；距离较远的点归为不同的类。

面对现在的问题，我们不知道元素的分类，连要分成几类都不知道。

现在我们将用SAS 系统里面的stepdisc 和cluster 过程完成判别分析和聚类分析，最终确定元素对象的分类问题。

建立数据阵，具体数学表示为：
1111...............m n nm X X X X X ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦
（5.2.1）式中，行向量1(,...,)i i im X x x =表示第i 个样品；
列向量1(,...,)'j j nj X x x =’，表示第j 项指标。

(i=1,2,…,n;j=1,2,…m)
接下来我们将要对数据进行变化，以便于我们比较和消除纲量。

在此我们用了使用最广范的方法，ward 最小方差法。

其中用到了类间距离来进行比较，定义为：
2||||/(1/1/)kl k l k l D X X n n =-+
（5.2.2）
Ward 方法并类时总是使得并类导致的类内离差平方和增量最小。

系统聚类数的确定。

在聚类分析中，系统聚类最终得到的一个聚类树，如何确定类的个数，这是一个十分困难但又必须解决的问题；因为分类本身就没有一定标准，人们可以从不同的角度给出不同的分类。

在实际应用中常使用下面
几种方法确定类的个数。

由适当的阀值确定，此处阀值为kl D 。

根据样本的散点图直观的确定。

当样本所含指标只有2个或3个时，可运用散点图直观观察。

如果指标超过3个时，可用主成份法先综合指标。

根据统计量确定分类个数。

在SAS 中，提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1) 2R 统计量:
222221//A T B T R S S S S =-=
（5.2.3）
其中，2A S 为分类数为k 个数时的总类内离差平方和，2T S 为所有样品或变量
的总离差平方和。

2R 越大，说明类内的离差平方和在总离差平方和中比例较小，也就是分为k 个类的效果越好。

显然分类越多，每个类离差越小，2R 越大，所以我们只能取k 使得2R 足够大，但k 本身比较小，而且2R 不再大幅度增加。

2)半偏2R 统计量:在把类k C 和类l C 合并为下一水平的类m C 时，定义半偏相关：
2/kl B T =半偏R （5.2.4）
其中()kl m k l B S S S =-+为合并类引起的类内离差平方和的增量: T S 为类T C 的类内离差平方和。

半偏2R 用于评价单次合并效果，其值越大，说明上次合并效果越好。

3)伪F 统计量: (T-P )/(k-1)=/()
k k F P n k -伪（5.2.5）伪统计量评价分为k 个类的效果。

伪F 统计量越大，表达分为k 个类越合理。

通常取伪F 统计量较大而类数小的聚类水平。

4) 伪2t 统计量:
2/(()/(2))kl k l k l t B S S n n =++- （5.2.6）用此统计量评价合并类k C 和类l C 的效果，该值大说明合并的两个类k C 和类l C 是很分开的，这个合并不成功，而应该去合并前的水平。

通过使用sas软件的cluster过程和tree过程，可以求解分析出结果。

5.2.3模型的求解与分析
首先，我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标，通过聚类分析，把酿酒葡萄分成五类，得到初步的结果（见图3）：
从图中我们能够直观的看到把酿酒葡萄分为5大类，为了检验效果，我们通过判别分析检验原本的28种葡萄分类的结果，得到表8.
组号 1 2 3 4 5
概率0.2727 0.1250 0.3333 0.4000 1.000
在误差一栏我们看到，每一组的分类都存在或多或少的误差，我们觉得这个结果是不满意的。

为了进一步优化方案以及简化分析过程，我们利用逐步判别法对参与分类的因素进行逐步剔除，以达到减少噪声干扰的目的，让得到的结果更加合理和完善。

通过逐步判别法，我们剔除了原本59个数据中的35个相关不大，造成干扰的因素，剩下了24个因素。

经过剔除干扰项后，为了检验剔除后干扰项后的结果是否更加合理，我们重新对剩余的24个因素进行了聚类分析，做谱系聚类图和判别分析。

得到了新的结果（见表9）：
分类数样品数半偏2
R
2
R伪F统计
量
伪2t统计量
6 4 0.0171 0.915 47.6 9.1
5 6 0.0500 0.865 37.0 6.1
4 11 0.0612 0.804 32.9 17.3
3 21 0.1032 0.701 29.3 17.9
2 7 0.1648 0.536 30.1 10.0
1 28 0.536
2 0 . 30.1
与之前的差异我们得到了新的谱系聚类图（见图4）
图3：谱系聚类图图4：优化后的谱系聚类图
通过对比前后的两图，我们可以发现，分类的结果除了组间的类别有点波动之外，整体的分组是没有改变的。

所以，我们第一步得到了优化结果的可靠。

但仅仅用图说明是不够的，为此我们通过判别分析法，通过具体数据来说明分析结果的可靠。

组号 1 2 3 4 5
概率 0 0 0.1667 0 1.000
有存在误差的。

这个结果是比较令人满意也令人信服的。

由此，我们得到的结果是，我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。

具体分类结果为：分类/组数组别
A/共组 P1,P8,P13,P16,P17,P18,P19,P22
B/共组 P14,P21,P23
C/共组 P2,P3,P4,P6,P7,P9,P11,P12
D/共组 P10,P20,P25,P26
E/共组 P3,P5,P15,P24,P27,P28
的分类。

由于用到的算法与检验方法一样，所以这里不再累赘，将直接输出最后分组结果。

部分详细内容见附录。

分类/组数组别
A/共组 P1,P4,P5,P8,P15,P17,P24
B/共组 P2,P7,P9,P11,P19,P20,P22,P23
C/共组 P10,P13,P14,P16,P25,P26,P27
D/共组 P6,P12,P18
E/共组 P3,P21
行评分，首先应该说明的是，烂葡萄是不能酿出好酒，根据这个，我们可以客观的说出一点，一般好的葡萄能酿出好的酒，可能酿酒过程会意外让酒变质导致酒变差，但好的酒由好的葡萄酿制出来是毫无疑问的。

为此我们把对于酒的等级相当于对葡萄打分。

每种葡萄分别得到分数i S ，i 表示第i 种葡萄。

通过将每组的葡萄总分除以组内总数得到的数据，对葡萄进行分类，
i =/S 分类指标组内数
通过指标的具体分数，我们就可以轻松对葡萄进行等级划分，结果见表13：白葡萄酒酿酒葡萄得分等级
E 4.2 特优
B 4 优
C,D 3.75 良好
A 3.62 中
红葡萄酒酿酒葡萄得分等级
B,E 3 良好
A,C 2.57 中等
D 2 及格
proc cluster data=wg outtree=tree method=ward
ccc pseudo print=15;
var a1-a59;
id number;
run;
proc tree data=tree out=new nclusters=5 graphics;
copy a1-a59;
id number;
run;
proc stepdisc data=new;
class cluster;
run;
proc discrim data=new outstat=newstat method=normal pool=yes list crossvalidate;
class cluster;
priors proportional;
var a1-a59;
proc cluster data=nwg outtree=tree method=ward
ccc pseudo print=15;
var b1-b24;
id number;
run;
proc tree data=tree out=new nclusters=5 graphics;
copy b1-b24;
id number;
run;
proc stepdisc data=new;
class cluster;
run;
proc discrim data=new outstat=newstat method=normal pool=yes list crossvalidate;
class cluster;
priors proportional;
var b1-b24;
run;
附录六：优化后的判别分析表
在表中的各列数据代表的意思是:”NCL”为分类数量，表示新类别形成后类别的总数。

“--Clusters Joined---”为合并的类别，指明这一步合并了哪两个类，有两列。

其中OBx表示某一个原始样品，而CLx表示在某一个聚类水平上产生的类。

“FREQ”表示这次合并得到的类有多少个样品。

“SPRSQ”是半偏，“RSQ”是，”CCC”是考察聚类效果的统计量，该
值越大，聚类水平越好，”PSF”为伪F统计量，“PST2”为伪统计量，“Tie”指示距离最小的候选类对是否有多对，本例全无。