聚类分析实验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析实验 Revised by Hanlin on 10 January 2021

聚类分析

用数据文件World95.sav做实例分析。

例1:系统聚类法

为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。

第一步:首先要选出亚洲国家或地区,使用数据—>选择个案

—>选择如果条件满足—>输入region=3,之后确定就可以了,这样我们将亚洲国家或区域选择了出来。接下类就正式进行聚类分析。

第二步:选择在菜单选项中选择分析—>分类—>选择系统聚类分析

第三步:在系统聚类法中,我们看到在分群下有两个选项,个案(样品聚类或Q型分类)和变量(变量聚类或R型聚类)这里选择样品聚类(个案)。

在输出下有统计量与图,这里都进行选择。

第四步:在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。

第五步:在系统聚类中有四个按钮。

首先在方法中的聚类方法中选择组内联结法,在度量标准中选择平方欧氏距离,在转换值的标准化中选择Z得分。点击继续。

接下来选择统计量,选择合并进程表与相似性矩阵,继续。

之后在绘制中选择树状图,继续即可。

最后点击确定。

第六步:输出分析

表1表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算使用的是平方欧氏距离,所以样品间距越大,样品越相异,从矩阵中可以看出,孟加拉国(Bangladesh)与柬埔寨(Cambodia)的距离最小,那么他俩先聚为一类。

表1

案例

1:Afghani

stan 2:Banglade

sh3:Cambodia4:China

5:Hong

Kong6:India

7:Indones

ia

1:Afghanis

tan

.000 1.586.96915.50038.743 5.03210.875

2:Banglade

sh

1.586.000.1467.77728.022 1.211 5.054

3:Cambodia.969.146.0009.39431.080 1.951 6.159 4:China15.5007.7779.394.00012.675 2.975.623 5:Hong

Kong

38.74328.02231.08012.675.00019.38914.578

6:India 5.032 1.211 1.951 2.97519.389.000 1.424 7:Indonesi

a

10.875 5.054 6.159.62314.578 1.424.000 8:Japan46.57234.83837.82715.967 1.85425.08818.277 9:Malaysia17.1619.27611.024.6178.222 3.875 1.119 10:N.

Korea

23.36814.80616.823 2.2598.1377.636 2.958 11:Pakista

n

3.843.736 1.438 5.29820.958.522 3.421 12:Philipp

ines

15.7688.89310.343.80611.357 3.655.637 13:S.

Korea

26.24717.44019.653 4.317 3.7349.883 5.058 14:Singapo

re

39.89829.57132.51313.585.29920.56315.091 15:Taiwan30.02819.86222.447 4.889 2.56411.666 6.514 16:Thailan

d

18.41910.35711.824.55412.781 4.802 1.119 17:Vietnam14.6167.6668.893.42115.260 3.102.424这是一个不相似矩阵

表2反映每一阶段聚类的结果,比如第一阶段时第二个样品(孟加拉国)与第三个样品(柬埔寨)聚为一类,注意这时有16类,因此某阶段的分类数等于总的样品数减去这个阶段的序号。接下来的分析可根据表4自行思考。

表2

聚类表

阶群集组合

系数首次出现阶群集

下一阶

群集1群集2群集1群集2

123.1460010

21617.294005

3514.2990012

41315.3900011

5416.423027

6611.5220013

747.573509

8912.595009

949.7237814

1012.9010113

111013 1.0390414

1258 1.2623015

1316 1.74410616

14410 2.14191115

1545 5.694141216

161410.00013150

表3是聚合系数随分类数变化的曲线,由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类也符合我们的目的。

表3

表4是树状聚类图,从图中可以有分类个数得到分类情况,如果我们选择分类数为3,就从距离为10的地方往下切,得到分类如下:1类{2,3,1,6,11},2类{5,14,8},3类{16,17,4,7,9,12,13,15,10}我们可以从经济发展水平和文化教育水平来理解所做的分类,第2类所代表的国家应该是亚洲经济发达程度最高的国家或地区,第1类的经济水平和文化水平都比较低,第三类国家或地区的经济水平和文化水平居中。

表4

相关文档
最新文档