聚类分析实验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析实验
公司标准化编码 [QQX96QT-XQQB89Q8-NQQJ6Q8-MQM9N]
聚类分析
用数据文件做实例分析。
例1:系统聚类法
为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。
第一步:首先要选出亚洲国家或地区,使用数据—>选择个案
—>选择如果条件满足—>输入region=3,之后确定就可以了,这样我们将亚洲国家或区域选择了出来。接下类就正式进行聚类分析。
第二步:选择在菜单选项中选择分析—>分类—>选择系统聚类分析
第三步:在系统聚类法中,我们看到在分群下有两个选项,个案(样品聚类或Q型分类)和变量(变量聚类或R型聚类)这里选择样品聚类(个案)。
在输出下有统计量与图,这里都进行选择。
第四步:在数据文件中,选择的变量有
Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;
在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。
第五步:在系统聚类中有四个按钮。
首先在方法中的聚类方法中选择组内联结法,在度量标准中选择平方欧氏距离,在转换值的标准化中选择Z得分。点击继续。
接下来选择统计量,选择合并进程表与相似性矩阵,继续。
之后在绘制中选择树状图,继续即可。
最后点击确定。
第六步:输出分析
表1表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计
算使用的是平方欧氏距离,所以样品间距越大,样品越相异,从矩阵中可以看
出,孟加拉国(Bangladesh)与柬埔寨(Cambodia)的距离最小,那么他俩先
聚为一类。
表1
案例
1:Afghanistan 2:Bangladesh 3:Cambodia 4:China 5:Hong Kong 6:India 7:I 1:Afghanistan .000.969
2:Bangladesh .000.146
3:Cambodia .969.146.000
4:China .000
5:Hong Kong .000
6:India .000
7:Indonesia .623
8:Japan
9:Malaysia .617
10:N. Korea
11:Pakistan .736.522
12:Philippines .806
13:S. Korea
14:Singapore .299
15:Taiwan
表2反映每一阶段聚类的结果,比如第一阶段时第二个样品(孟加拉国)与第三
个样品(柬埔寨)聚为一类,注意这时有16类,因此某阶段的分类数等于总的
样品数减去这个阶段的序号。接下来的分析可根据表4自行思考。
表2
聚类表
阶群集组合
系数首次出现阶群集
下一阶
群集 1群集 2群集 1群集 2
123.1460010
21617.294005
3514.2990012
41315.3900011
5416.423027
6611.5220013
747.573509
8912.595009
949.7237814
1012.9010113
1110130414
12583015
131610616
1441091115
1545141216
161413150
表3是聚合系数随分类数变化的曲线,由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类也符合我们的目的。
表3
表4是树状聚类图,从图中可以有分类个数得到分类情况,如果我们选择分类数为3,就从距离为10的地方往下切,得到分类如下:1类{2,3,1,6,11},2类{5,14,8},3类{16,17,4,7,9,12,13,15,10}我们可以从经济发展水平和文化教育水平来理解所做的分类,第2类所代表的国家应该是亚洲经济发达程度最高的国家或地区,第1类的经济水平和文化水平都比较低,第三类国家或地区的经济水平和文化水平居中。
表4
表5也是反映样品聚类情况的图,如果按照设定的分类,在那类的行上从左到右就可以找到各类所包含的样品。
表5
例2:快速聚类
还是用的数据,从中筛选出亚洲国家或地区试图将亚洲国家或地区按经济和文化水平分为三类,使用快速聚类法。
第一步:与例1相同。
第二部:选择在菜单选项中选择分析—>分类—>选择K-均值聚类分析。
第三步:在数据文件中,选择的变量有
Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;
在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。
将分类数指定为3,在选项中选择统计量中的:初始聚类中心,ANOVA表,每个个案的聚类信息。
输出分析:
表6表示最初各类的重心,也就是种子点,
表6
初始聚类中心
聚类
123
187771
People living in cities
(%)
448278
Average female life
expectancy
457672
Average male life
expectancy
People who read (%)299991
205198607055
Gross domestic product /
capita
表7时样品的分类情况,我们看到快速聚类发将亚洲国家或地区分为三类,
1类{1,8,19,24,50,51,66,69,76,80,98,108}2类{47,57,89}3类{86,96},我们可以对分类结果进行分析,第一类国家或地区经济和文教卫生