聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
聚类分析的目的是将资料按相似程度进行分类。
分类的对象可以是指标(变量)也可以是观测数据。
分类方法大致可分为两类:系统聚类法和非系统聚类法。
一、系统聚类法
1.适用范围:可对观测数据或变量进行聚类
2.聚类原理:
3.聚类方法:组间连接法(类平均法)、组内连接法、最远距离法、ward 法等7 种。
4.Spss 的实现
例1 生物学家收集了21种蝴蝶花样本的4个指标:萼片长度()1x ,萼片宽度
()2x ,花瓣长度()3x ,花瓣宽度()4x ,数据如下表。
试进行聚类分析。
序号 1x 2x 3x 4x
序号 1x 2x 3x 4x
序号 1x 2x 3x 4x
1 50 24 34
2 2 55 2
3 33 2 3 50 47 4
4 21 4 5
5 4
6 35 18 5 55 46 44 21 6 86 24 40 21
7 83 22 39 24
8 54 23 76 22
9 53 24 34 3 10 46 26 40 2 11 58 22 69 23 12 87 23 41 22 13 55 25 43 2 14 54 23 74 20 15 57 45 41 24 16 83 23 42 23 17 53 49 42 20 18 51 23 37 4 19 49 24 44 1 20 57 25 73 23 21 88 25 40 19
(1)录入数据
点击variable view 定义变量名;点击data view 输入数据(按行输入 一个数据一行);点击file-save 或save as 保存数据。
(2)聚类分析
Analyze---classify----hierarchical cluster
主对话框界面说明:
Variables 框:用于选入进行聚类分析的变量。
Label cases by框:选入标签变量,如果选入,该变量的取值将在分析结果中取代记录号出现。
该框只在样品聚类时可用。
Cluster框:用于选择是进行样品聚类还是变量聚类,默认前者。
Diaplay框:用于选择希望输出的结果,包括统计量和统计图,默认两者都输出。
Statistics 子对话框界面说明:
Agglomeration schedule:聚类过程的详细记录,给出每一步中类合并的具体情况及相应的类之间的距离。
Proximity matrix:列出观察个体之间的距离或变量之间的相关矩阵。
Cluster membership 单选框组:选择是否给出各样品或变量的聚类结果列表,默认不给出。
Plots 子对话框
Dendrogram:输出分类结果树状图,默认没有,建议使用。
Icicle: 输出分类结果冰状图,建议不要使用。
Orientation:确定冰状图是纵向还是横向排列。
Method子对话框
Cluster method: 用于选择聚类方法。
此处提供了7种不同方法,分别是组间连结法、组内连结法、最近距离法、最远距离法、重心法、中位数距离法、Ward’s 法,默认组间连结法,又叫类平均法。
Measure组: 用于选择类与类之间的距离,默认欧氏距离。
Transform values:当纳入分析的各变量方差相差太大时会影响结果的正确性,此时应当进行变量的标准化,一般采用Z-scores即标准正态变换。
下方的两个单选钮用于确定变换是在同一变量内进行还是同一记录内进行。
(3)保存结果
File---export
(4)结果分析
缺失值报告
Case Processing Summary a,b
Cases
Valid Missing Total
N Percent N Percent N Percent
21 100.0 0 .0 21 100.0
Case Processing Summary a,b
Cases
Valid Missing Total
N Percent N Percent N Percent
21 100.0 0 .0 21 100.0
a. Squared Euclidean Distance used
b. Average Linkage (Between Groups)
聚类分析的详细步骤:第一步第6个观察值和第12个观察值聚为一类,第二步第2个观察值和9个观察值聚为一类......
Average Linkage (Between Groups)
Agglomeration Schedule
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 6 1
2 4.000 0 0 5
2 2 9 7.000 0 0 9
3 8 1
4 8.000 0 0 10
4 7 16 11.000 0 0 12
5 6 21 12.000 1 0 12
6 1 18 15.000 0 0 9
7 5 17 18.000 0 0 8
8 3 5 22.000 0 7 13
9 1 2 22.000 6 2 17
10 8 20 23.000 3 0 14
11 10 19 30.000 0 0 15
12 6 7 32.167 5 4 19
13 3 15 47.667 8 0 16
14 8 11 48.000 10 0 20
15 10 13 65.000 11 0 17
16 3 4 87.250 13 0 18
17 1 10 94.500 9 15 18
18 1 3 916.457 17 16 19
19 1 6 1576.100 18 12 20
20 1 8 1740.794 19 14 0
树形图,聚类过程的直观显示。
横轴聚类时的距离,纵轴样品名称。
若没有名字则为样品序号。
练习
例下表中列出各国家和地区男子径赛记录的数据,试对样品和变量分别进行聚类。
(数据文件sports)
5.缺点样品或变量较多时运算速度会比较慢
二、动态聚类法---K-均值法
1.适用范围:对观测数据(样品)进行聚类
2.聚类原理:
(1)选凝聚点按照指定的希望分类的数量,按某种原则选择(或人为指定)某些观测作为凝聚点,他们将作为今后各类的初始核心;
(2)初始分类按就近原则将其余观测向凝聚点聚集,得到初始分类,计算新的类中心即均值;
(3)调整分类以新的类中心位置为凝聚点重新聚类,然后再计算类中心,再重新聚类,如此循环下去,直到凝聚点的位置改变很小(达到收敛标准)为止
3.优缺点:
优点:计算量小,速度快;可以人为指定初始中心位置,或者将曾做过的聚类分析结果作为初始位置引入分析,这在有前人工作可借鉴时非常有用。
缺点:
应用范围比较有限:需要事先知道分成几类、只能对样品分类不能对变量分类、所使用的变量必须是连续性变量。
4.Spss 的实现
例sports
(1)录入数据
点击variable view定义变量名;点击data view 输入数据(按行输入一个数据一行);点击file-save或save as 保存数据
(2)聚类分析
Analyze---classify----K-means cluster
主对话框界面说明:
Variables 框:用于选入进行快速聚类的变量。
Label cases by框:选入标签变量,如果选入,该变量的取值将在分析结果中取代记录号出现。
Number of Clusters框:希望将样品分为的类数,默认2类。
Method框:用于选择聚类方法,默认为iterate and classify---迭代并且分类,即在初始分类基础上不断迭代和更换中心位置,也可以更改为classify即只使用初始分类中心对观察单位进行分类,可节省时间,效果未必佳。
Iterate子对话框界面说明:
Maximum iterations:设定最大迭代次数,默认值为10.
Convergence criterion:设定收敛标准,显示为0,实际上系统默认值为0.02。
Use running means:默认只在所有记录都有了分类结果后才重新计算类中心位置。
Save子对话框界面说明:
Cluster membership:保存聚类后每一记录的组别,默认变量名qcl-1。
Distance from cluster center:保存每一观察单位与所在类中心的距离。
(3)保存结果
File---export
(4)结果分析
Quick Cluster
给出四个类中心的初始位置
Initial Cluster Centers
Cluster
1 2 3 4
100米成绩(秒)10.35 9.93 12.18 10.14
200米成绩(秒)20.77 19.75 23.20 20.65
400米成绩(秒)47.40 43.86 52.94 46.80
800米成绩(分) 1.82 1.73 2.02 1.82
1500米成绩(分) 3.67 3.53 4.24 3.82
5000米成绩(分)13.64 13.20 16.70 14.91
10000米成绩(分)29.08 27.43 35.38 31.45
马拉松(分)141.27 128.22 164.70 154.12
迭代记录,可见迭代4次后收敛
Iteration History a
Iteration
Change in Cluster Centers
1 2 3 4
1 2.209 3.495 2.647 2.215
2 .380 .114 .000 .736
3 .738 .000 .000 .704
4 .000 .000 .000 .000
a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 4. The minimum distance between initial centers is 13.145.
每个样品所属类别
Cluster Membership
Case Number 国家和地区Cluster Distance
1 阿根廷 1 .975
2 澳大利亚 2 2.980
3 奥地利 1 2.987
4 比利时 2 1.416
5 百慕大 4 4.469
6 巴西 2 2.261
7 缅甸 1 2.237
8 加拿大 2 1.050
9 智利 2 3.300
10 中国 2 3.216
11 哥伦比亚 2 .635
12 库克群岛 3 2.647
13 哥斯达黎 1 2.175
14 捷克斯洛 2 3.274
15 丹麦 2 .444
16 多米尼加 4 3.448
17 芬兰 2 .571
18 法国 2 1.382
19 民主德国 2 1.604
20 联邦德国 2 1.789
21 大不列颠 2 2.240
22 希腊 2 3.860
23 危地马拉 1 1.809
24 匈牙利 2 1.627
25 印度 2 1.513
26 印尼 4 2.142
27 以色列 2 1.481
28 爱尔兰 1 .860
29 意大利 2 1.229
30 日本 2 2.446
31 肯尼亚 2 1.679
32 韩国 1 2.097
33 朝鲜 2 2.795
34 卢森堡 1 3.132
35 马来西亚 4 3.458
36 毛里求斯 4 2.096
37 墨西哥 2 1.992
38 荷兰 2 2.183
39 新西兰 2 2.152
40 挪威 2 1.228
41 巴布亚新 4 2.762
42 菲律宾 4 5.633
43 波兰 2 .817
44 葡萄牙 2 2.728
45 罗马尼亚 2 1.524
46 新加坡 4 6.999
47 西班牙 2 .648
48 瑞士 2 .471
49 瑞典 2 .349
50 中国台北 1 1.530
51 泰国 4 1.817
52 土耳其 2 2.188
53 美国 2 3.594
54 苏联 2 1.521
55 西萨摩亚 3 2.647
最终的类中心位置
Final Cluster Centers
Cluster
1 2 3 4
100米成绩(秒)10.60 10.35 11.50 10.57 200米成绩(秒)21.20 20.68 22.53 21.32 400米成绩(秒)47.55 45.72 50.97 47.11 800米成绩(分) 1.81 1.76 2.02 1.84 1500米成绩(分) 3.75 3.61 4.24 3.85 5000米成绩(分)13.92 13.41 16.49 14.87 10000米成绩(分)29.29 27.98 35.05 31.27 马拉松(分)138.20 131.05 163.26 150.78
最终类中心之间的距离矩阵
Distances between Final Cluster Centers
Cluster 1 2 3 4
1 7.53
2 26.124 12.782
2 7.532 33.610 20.116
3 26.12
4 33.610 13.786
4 12.782 20.116 13.786
单因素方差分析表(考察8个变量在类间是否有差异)
ANOVA
Cluster Error
Mean Square df Mean Square df
F Sig. 100米成绩(秒).940 3 .075 51 12.445 .000 200米成绩(秒) 3.083 3 .259 51 11.916 .000 400米成绩(秒)24.683 3 .796 51 31.016 .000 800米成绩(分).054 3 .001 51 48.325 .000 1500米成绩(分).358 3 .005 51 76.019 .000 5000米成绩(分)10.004 3 .091 51 109.773 .000 10000米成绩(分)52.255 3 .386 51 135.271 .000 马拉松(分)1444.072 3 5.201 51 277.659 .000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
每个类中包含的样品的个数
Number of Cases in each
Cluster
Cluster 1 9.000
2 35.000
3 2.000
4 9.000
Valid 55.000
Missing .000
关于聚类分析的进一步说明:变量选择、共线性问题、变量的标准化、异常值。