聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
聚类分析的目的是将资料按相似程度进行分类。分类的对象可以是指标(变量)也可以是观测数据。分类方法大致可分为两类:系统聚类法和非系统聚类法。
一、系统聚类法
1.适用范围:可对观测数据或变量进行聚类
2.聚类原理:
3.聚类方法:组间连接法(类平均法)、组内连接法、最远距离法、ward 法等7 种。
4.Spss 的实现
例1 生物学家收集了21种蝴蝶花样本的4个指标:萼片长度()1x ,萼片宽度
()2x ,花瓣长度()3x ,花瓣宽度()4x ,数据如下表。试进行聚类分析。
序号 1x 2x 3x 4x
序号 1x 2x 3x 4x
序号 1x 2x 3x 4x
1 50 24 34
2 2 55 2
3 33 2 3 50 47 4
4 21 4 5
5 4
6 35 18 5 55 46 44 21 6 86 24 40 21
7 83 22 39 24
8 54 23 76 22
9 53 24 34 3 10 46 26 40 2 11 58 22 69 23 12 87 23 41 22 13 55 25 43 2 14 54 23 74 20 15 57 45 41 24 16 83 23 42 23 17 53 49 42 20 18 51 23 37 4 19 49 24 44 1 20 57 25 73 23 21 88 25 40 19
(1)录入数据
点击variable view 定义变量名;点击data view 输入数据(按行输入 一个数据一行);点击file-save 或save as 保存数据。 (2)聚类分析
Analyze---classify----hierarchical cluster
主对话框界面说明:
Variables 框:用于选入进行聚类分析的变量。
Label cases by框:选入标签变量,如果选入,该变量的取值将在分析结果中取代记录号出现。该框只在样品聚类时可用。
Cluster框:用于选择是进行样品聚类还是变量聚类,默认前者。
Diaplay框:用于选择希望输出的结果,包括统计量和统计图,默认两者都输出。Statistics 子对话框界面说明:
Agglomeration schedule:聚类过程的详细记录,给出每一步中类合并的具体情况及相应的类之间的距离。
Proximity matrix:列出观察个体之间的距离或变量之间的相关矩阵。
Cluster membership 单选框组:选择是否给出各样品或变量的聚类结果列表,默认不给出。
Plots 子对话框
Dendrogram:输出分类结果树状图,默认没有,建议使用。
Icicle: 输出分类结果冰状图,建议不要使用。
Orientation:确定冰状图是纵向还是横向排列。
Method子对话框
Cluster method: 用于选择聚类方法。此处提供了7种不同方法,分别是组间连结法、组内连结法、最近距离法、最远距离法、重心法、中位数距离法、Ward’s 法,默认组间连结法,又叫类平均法。
Measure组: 用于选择类与类之间的距离,默认欧氏距离。
Transform values:当纳入分析的各变量方差相差太大时会影响结果的正确性,此时应当进行变量的标准化,一般采用Z-scores即标准正态变换。
下方的两个单选钮用于确定变换是在同一变量内进行还是同一记录内进行。
(3)保存结果
File---export
(4)结果分析
缺失值报告
Case Processing Summary a,b
Cases
Valid Missing Total
N Percent N Percent N Percent
21 100.0 0 .0 21 100.0
Case Processing Summary a,b
Cases
Valid Missing Total
N Percent N Percent N Percent
21 100.0 0 .0 21 100.0
a. Squared Euclidean Distance used
b. Average Linkage (Between Groups)
聚类分析的详细步骤:第一步第6个观察值和第12个观察值聚为一类,第二步第2个观察值和9个观察值聚为一类......
Average Linkage (Between Groups)
Agglomeration Schedule
Stage
Cluster Combined
Coefficients
Stage Cluster First Appears
Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2
1 6 1
2 4.000 0 0 5
2 2 9 7.000 0 0 9
3 8 1
4 8.000 0 0 10
4 7 16 11.000 0 0 12
5 6 21 12.000 1 0 12
6 1 18 15.000 0 0 9
7 5 17 18.000 0 0 8
8 3 5 22.000 0 7 13
9 1 2 22.000 6 2 17
10 8 20 23.000 3 0 14
11 10 19 30.000 0 0 15
12 6 7 32.167 5 4 19
13 3 15 47.667 8 0 16
14 8 11 48.000 10 0 20
15 10 13 65.000 11 0 17
16 3 4 87.250 13 0 18