第十一章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Shaanxi Normal University




分析过程说明 1)单击主菜单(Analyze)分析---- Classify(聚 类分析)--- Hierarchical Cluster(系统聚类法); 弹出“系统聚类”主对话框,将变量“x1,x2,..,x6” 置入Variables框内。 在Cluster框内选中Variables,表示按指标分类; 另一选项Cases表示按样品聚类(系统默认设置)。 单击Statistics,弹出聚类分析中统计量选择 “Hierarchical Cluster Analyses Statistics”对话框。 选择所需项目后,按continue返回。
例如有:品种分类、地区分类、生产性状分类和体 型分类等。
陕西师范大学
Shaanxi Normal University
2016/3/30
聚类分析的方法很多,本章只讨论系统聚类法 (Hierarchical Cluster)的使用。
根据客观需要,聚类分析又可分为两种:一种是对 指标(或变量)聚类(Variables-clustering),如将畜禽 的多个体型性状指标进行分类,从众多的体型性状中 选出具有代表性的典型性状;另一种是对样品聚类 (Cases-clustering),如将一批品种不同的作物、畜 禽、蜂、鱼类等根据其体型性状或生产性状指标或遗 传结构的特性进行分类。
2016/3/30
陕西师范大学
Shaanxi Normal University


单击method(方法),弹出 距离测量方法选项对话框。 通过对话框可指定聚类方 法、距离测度的方法、对 数值进行转换(标准化数 值)以及对测度的转换方 法。 聚类方法下拉列表用于选 择聚类分析中不同类间距 离的测量方法。系统默认 的是组间连接(类间平均 距离)。还有组内连接、 最近距离法、最远距离法、 重心距离法、中间距离法、 最小平方法





第一步:变量x1与变量x4聚为一类,凝聚系数0.764,与相关系数 0.764一致; 第二步:变量x1与变量x2聚为一类,即变量x2进入“变量x1与变量x4” 之中,凝聚系数0.668,它不等于变量x2与变量x1的相关系数0.655, 也不等于变量x2与x4的相关系数0.681,此处的凝聚系数是变量x2与 变量x1和变量x4联合成一类后的多重相关系数。 第三步:变量x5与变量x6聚为一类,凝聚系数0.466,和变量x5与变 量x6的相关系数一致;因为变量x5与变量x6事先都没有进入任何一组。 第四步:变量x1与变量x3聚为一类,即变量x3进入“变量x1、x4与变 量x2”之中,凝聚系数0.185,它和变量x3与变量x1的相关系数0.059 不一致,和变量x3与x2的相关系数0.066不一致,也和变量x3与x4的 相关系数0.430不一致;因为此处的凝聚系数是变量x3与变量x1、变 量x2、变量x4联合成一类后的多重相关系数。 第五步:变量x1与变量x5聚为一类,凝聚系数-0.035,...,
2016/3/30
陕西师范大学
Shaanxi Normal University
一 指标(或变量)聚类
例 测量20只60日龄闽南公火鸡的6项体型性状:体斜 长x1,胸深x2,胸宽x3,龙骨长x4,骨盆宽x5,胫长 x6,数据如下表所示。
x1 1 35.24 x2 20.45 x3 19.15 x4 19.45 x5 11.19 x6 11.66
陕西师范大学
Shaanxi Normal University
2016/3/30


在Statistics统计选项对话框中,选中 Agglomeration schedule,可输出聚类过程的详 细记录,给出每一步中类合并的细节数据;选 中Proximity matrix,则可列出研究对象(样品) 或指标(变量)的距离或相似性矩阵。本例两 项均选中。 在Cluster Membership单选框组,选择是否给 出各样品或指标的聚类结果的列表,可以全部 不显示(None)(系统默认),也可以部分显示 (Single solution:某一类。Range of solution:某 一范围的类)。
2016/3/30
陕西师范大学
Shaanxi Normal University






转换值(transform values)框: 如果变量间方差的变异过大可能 会影响结果,需进行变量的标准 化,系统提供了7种进行变量转换 的方法: None,不作数据转换 Z-scores,标准正态变换 Range -1 to 1,将数据范围转化 为-1和1之间,具体方法为原值除 以极差; Range 0 to 1,数据减去最小值 除以极差; 最大值为1的转换,即将原值除以 最大值; Mean of1,均数为1的转换 标准差为1的转换 如需变量转换,一般采用标准正 态变换。
2016/3/30
陕西师范大学
Shaanxi Normal University

上表是使用两组间的连接统计量进行聚类的详细过 程(即其聚类各步的过程,其对应的系数和聚类信 息),由于有6个变量,因此需要经过5步聚类。
2016/3/30
陕西师范大学
Shaanxi Normal University
2)进入数据视图工作表输入数据,见图。
Βιβλιοθήκη Baidu
2016/3/30
陕西师范大学
Shaanxi Normal University



2016/3/30
统计分析简明步骤: Analyze---Classify---Hierarchical Cluster Variables 框:x1,x2,…x6 选入用于聚类分析的变量 Cluster框:Variables 按指标聚类分析 Statistics √Agglomeration schedule 聚类过程的详细记录 √Proximity matrix 输出变量的相似性矩阵 continue Plot √Dendrogram 用树状图显示聚类分析图 continue Method Interval 计量资料 Perason correlation 选入相关系数对变量进行聚类 continue OK 陕西师范大学
第十一章 聚类分析
2016/3/30
陕西师范大学
Shaanxi Normal University
聚类分析(cluster analysis),又称集群分析。是数 理统计中用于研究分类的一种方法。
其分析的基本思想是依照事物的数值特征,来观察 各样品之间的亲疏关系。亦即依据物以类聚的原则, 引用分类学与多元统计分析的技术,对繁杂纷乱的事 物进行分类,将具有类似属性的事物聚为一类,使同 一类事物具有高度的相似性。
2016/3/30
陕西师范大学
Shaanxi Normal University




距离一般用于对样品的聚类, 通常只需采用系统默认的欧 氏平方距离;相似系数(夹 角余弦、相关系数)一般用 于对指标(变量)的聚类。 本例选用相关系数,即皮尔 逊相关 计数资料提供了卡方距离 (系统默认)和phi-squara measure; 二分类资料(binary)提供 了27种距离,系统默认的是 欧氏平方距离。
数据输入
1)启动SPSS,进入定义变量工作表,分别用name命 令设置6个变量“x1”、“x2”、“x3”, “x4”、“x5”、 “x6”,分别代表体斜长、胸深、胸宽、龙骨长、骨盆 宽、胫长。小数位(Decimals)依题都定义为2。
2016/3/30
陕西师范大学
Shaanxi Normal University
2
3 ….
34.56
34.78 …
19.67
19.70 …
18.34
19.09 …
18.54
18.97 …
11.56
11.89 …
11.67
11.89 …
20
34.90
20.20
19.70
19.34
12.12
12.92
2016/3/30
陕西师范大学
Shaanxi Normal University

2016/3/30
陕西师范大学
Shaanxi Normal University

设xij为第i个样品的第k个指标,每个样品测量 了p个变量,则样品xi和xj之间的距离Dij的定义 为:
Dij (q) ( xik x jk )
k 1

p
q
1/ q
公式称为明考夫斯基距离,其中q为大于0的正 数。

称为欧氏距离(Euclidean distance)
2016/3/30
陕西师范大学
Shaanxi Normal University
当q 时,Dij () max xik x jk 称为切比雪夫距离( Chebychev

distance )


也可定义变量之间距离,常用的定义方法是夹角 余弦法和相关系数法。 样品聚类也称Q型聚类,变量聚类又称为R型聚 类。 根据样本量的大小,可以使用层次聚类或K中心 聚类。当样本量较大,数值变量和分类变量并存 时,也可使用二阶段聚类法(two step cluster)
2016/3/30
陕西师范大学
Shaanxi Normal University

当q=1时, Dij (1) ( xik x jk )
k 1
p

称为绝对值距离或曼哈顿距离,SPSS称block 当q=2时, Dij (2) ( xik x jk )1/ 2
k 1 p 2

陕西师范大学
Shaanxi Normal University
2016/3/30
选择变量
2016/3/30
陕西师范大学
Shaanxi Normal University



单击plots(绘图) ,弹 出图形选项对话框,选 中Dendrogram(树状 图),表示用树状图显 示聚类分析图。 Icicle是冰柱图的选项, 可以选择性输出聚类 结果冰柱图:All Clusters表示要显示所 有聚类,none表示不 显示,Specified range of Cluster表示要显示 某个范围内的聚类。 本例选所有聚类(系 统默认)。 方向选水平方向显示 聚类。
2016/3/30
陕西师范大学
Shaanxi Normal University
系统聚类法的基本思想是首先要研究指标或样品之 间的关系,即建立表达这种关系的聚类统计量。 常用的聚类统计量有距离系数和相似系数。 先将所有样品(或指标)各自看成一类,选择相似 程度最大的(距离系数最小或相似程度最大)两类合 并,重新计算新类与其他类的距离或相似程度,再将 相似程度最大的两类合并,如此反复进行,直到所有 样品或指标合并为一类为止。
2016/3/30
陕西师范大学
Shaanxi Normal University


度量标准(measure)框用 于选择所用的距离种类,根 据资料类型的不同有3个选 项:interval(区间或计 量)、counts(计数资料)、 binary(二分类资料)。本 例选计量区间(interval): Euclidean distance(欧氏 距离) 欧氏平方距离(系统默认) Cosine(相似性测度,余弦) 皮尔逊相关,即相关系数 切比雪夫距离 绝对距离(block) 明考夫斯基距离 自定义距离
2016/3/30
陕西师范大学
Shaanxi Normal University

结果说明: 下表是Processing过程的输出信息,即数据 的基本信息。数据显示有20个样本参与分析, 没有缺失值。
2016/3/30
陕西师范大学
Shaanxi Normal University

下表是闽南公火鸡6个体型指标间的相关系 数阵;从中可了解各性状之间的两两相关系 数。主要为以后聚类分析而计算。
陕西师范大学
Shaanxi Normal University
2016/3/30
SPSS给出了6种距离系数和2种相似 系数,选择不同的系数可能会得到不 同的结果,一般采用系统默认值。具 体使用时可用不同的方法聚类得出多 种结果。再根据专业知识选择较为合 理的分类结果。分类结果用聚类图或 树状图反映。
相关文档
最新文档