第九章 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
欧式距离(Euclidean distance)

(x i yi )2 (73 66)2 (68 64) 2
i 1
k
平方欧式距离(Squared Euclidean distance ) 切比雪夫(Chebychev)距离
max xi yi max( 73 66 , 68 64)
• 例:下表是同一批客户对经常光顾的五座商场在购物环境和
服务质量两方面的平均得分,现希望根据这批数据将五座商 场分类。
编号 A商场 B商场 C商场 D商场 E商场
购物环境 73 66 84 91 94
服务质量 68 64 82 88 90
1、定距型变量个体间距离的计算方式 7.1.2 聚类分析中“亲疏程度”的度量方法
参加科研 人数 (人) 410 336 490 投入经费 (元) 4380000 1730000 220000 立项课题 数(项) 19 21 8
样本的欧氏距离 元 (1,2) (1,2) (1,2) 265000 218000 47000 万元 81623 193700 254897
学校
1 2 3
第九章
SPSS聚类分析
本章内容
• 9.1 聚类分析的一般问题 • 9.2 层次聚类 • 9.3 K-Means聚类
9.1 聚类分析的一般问题
• 9.1.1 聚类分析的意义
聚类分析是统计学中研究“物以类聚”问题的多元统 计分析方法。 聚类分析是一种建立分类的多元统计分析方法,它能 够将一批样本(或变量)数据根据其诸多特征,按照在性质 上的亲疏程度(各变量取值上的总体差异程度)在没有先验 知识(没有事先指定的分类标准)的情况下进行自动分类, 产生多个分类结果。类内部的个体在特征上具有相似性,不 同类间个体特征的差异性较大。
层 聚 中 类 员 次 类 的 成 Cluster Membership Case 1:A商 厦 2:B商 厦 3:C商 厦 4:D商 厦 5:E商 厦 3 Clusters 1 1 2 3 3 2 Clusters 1 1 2 2 2
9、单击Plot按钮指定输出哪种聚类分析图。
Dendrogram选项表示输出聚类分析树形图;在Icicle 框中指定输出冰挂图,其中,All clusters表示输出聚类分 析每个阶段的冰挂图,Specified range of clusters表示 只输出某个阶段的冰挂图,输入从第几步开始,到第几步结 束,中间间隔几步;在Orientation框中指定如何显示冰挂 图,其中,Vertical表示纵向显示,Horizontal表示横向水 平显示。 树形图以躺倒树的形式展现了聚类分析中的每一次类 合并的情况。SPSS自动将各类间的距离映射到0~25之间, 并将凝聚过程近似地表示在图上。
层 聚 的 挂 Vertical Icicle 次 类 冰 图 Case
厦 4:D商
厦 3:C商
厦 5:E商
厦 2:B商
Number of clusters 1 2 3 4
Baidu Nhomakorabea
X X X X
X X X X
X X X X
X X
X X X X
X
X X X X
X X X
X X X X
厦 1:A商
10、单击Save按钮可以将聚类分析的结果以变量的 形式保存到数据编辑窗口中。生成的变量名为 clun_m(如clu2_1),其中n表示类数(如2), m表示是第m次分析(如1)。 由于不同的距离计算方法会产生不同的聚类分 析结果,即使聚成n类,同一样本的类归属也会因 计算方法的不同而不同。因此实际分析中应反复尝 试以最终得到符合实际的合理解,并保存于SPSS 变量中。
Stage 1 2 3 4
Coefficients 3.606 8.062 11.013 28.908
Next Stage 3 4 4 0
上表中,第一列表示聚类分析的第几步;第二、 三列表示本步聚类中哪两个样本或小类聚成一类; 第四列式个体距离或小类距离;第五、六列表示本 步聚类中参与聚类的是个体还是小类,0表示样本, 非0表示由第n步聚类生成的小类参与本步聚类;第 七列表示本步聚类的结果将在以下第几步中用到。
9.1.2 聚类分析中“亲疏程度”的度量方法
• 聚类分析中,个体之间的“亲疏程度”是极为重要
的,它将直接影响最终的聚类结果。对“亲疏”程 度的测度一般有两个角度:第一,个体间的相似程 度;第二,个体间的差异程度。衡量个体间的相似 程度通常可采用简单相关系数等,个体间的差异程 度通常通过某种距离来测度。 • 为定义个体间的距离应先将每个样本数据看成k维 空间的一个点,通常,点与点之间的距离越小,意 味着他们越“亲密”,越有可能聚成一类,点与点 之间的距离越大,意味着他们越“疏远”,越有可 能分别属于不同的类。
最近邻居(Nearest Neighbor)距离:个体与小类中每 个个体距离的最小值。 最远邻居(Furthest Neighbor )距离:个体与小类中 每个个体距离的最大值。 组间平均链锁(Between-groups linkage)距离:个 体与小类中每个个体距离的平均值。 组内平均链锁(Within-groups linkage)距离:个体 与小类中每个个体距离以及小类内各个体间距离的平均值。 重心(Centroid clustering)距离:个体与小类的重心 点的距离。重心点通常是由小类中所有样本在各变量上的均 值所确定的点。 离差平方和法(Ward’s method):聚类过程中使小类 内离差平方和增加最小的两小类应首先合并为一类。
Block距离
x i yi 73 66 68 64
i 1
k
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离
3、二值(Binary)变量个体间距离的计算方式
简单匹配系数(Simple Matching) 雅科比系数(Jaccard)
• 9.2.4 层次聚类的应用举例
1、利用31个省市自治区小康和现代化指数数据进 行层次聚类分析。 利用SPSS层次聚类Q型聚类对31个省市自治 区进行分类分析。其中个体距离采用平方欧式距离, 类间距离采用平均组间链锁距离,由于数据不存在 数量级上的差异,因此无需进行进行标准化处理。 • 2、利用裁判打分数据进行聚类分析。
1、选择菜单Analyze-Classify-Hierarchical Cluster,出现窗口:
2、把参与层次聚类分析的变量选到Variable(s)框中。 3、把一个字符型变量作为标记变量选到Label Cases by框中,它将大大增强聚类分析结果的可读 性。 4、在Cluster框中选择聚类类型。其中Cases表示进 行Q型聚类(默认类型);Variables表示进行R型 聚类。 5、在Display框中选择输出内容。其中Statistics表 示输出聚类分析的相关统计量;Plot表示输出聚类 分析的相关图形。
例如,学校里有些同学经常在一起,关系比较 密切,而他们与另一些同学却很少来往,关系比较 疏远。究其原因可能会发现,经常在一起的同学的 家庭情况、性格、学习成绩、课余爱好等方面有许 多共同之处,而关系比较疏远的同学在这些方面有 较大的差异性。为了研究家庭情况、性格、学习成 绩、课余爱好等是否会成为划分学生小群体的主要 决定因素,可以从有关这些方面的数据入手,进行 客观分组,然后比较所得的分组是否与实际相吻合。 对学生的客观分组就可采用聚类分析方法。
凝聚方式聚类:其过程是,首先,每个个体自成一类; 然后,按照某种方法度量所有个体间的亲疏程度,并将 其中最“亲密”的个体聚成一小类,形成n-1个类;接下 来,再次度量剩余个体和小类间的亲疏程度,并将当前 最亲密的个体或小类再聚到一类;重复上述过程,直到 所有个体聚成一个大类为止。可见,这种聚类方式对n个 个体通过n-1步可凝聚成一大类。 分解方式聚类:其过程是,首先,所有个体都属一大类; 然后,按照某种方法度量所有个体间的亲疏程度,将大 类中彼此间最“疏远”的个体分离出去,形成两类;接 下来,再次度量类中剩余个体间的亲疏程度,并将最疏 远的个体再分离出去;重复上述过程,不断进行类分解, 直到所有个体自成一类为止。可见,这种聚类方式对包 含n个个体的大类通过n-1步可分解成n个个体。
9.2 层次聚类
• 9.2.1 层次聚类的两种类型和两种方式
层次聚类又称系统聚类,简单地讲是指聚类过程是按 照一定层次进行的。层次聚类有两种类型,分别是Q型聚类 和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方 式聚类和分解方式聚类。 Q型聚类:对样本进行聚类,使具有相似特征的样本聚 集在一起,差异性大的样本分离开来。 R型聚类:对变量进行聚类,使具有相似性的变量聚集 在一起,差异性大的变量分离开来,可在相似变量中选 择少数具有代表性的变量参与其他分析,实现减少变量 个数,达到变量降维的目的。
层 聚 中 凝 状 表 次 类 的 聚 态 Agglomeration Schedule Cluster Combined Cluster 1 Cluster 2 4 5 1 2 3 4 1 3 Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 1 2 3
五 商 两 个 欧 距 的 阵 座 场 两 体 氏 离 矩 Proximity Matrix Euclidean Distance 2:B商 厦 3:C商 厦 4:D商 厦 8.062 17.804 26.907 .000 25.456 34.655 25.456 .000 9.220 34.655 9.220 .000 38.210 12.806 3.606
Case 1:A商 厦 2:B商 厦 3:C商 厦 4:D商 厦 5:E商 厦
1:A商 厦 .000 8.062 17.804 26.907 30.414
5:E商 厦 30.414 38.210 12.806 3.606 .000
This is a dissimilarity matrix
• 9.2.3 层次聚类的基本操作
注:聚类分析的几点说明



所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映 我们研究的目的; 各变量的变量值不应有数量级上的差异(对数据进行标准化处理): 聚类分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种 距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类 结果。 各变量间不应有较强的线性相关关系
• 9.2.2 个体与小类、小类与小类间“亲疏程度”的
度量方法 SPSS中提供了多种度量个体与小类、小类与 小类间“亲疏程度”的方法。与个体间“亲疏程度” 的测度方法类似,应首先定义个体与小类、小类与 小类的距离。距离小的关系亲密,距离大的关系疏 远。这里的距离是在个体间距离的基础上定义的, 常见的距离有:
6、单击Method按钮指定距离的计算方法。
Measure框中给出的是不同变量类型下的个体 距离的计算方法。其中Interval框中的方法适用于 连续型定距变量;Counts框中的方法适用于品质 型变量;Binary框中的方法适用于二值变量。 Cluster Method框中给出的是计算个体与小类、 小类与小类间距离的方法。 7、如果参与聚类分析的变量存在数量级上的差异, 应在Transform Values框中的Standardize选项 中选择消除数量级差的方法。并指定处理是针对变 量的还是针对样本的。By variable表示针对变量, 适于 Q 型聚类分析;By case 表示针对样本,适 于R型聚类分析。
8、单击Statistics按钮指定输出哪些统计量
Agglomeration schedule表示输出聚类分 析的凝聚状态表;Proximity matrix表示输出个体 间的距离矩阵;Cluster Membership框中, None表示不输出样本所属类,Single Solution表 示指定输出当分成n类时各样本所属类,是单一解。 Range of solution表示指定输出当分成m至n类 (m小于等于n)时各样本所属类,是多个解。
相关文档
最新文档