第七章SPSS聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例如,学校里有些同学经常在一起,关系比较
密切,而他们与另一些同学却很少来往,关系比较 疏远。究其原因可能会发现,经常在一起的同学的 家庭情况、性格、学习成绩、课余爱好等方面有许 多共同之处,而关系比较疏远的同学在这些方面有 较大的差异性。为了研究家庭情况、性格、学习成 绩、课余爱好等是否会成为划分学生小群体的主要 决定因素,可以从有关这些方面的数据入手,进行 客观分组,然后比较所得的分组是否与实际相吻合。 对学生的客观分组就可采用聚类分析方法。
最近邻元素(Nearest Neighbor):个体与小类中每个 个体距离的最小值。 最远邻元素(Furthest Neighbor ):个体与小类中每 个个体距离的最大值。 组间联接(Between-groups linkage):个体与小类 中每个个体距离的平均值。 组内联接(Within-groups linkage):个体与小类中 每个个体距离以及小类内各个体间距离的平均值。 质心聚类法(Centroid clustering):个体与小类的重 心点的距离。重心点通常是由小类中所有样本在各变量上的 均值所确定的点。 离差平方和法(Ward’s method):聚类过程中使小类 内离差平方和增加最小的两小类应首先合并为一类。
• 例:下表是同一批客户对经常光顾的五座商场在购物环境和
服务质量两方面的平均得分,现希望根据这批数据将五座商
场分类。
编号
购物环境 服务质量
A商场
73
68
B商场
66
64
C商场
84
82
D商场
91
88
E商场
94
90
7.1.2 聚类分析中“亲疏程度”的度量方法
• 聚类分析中,个体之间的“亲疏程度”是极为重要 的,它将直接影响最终的聚类结果。对“亲疏”程 度的测度一般有两个角度:第一,个体间的相似程 度;第二,个体间的差异程度。衡量个体间的相似 程度通常可采用简单相关系数等,个体间的差异程 度通常通过某种距离来测度。
第七章
SPSS聚类分析
7.1
聚类分析的一般问题
7.2 层次聚类分析中的Q型聚类
7.3
层次聚类分析中的R型聚类
7.4
快速聚类分析
7.1 聚类分析的一般问题
• 7.1.1 聚类分析的意义
聚类分析是统计学中研究“物以类聚”问题的多元统 计分析方法。
聚类分析是一种建立分类的多元统计分析方法,它能 够将一批样本(或变量)数据根据其诸多特征,按照在性质 上的亲疏程度(各变量取值上的总体差异程度)在没有先验 知识(没有事先指定的分类标准)的情况下进行自动分类, 产生多个分类结果。类内部的个体在特征上具有相似性,不 同类间个体特征的差异性较大。
树形图以躺倒树的形式展现了聚类分析 中的每一次类合并的情况。SPSS自动将各类 间的距离映射到0~25之间,并将凝聚过程近 似地表示在图上。
析的结果以变 量的形式保存到数据编辑窗口中。生成的变 量名为clun_m(如clu2_1),其中n表示类 数(如2),m表示是第m次分析(如1)。
场分类。
编号
购物环境 服务质量
A商场
73
68
B商场
66
64
C商场
84
82
D商场
91
88
E商场
94
90
1.数值型变量的样本距离测量方法
样本若有k个变量,则可以将样本看成是 一个k维的空间的一个点,样本和样本之间的 距离就是k维空间点和点之间的距离,这反映 了样本之间的亲疏程度。聚类时,距离相近的 样本属于一个类,距离远的样本属于不同类。
R型聚类:对变量进行聚类,使具有相似性的变量聚集 在一起,差异性大的变量分离开来,可在相似变量中选 择少数具有代表性的变量参与其他分析,实现减少变量 个数,达到变量降维的目的。
凝聚方式聚类:其过程是,首先,每个个体自成一类; 然后,按照某种方法度量所有个体间的亲疏程度,并将 其中最“亲密”的个体聚成一小类,形成n-1个类;接下 来,再次度量剩余个体和小类间的亲疏程度,并将当前 最亲密的个体或小类再聚到一类;重复上述过程,直到 所有个体聚成一个大类为止。可见,这种聚类方式对n个 个体通过n-1步可凝聚成一大类。
• 二、个体与小类、小类与小类间“亲疏程度”的度 量方法
SPSS中提供了多种度量个体与小类、小类与 小类间“亲疏程度”的方法。与个体间“亲疏程度” 的测度方法类似,应首先定义个体与小类、小类与 小类的距离。距离小的关系亲密,距离大的关系疏 远。这里的距离是在个体间距离的基础上定义的, 常见的距离有:
分解方式聚类:其过程是,首先,所有个体都属一大类; 然后,按照某种方法度量所有个体间的亲疏程度,将大 类中彼此间最“疏远”的个体分离出去,形成两类;接 下来,再次度量类中剩余个体间的亲疏程度,并将最疏 远的个体再分离出去;重复上述过程,不断进行类分解, 直到所有个体自成一类为止。可见,这种聚类方式对包 含n个个体的大类通过n-1步可分解成n个个体。
8、单击统计量按钮指定输出哪些统计量
合并进程表表示输出聚类分析的凝聚状
态表;相似性矩阵表示输出个体间的距离矩 阵;聚类成员框中,无表示不输出样本所属 类,单一方案表示指定输出当分成n类时各样 本所属类,是单一解。方案范围表示指定输 出当分成m至n类(m小于等于n)时各样本 所属类,是多个解。
上表中,第一列表示聚类分析的第几步;第二、 三列表示本步聚类中哪两个样本或小类聚成一类; 第四列式个体距离或小类距离;第五、六列表示本 步聚类中参与聚类的是个体还是小类,0表示样本, 非0表示由第n步聚类生成的小类参与本步聚类;第 七列表示本步聚类的结果将在以下第几步中用到。
本所有变量值之差绝对值的p次方的总和,再 求q次方根。计算公式为
2、计数变量个体间距离的计算方式
3、二值(Binary)变量个体间距离的计算方式
简单匹配系数(Simple Matching) 雅科比系数(Jaccard)
注:聚类分析的几点说明
➢ 所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映 我们研究的目的;
❖层次聚类(Q型)的基本操作
1、选择菜单分析-分类-系统聚类,出现窗口:
2、把参与层次聚类分析的变量选到变量框中。
3、把一个字符型变量作为标记变量选到标注个 案框中,它将大大增强聚类分析结果的可读性。
4、在分群框中选择聚类类型。其中个案表示进 行Q型聚类(默认类型);变量表示进行R型 聚类。
5、在输出框中选择输出内容。其中统计量表示 输出聚类分析的相关统计量;绘制表示输出聚 类分析的相关图形。
练习:
研究问题 对一个班同学的数学水平进行聚类。聚类
的依据是第一次数学考试的成绩和物理考试的 成绩。数据所示。
学生的数学成绩
编号 1 2 3 4 5 6 7 8 9 10
数学 99.00 88.00 79.00 89.00 75.00 60.00 79.00 75.00 60.00 100.00
物理 成 绩 98.00 89.00 80.00 78.00 78.00 65.00 87.00 76.00 56.00 100.00
层次聚类分析中的R型聚类
定义:层次聚类分析中的R型聚类是对研 究对象的观察变量进行分类,它使具有共同特 征的变量聚在一起。以便可以从不同类中分别 选出具有代表性的变量作分析,从而减少分析 变量的个数。
➢ 各变量的变量值不应有数量级上的差异(对数据进行标准化处理): 聚类分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种 距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类 结果。
➢ 各变量间不应有较强的线性相关关系
学校
参加科研 人数
(人)
投入经费 (元)
立项课题 数(项)
样本的欧氏距离
本所有变量值之差绝对值中的最大值,计算公 式为
(4)Block距离 两个样本之间的Block距离是各样本所有
变量值之差绝对值的总和,计算公式为
(5)Minkowski距离 两个样本之间的Minkowski距离是各样
本所有变量值之差绝对值的p次方的总和,再 求p次方根。计算公式为
(6)Customized距离(用户自定义距离) 两个样本之间的Customized距离是各样
• 为定义个体间的距离应先将每个样本数据看成k维 空间的一个点,通常,点与点之间的距离越小,意 味着他们越“亲密”,越有可能聚成一类,点与点 之间的距离越大,意味着他们越“疏远”,越有可 能分别属于不同的类。
• 例:下表是同一批客户对经常光顾的五座商场在购物环境和
服务质量两方面的平均得分,现希望根据这批数据将五座商
6、单击方法按钮指定距离的计算方法。
度量标准框中给出的是不同变量类型下的个体距离的计算方法。 其中区间框中的方法适用于连续型定距变量;计数框中的方 法适用于品质型变量;二分类框中的方法适用于二值变量。 聚类方法框中给出的是计算个体与小类、小类与小类间距离 的方法。
7、如果参与聚类分析的变量存在数量级上的差异,应在转换 值框中的标准化选项中选择消除数量级差的方法。并指定处 理是针对变量的还是针对样本的。按照变量表示针对变量, 适于 Q 型聚类分析;按个案 表示针对样本,适于R型聚类 分析。
9、单击绘制按钮指定输出哪种聚类分析图。
树状图选项表示输出聚类分析树形图;
在冰柱框中指定输出冰挂图,其中,所有聚 类表示输出聚类分析每个阶段的冰挂图,聚 类的指定全距表示只输出某个阶段的冰挂图, 输入从第几步开始,到第几步结束,中间间 隔几步;在方向框中指定如何显示冰挂图, 其中,垂直表示纵向显示,水平表示横向水 平显示。
(1)欧氏距离(Euclidean Distance) 两个样本之间的欧氏距离是样本各个变量值之 差的平方和的平方根,计算公式为
(2)欧氏距离平方(Squared Euclidean Distance)
两个样本之间的欧氏距离平方是各样本每 个变量值之差的平方和,计算公式为
(3)Chebychev距离(切比雪夫) 两个样本之间的Chebychev距离是各样
由于不同的距离计算方法会产生不同的聚 类分析结果,即使聚成n类,同一样本的类归 属也会因计算方法的不同而不同。因此实际 分析中应反复尝试以最终得到符合实际的合 理解,并保存于SPSS变量中。
❖ 聚类分析的结果都知道,就是获得几个类别, 那么我们怎么知道这些类别是合理的呢?这 里提供一个方法,就是利用均值方法,检验 各个类别在所有变量上的差异,如果差异显 著,我们就可以认为分类结果是可靠的
放入因变量中
❖ 我们会看到二种分类结果各自的平均数,下 面的三个表格分别是将case分为2、3类的结 果,当然这种方法只能计算出各组平均数, 如何检验平均数的差异就要用到下面的方法
在菜单栏上执行:分析—比较均值-单因素 anova
将指标变量放到因变量列表,将分组 变量放入因子中
2类
3类
7.2 层次聚类
• 一、 层次聚类的两种类型和两种方式
层次聚类又称系统聚类,简单地讲是指聚类过程是按 照一定层次进行的。层次聚类有两种类型,分别是Q型聚类 和R型聚类;层次聚类的聚类方式又有两种,分别是凝聚方 式聚类和分解方式聚类。
Q型聚类:对样本进行聚类,使具有相似特征的样本聚 集在一起,差异性大的样本分离开来。
元
万元
1
410
4380000
19
(1,2) 265000
81623
2
336
1730000
21
(1,2) 218000
193700
3
490
220000
8
(1,2)
47000
254897
聚类分析的方法,主要有两种,一种是 “快速聚类分析方法”(K-Means Cluster Analy- sis),另一种是“层次聚类分析方法” (Hierarchical Cluster Analysis)。如果 观察值的个数多或文件非常庞大(通常观察值 在200个以上),则宜采用快速聚类分析方法。 因为观察值数目巨大,层次聚类分析的两种判 别图形会过于分散,不易解释。
❖ 假设我们现在已经得到了聚类的结果,所有 的个案都已经分类了,我们看到在数据窗口 已经形成了若干个新的变量,显示了个案的 分类结果,如图所示,这里显示了二个聚类 的结果,分别是把数据分为2、3类的结果
在菜单栏上执行:分析—比较均值-均 值,打开平均数对话框
将指标变量都放入因变量框中,然后 将分组变量(聚类分析得到的变量)