SPSS课件第11章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第11章聚类分析和判别分析
聚类分析和判别分析都是研究事物分类的多元统计方法,两者紧密联系又有所区别。
随着多元统计方法的快速发展和计算机的普遍应用,这两种方法在许多领域得到了大量的应用,理论和软件也越来越成熟。
已经成为研究事物分类的最常用的方法之一。
俗话说:“物以类聚,人以群分。
”在现实世界中,存在着大量的分类问题。
例如,某学校学生按德智体全方位发展分成几个等级;在经济学中,根据人均国民收入、人均工农业产值等多项指标将全球各国家分成几类;在金融应用中,按照经每股收益、每股利润、每股净资产、市盈率、市净率等指标将上市公司进行分类;银行按照客户的收入、职业、信用情况、抵押品等指标将客户分成几类。
这些问题都是聚类分析和判别分析可以发挥的用武之地。
判别分析和聚类分析都是研究事物分类的基本方法,它们有着不同的分类目的。
各种判别方法都要求对类的情况事先了解,根据已有的分类数据提取出类的特征,在根据提取的特征对新的还没有分类的数据进行分类。
如果类别情况事先不了解,那么就可以通过聚类得到分类情况,聚类分析的目的是把分类对象按照相似性的大小分成若干类,类的数目不必确定,分类完全根据数据自身的特点来完成,在分类结束以后,要求同类的对象相似,而不同类的对象差别大。
根据两种方法的关系,如果数据没有分类信息,就应该先进行聚类,待得到类别信息以后,就可以用判别分析提取类别的特征(通常是判别函数或判别准则),然后就建立了数据的一套“分类机制”,新的数据获取以后可以迅速进行分类。
因此对于两种方法,我们按照顺序先介绍聚类分析,再介绍判别分析。
SPSS中,聚类分析和判别分析都集成在菜单Cassify中,如图11-1所示,其中Two-Step Cluster、K-Means Cluster和Herarchical Cluste是聚类分析菜单,而Tress和Discriminant是判别分析菜单,还有一个Nearest Neighbor最近邻居法菜单是新增的非参数功能菜单。
图11-1 聚类分析和判别分析菜单
11.1 聚类分析概述
刚才已经介绍了聚类分析是根据数据本身的特点,对样本(或者变量)进行分类的方法,在聚类完成以后,要求同类的样本(或变量)相似,而不同类的样本(或变量)不相似。
这里就引入了一个问题,如何定义相似性呢?样本的相似性和变量的相似性刻画指标是否一致呢?这就是本节要研究的问题。
第11章 聚类分析和判别分析
『 2 』
11.1.1 聚类分析的应用和条件
相似性是聚类分析的基础,也是后面判别分析的基础。
如果没有相似性的定义,样本和样本之间的差异就无法比较,样本间差异相同也就无从谈聚类了,因此相似性定义至关重要。
在本小节中,我们介绍两种刻画相似性的指标——距离和相似系数,前者才用来度量样本之间的相似性,而后者常用来度量变量之间的相似性,虽然距离和相似系数有着不同的定义,但是基本都有一个要求,那就是变量至少要是顺序尺度变量,如果是名义尺度变量,就无法定义距离和相似系数了。
当然,在聚类分析中常常处理的都是间隔尺度变量定义的距离和相似系数。
下面我们就分别简要介绍距离和相似系数的定义。
1. 距离
假设我们考虑一个多元总体,其含有p 个变量1,
,p X X ,对其进行抽样,得到n 个样本,数据指
标列成矩阵或者数据表的形式。
如下表11-1。
这种样本数据阵的方式和SPSS 处理和存储数据的方式是一致的,这也是我们定义距离的基础。
表11-1 样本数据阵的组成 样本 变量
1X 2X … p X 1 11x 12x … 1p x
2 21x 22x … 2p x
… …
…
…
…
n
1n x 2n x … np x
在表11-1中,ij x 表示第i 个样本在第j 个变量上的取值,矩阵的行表示样本,而列则表示变量。
这个概念读者请将它印在脑海中,因为在多元统计分析中,几乎随时随刻都会用到这种概念。
每个样本都有p 个变量值,因此每个样本可以看成p 维空间中的点,两个样本就是空间中的两个点,根据空间的性质就可以定义距离,距离小时,说明两个点接近,在聚类时应该分在同一类;相反,距离大时,说明两个点差异明显,不相似,分类时应该分在不同的类。
归纳起来就是距离越小,样本越相似。
距离一般要求满足三个条件:
正定性:即对于任意的两个样本i 、k ,其距离0ik d ≥,并且0ik d =⇔=i k x x ; 对称性:即对于任意的两个样本i 、k ,满足ik ki d d =; 三角不等式:即对于任意的三个样本i 、k 、l ,ik il lk d d d ≤+ 统计学中常用的距离有以下几种:
第三篇 SPSS 深入分析
1)明可夫斯基(Minkowski),也称明氏距离,其定义公式为:
11
()(||)p
g
g ij ik jk k d g x x ==-∑
明氏距离其实是一类距离的总称,因为其中含有参数g ,随着g 的取不同的自然数,明氏距离就有不同的形式,其中三种形式使用较多:
当g=1时,称为绝对值距离,常被用于度量城市街区的长度,也称街区距离或Block 距离,其定义为:
1
(1)||p
ij ik jk k d x x ==-∑
当g=2时,称为欧氏距离,这是统计学中使用非常广泛的距离,通常情况下所说的距离就是欧氏距离,其定义为:
ij d =
当g =∞时,称为切比雪夫距离,它常用于图像处理和模式识别中,强调最大的差异,有时也称最大距离,其定义为:
1()max ||ij ik jk k p
d x x ≤≤∞=-
注意,当变量个数只有1个,即单变量时,明氏距离退化为绝对值,因此明氏距离可以看做是绝对值在多变量上的推广。
明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关;②明氏距离的定义没有考虑各个变量之间的相关性和重要性。
实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。
当各个变量单位不同或者对于不同的k ,离差||ik jk x x -相差很大时,不宜采用明氏距离,这是因为如果按照明氏距离计算,则离差大的变量将对距离其主导作用,其他变量的变化将非常不明显,这显然是不合理的。
如果实在要用,一定要将各个变量实施标准化处理,保证各个变量的离差接近,才能用标准化的数据计算距离,常用的标准化处理是:
ij x x x *-=
式中ij x *
是ij x 标准化以后的值,j x 是变量j 的均值,jj s 是变量的样本方差,因此标准化通俗来讲就是减去均值除以标准差。
2)兰氏距离
这是兰思和维廉姆斯(Lance & Williams)所给定的一种距离,其计算公式为:
第11章 聚类分析和判别分析
『 4 』
1
()p
ik jk ij k ik jk
x x d L x x =-=+∑
这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。
虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。
3)马氏距离
这是印度著名统计学家马哈拉诺比斯(P .C .Mahalanobis)所定义的一种距离,其计算公式为:
ij d =式中12(,,...,)i i ip x x x '=i x ,12(,,...,)j j jp x x x '=j x 分别表示第i 个样品和第j 样品的p 个指标观测值所组成的列向量,即样本数据矩阵中第i 个和第j 个行向量的转置,∑表示观测变量之间的协方差短阵。
在实践应用中,若总体协方差矩阵∑未知,则可用样本协方差矩阵S 作为估计代替计算。
马氏距离有一个缺陷就是公式中的S 难以确定。
由于聚类是一个动态的过程,故S 应该随着聚类的流程而动态变化,则两个样本之间的距离会随流程发生变化,这又不符合聚类的基本要求,因此,在聚类分析的实际应用中,马氏距离使用较少,在实际中一般将变量标准化再使用欧氏距离。
这也是SPSS 中不提供马氏距离的原因。
2.相似系数
聚类分析方法不仅可以用于样本的聚类,而且可以用来对变量进行聚类,在对变量进行聚类时,一般不采用距离,而是用相似系数度量变量相似性。
变量之间的相似性度量,一般看相似系数的绝对值大小,当绝对值越大时,相似性越高;反之,绝对值较小,则相似性较弱。
聚类时,要求相似性高的变量分为一类,而相似性弱的变量分到不同的类。
两变量的相似系数一般应满足下面的三个条件:
1ij c =±时,表明两变量完全相关,即i j x a bx =+,式中a 、b 是常数; ||1ij c ≤,即相似系数在-1到1之间变化;
ij ji c c =,即相似系数具有对称性。
常用的相似系数有以下两种: 1) 夹角余弦
两变量的夹角余弦定义为:
第三篇 SPSS 深入分析
cos n
ki kj ij ij x
x
c α==
∑
它是两变量观测值11(,,)(,,)i ni j nj x x x x 、之间夹角ij α的余弦函数,从数据矩阵来看,就是数据矩
阵第i 列和第j 列向量的夹角余弦。
2) 相关函数
两变量相关函数的定义在第9章已经给出,这里不再赘述,只是给出多元分析中的计算公式:
()()
n
ki
i kj j ij x
x x x γ--∑
从第9章知识可知,这是变量间Person 简单相关系数的计算公式,当然也可以根据实际情况采用其他相关系数的计算公式,SPSS 提供了丰富的相关系数计算公式。
一般来说,同一批数据采用不同的相似性度量,会得到不同的聚类结果。
在进行聚类的过程中,应根据实际情况选择合适的相似性度量。
如在经济变量分析中,采用相关系数来度量变量的相似性程度,一般情况下相关系数比其它相似变量有更强的变化性,但分辨力要弱些。
因此在开始进行聚类分析时,不妨试探性地多选择相似性测度指标,分别进行聚类,然后对聚类分析的结果进行对比,以确定出合适的亲疏测度指标。
综上所述,应用聚类分析的条件我们归纳如下:
对类型的要求:首先要弄清究竟是进行变量聚类还是样本聚类,这点非常重要,涉及后面的要
求;
对数据的要求:对于样本聚类,变量最好为间隔尺度,对变量聚类,至少要求变量是顺序尺度,
最好是间隔尺度,当然如果变量不符合条件,SPSS 也有解决办法,但是会影响准确性; 对相似性的要求:对于样本聚类,一般采用距离度量相似性,距离越小相似性越高,对于变量
聚类,一般采用相关系数度量相似性,相关系数绝对值越大相似性越高;
对变量的要求:如果进行样本聚类,在选择聚类变量时要注意选择能否体现聚类意义的变量,
变量的线性相关程度也不能太高,否则也会影响聚类效果。
这里反复提到样本聚类用距离、变量聚类用相关系数作为相似性度量,原因在于:如果变量也用距离度量相似性,那就必然有两个变量对应值相减,但是两个变量往往具有不同含义,如身高、体重,其值相减身高-体重没有实际意义;
同理,样本如果用相关系数也会使得计算出的指标无意义。
11.1.2 聚类分析的分类
聚类分析有多种分类方法,下面我们一一介绍。
『 6 』
第11章聚类分析和判别分析
首先,前面以及提及,按照聚类分析的对象,聚类分析可以分为样本聚类(也称Q型聚类)和变量聚类(也称R型聚类)两种。
在本章我们主要讨论Q型聚类,对于R型聚类只是简要介绍。
第二、根据聚类的不同方法和不同作法,聚类分析包含非常丰富的内容,有系统聚类法、动态聚类法、模糊聚类法、图论聚类法,聚类预报法等。
本章主要介绍动态聚类法和系统聚类法,其它方法请大家参考相关书籍。
第三、根据聚类的流程差异,可以将聚类分析分为凝聚式聚类和分解式聚类两种,凝聚式聚类流程是将样本凝聚成一个或几个大类,在凝集过程中发现类的归属,样本趋于集中;而分解式聚类流程是将一个或几个大类分解成各样本,在分解过程中寻找类的归属,样本趋于分散。
11.2 K-均值聚类
本节研究动态聚类法,在SPSS中提供的动态聚类方法只有K-均值聚类(K-Means Cluster)一种,因此本章就以K-均值聚类为例来介绍动态聚类的思想及在SPSS中的实现。
11.2.1引例,K-均值聚类概述及应用条件
样本数量十分庞大时,为提高聚类的计算速度,应该采用动态聚类法。
比如在市场抽样调查中,有4万人就其对衣着的偏好作了回答,希望能迅速将他们分为几类。
这时,采用系统聚类法就很困难,而动态聚类法就会显得方便,适用。
动态聚类解决的问题是:假如有n个样本点,要把它们分为k类,使得每一类内的元素都是聚合的,并且类与类之间还能很好地区别开。
动态聚类使用于大型数据,但是动态聚类只能用于对样本聚类不能用于对变量聚类。
同样,在本节的开头我们提出一个例子,通过对例子的分析来说明动态聚类法的思想和SPSS操作实现。
本例中,房屋销售的数据样本量大,如果用系统聚类方法不但计算速度慢,而且聚类的过程繁琐,SPSS输出结果比较多,难以看清,因此本例采用动态聚类方法。
下面我们先结合例子说明动态聚类方法K-均值聚类的步骤:
1. 选定分类的数目,并指定每类的中心(聚核)
在K-均值聚类中,要求事先指定每类的聚核。
因此指定分类数是非常重要的一个步骤,没有分类数就无法指定聚核,没有聚核就无法分类了。
在SPSS中,一旦指定分类,可以自己指定聚核,也可以让SPSS根据数据情况计算聚核。
2. 计算样本到聚核的距离并进行分类
指定聚核以后,就可以计算样本即每套房屋到聚核的距离,根据距离对样本进行分类,将样本分到距离最近的聚核所在分类中,对每一个样本都如此处理后,初次分类结束。
3. 重新计算新的分类聚核
K-Means聚类中最关键的一步就是重新计算分类的聚核,因为初始指定的聚核不一定是合理的,经过分类以后,通过计算类均值来表示类中心,类中心的变化体现了类中样本的变化,无论是类中样本增
第三篇 SPSS 深入分析
加还是样本减少,类均值都会发生变化。
类中样本发生变化说明现有分类还不合理,只有类中样本不再变化,才说明类中样本固定,分类才合理。
可见,在整个聚类过程中,样本的类属和类的中心都在动态调整中,每次都不完全相同,这也正是动态聚类名称的由
来。
4. 判断聚类是否合理
上面以及提及,当类中样本不发上变化时,才说明分类合理,因此我们需要判断分类的合理性。
SPSS 中通过比较两次分类,类中心是否发生变化来判断样本类属是否变化。
当类中心不变时,说明分类合理,此时输出分类结果,当类中心变化时,说明分类还不合理,需要回到第2步进行循环迭代,直到分类合理为止。
K-均值聚类中需要注意的问题: 1. 关于聚核的选取
聚核就是一批有代表性的点,是欲形成类的中心。
聚核的选择直接决定初始分类,对分类结果也有很大的影响,由于聚核的不同选择,其最终分类结果也将出现不同。
故选择时要慎重.通常选择聚核的方法有:
1) 人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为聚核。
2) 将数据人为地分为A 类,计算每一类的重心,就将这些重心作为凝聚点。
3) 用密度法选择聚核。
以某个正数d 为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)就叫做这个样品的密度。
计算所有样品点的密度后,首先选择密度最大的样品作为第一聚核,并且人为地确定一个正数D (一般D > d ,常取D =2d )。
然后选出次大密度的样品点,若它与第一个凝 聚点的距离大于D ,则将其作为第二个聚核;否则舍去这点,再选密度次于它的样品。
这样,按密度大小依次考查,直至全部样品考查完毕为止.此方法中,d 要给的合适,太大了使聚核个数太 少,太小了使聚核个数太多。
4) 人为地选择一正数d ,首先以所有样品的均值作为第一聚核。
然后依次考察每个样品,若某样品与已选定的聚核的距离均大于d ,该样品作为第二个的聚核,否则考察下一个样品。
以此类推,每次找出的新聚核都必须满足到前面聚核的距离大于d ,直至搜集到K 个点为止。
5) 随机地选择,如果对样品的性质毫无所知,可采用随机数表来选择,打算分几类就选几个聚核。
或者就用前k 个样品作为凝聚点(假设分k 类)。
这方法一般不提倡使用,原因是效率低,并且影响分类效果。
SPSS 是按照第2种方法配合第3种方法来选择聚核的,因此选出的聚核都比较科学,聚类效果较好,因此一般推荐SPSS 自动计算聚核的方法,如非必要,不要人为指定聚核。
2. 关于终止迭代的条件 假设()
m i
A 表示在第m 次分类后第i 类的中心,SPSS 中终止迭代的条件为:
(1)()21
()0k
m m i i i A
A +=-=∑
即下一次迭代分类后的中心和本次的中心吻合,不再移动。
『8 』
第11章聚类分析和判别分析
11.2.2K-均值聚类的SPSS实现
下面我们来看K-均值聚类的SPSS操作:
Step1:选择【Analysis】菜单→【Classify】菜单→【K-Means Cluster】菜单
在图11-2的对话框中,Variables框表示用于聚类的变量,下方的Number of Clusters文本框用于指定分类数目,Cluster Center复选框组用于对类中心的处理,Method单选框组用于指定聚类方法,右边三个按钮用于指定聚类参数。
图11-2 K-Means聚类主对话框
Step2:选择聚类变量、参数和设置选项
查定地价、查定改良价、销售价→V ariables //选定聚类变量
3→Number of Clusters //指定分类数为3
Mehtod单选框组:勾选Iterrate and classify //选择迭代分组选项
点击按钮,进入如图11-3子对话框,勾选Cluster Menbership和Distance from cluster center
复选框,表示需要存储样本类属和样本到类中心的距离作为新的SPSS 变量。
点击按钮返回。
图11-3 Save子对话框
点击按钮,进入图11-4子对话框,勾选Initial cluster centers和ANOV A table复选框,表示
需要输出初始类中心和类方差分析表格。
点击按钮返回。
第三篇SPSS深入分析
图11-4 Options子对话框
点击按钮,进入图11-5子对话框,在Maximum Iterations:框中将迭代最大次数修改为100,SPSS默认为10,此处由于样本数多,需要修改迭代次数,否则不能得到最好的分类结果。
点击
按钮返回。
图11-5 Iterate子对话框
选择完成设置。
关于Cluster Centers复选框说明,虽然本例中没有对该复选框进行选择,但是这里还是对其选项简单说明:
Read initial复选框:表示读取类的中心,可以从打开的数据集文件“Open dataset”和存储在磁盘上的文件“External data file”中读取,需要注意的是数据集中案例数必须与分类中心个数匹配,变量必须与分类变量匹配。
Write final复选框:将最后的分类中心写入新的数据集,可以写入一个新的数据集“New dataset”中,也可以写入一个磁盘文件“Data file”中。
11.2.3K-均值聚类的结果分析
下面我们来看K-均值聚类分析的结果,此处需要说明的是为什么我们没有选择“查定总定价”和“销售价与总定价的比例”作为聚类变量,这是因为查定总定价=查定地价+查定改良价,而销售价比例=销售价/总定价。
因此考虑到变量之间不能有强的相关关系。
查定地价,查定改良价和销售价三个变量足够说明全部信息,其余变量都可以有这三个变量计算得出,因此选择这三个变量为聚类变量。
表11-1 Initial Cluster Centers
Cluster
1 2 3
查定地价
55
300
4
140
51
469
第11章聚类分析和判别分析『10
』
良价996 500 523
销售价
44
5000
5
600
22
0000
表11-1列出了三类初始的中心值,从表中可以看出三个中心已经有较大差异。
表11-2 Iteration History a
Iter ation
Change in Cluster Centers 1 2 3
1
5096
9.949
6219
2.935
7658
0.418
2
5481
8.425
845.3
25
6572.
151
3
3800
6.961
1376.
348
8031.
811
4
2273
5.299
1417.
737
7188.
608
5
2242
9.704
1526.
382
7173.
391
6
2207
3.120
1733.
282
8045.
166
7
1941
8.868
2068.
099
8425.
209
8 8423.
443
1873.
299
5328.
297
9 3533.
947
1763.
778
3703.
616
10 2416.
164
1037.
328
2203.
326
11 714.9
94
604.8
91
1136.
136
12 .000 322.3
47
529.1
70
13 797.2
30
161.7
01
431.3
13
14 944.2
35
115.4
79
355.5
16
15 .000 45.63
2
74.64
1
16 .000 23.10
9
37.88
17 .000 .000 .000
表11-2列出了动态聚类迭代的过程,从过程中看,我们看到一共迭代了17次,前几次中心的变化很大,以后逐渐减小,到17次中心的变化为0,说明此时样本类属不变,分类比较合理。
需要说明的是,SPSS默认最大迭代次数为10次,在样本量不大的情况下足够了,但是如果样本量大,例如几百上千个样本时,10次迭代就不够了,此时往往需要将最大迭代次数修改为100次。
表11-3列出了最后的各类中心值,和表11-1列出的类初始中心值比较,我们可以发现各类的中心值已经有了较大的改变。
各类的差别也更加明显了。
表11-3 Final Cluster Centers
Cluster
1 2 3
查定地价
43
187
1
1536
2
0519
查定改良价
33
246
2
7457
6
4862
销售价
20
2813
4
5154
9
6081
表11-4列出了各类中样本数目,可以看到第1类样本数为182个,属于高档住宅,例如大型别墅、度假村之类,数量较少,总售价最高,平均售价为$202813;第2类样本数为1404个,属于低档住宅,例如公寓等,数量众多,售价较低,平均售价为$45154;第3类样本数为854个,属于中档住宅,例如小型别墅、洋房等,数量较多,售价中等,平均售价为$96081。
表11-4 Number of Cases in each Cluster
Cl uster 1
182.
000 2
140
4.000 3
854.
000
Valid
244 0.000
』
Missin g
.000
这里我们利用三个变量将2440套房屋分成了3类,但是是否每个变量都对分类起到了贡献呢?对于这点我们利用类似方差分析的思想来进行验证,如果某个变量在高、中、低三档房屋中均值显著差异,显然对于聚类就是有效的变量,相反,如果某变量在三档房屋中差异不显著,就是无效的聚类变量。
表11-5 ANOVA
Cluster
Error
F
Sig.
Mean Square
d f Mean Square
df 查定地价 5.981E10 3 5.138E7 2436 1164.057 .000 查定改良价
2.534E11 3 2.354E8 2436 1076.694 .000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot
be interpreted as tests of the hypothesis that the cluster means are equal.
这个表格的注释非常重要,因此我们保留了,注释说明了这里利用的类似方差分析的输出表格并不是真正的方差分析。
读者应该还记得,方差分析是有条件的:要求变量是正态分布,并且要求各水平间方差齐性,这里这些性质是否满足都没有进行验证,因此,这个表格仅仅能说明变量在高、中、低三档房屋中的差异程度,F 统计量可能并非服从F 分布,对应的P 值也只能作为一个参考标准而非判断标准。
尽管如此,从结果上看,F 统计量的观测值在三个变量上都非常大,相应的P 值非常接近0,因此虽然F 统计量分布未知,我们依然能肯定三个变量在高、中、低三档房屋中均值显著差异,三个变量都是有效的聚类变量。
但是如果此处F 值较小,例如等于3,则据此判断均值差异显著就有些勉强。
11.3 层次聚类
本节介绍层次聚类,层次聚类又称系统聚类,是聚类分析中方法最多,理论最完整的聚类方法,其聚类效果也较好。
优点是可以清楚的了解聚类的整个过程,缺点是计算速度较慢,不太适合大型数据的聚类分析。
因此,层次聚类和动态聚类互为补充 ,样本量较小时,可以采用系统聚类,清楚整个过程;样本量大时,如果还要使用层次聚类,一方面计算时间会很长,另一方面输出结果会很多,要弄清整个聚类过程非常繁琐,此时应该采用动态聚类。
11.3.1 引例:层次聚类概述及应用条件
层次聚类不仅可以用于样本聚类,也可以用于变量聚类,因此,本节将举出一个样本层次聚类和一个变量层次聚类的例子,来说明两种聚类的差异性,并说明在SPSS 中,这两种聚类方法的实现和结果差异。
下面分别样本聚类和变量聚类的两个例子:。