SPSS课件第11章

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第11章聚类分析和判别分析

聚类分析和判别分析都是研究事物分类的多元统计方法,两者紧密联系又有所区别。随着多元统计方法的快速发展和计算机的普遍应用,这两种方法在许多领域得到了大量的应用,理论和软件也越来越成熟。已经成为研究事物分类的最常用的方法之一。

俗话说:“物以类聚,人以群分。”在现实世界中,存在着大量的分类问题。例如,某学校学生按德智体全方位发展分成几个等级;在经济学中,根据人均国民收入、人均工农业产值等多项指标将全球各国家分成几类;在金融应用中,按照经每股收益、每股利润、每股净资产、市盈率、市净率等指标将上市公司进行分类;银行按照客户的收入、职业、信用情况、抵押品等指标将客户分成几类。这些问题都是聚类分析和判别分析可以发挥的用武之地。

判别分析和聚类分析都是研究事物分类的基本方法,它们有着不同的分类目的。各种判别方法都要求对类的情况事先了解,根据已有的分类数据提取出类的特征,在根据提取的特征对新的还没有分类的数据进行分类。如果类别情况事先不了解,那么就可以通过聚类得到分类情况,聚类分析的目的是把分类对象按照相似性的大小分成若干类,类的数目不必确定,分类完全根据数据自身的特点来完成,在分类结束以后,要求同类的对象相似,而不同类的对象差别大。

根据两种方法的关系,如果数据没有分类信息,就应该先进行聚类,待得到类别信息以后,就可以用判别分析提取类别的特征(通常是判别函数或判别准则),然后就建立了数据的一套“分类机制”,新的数据获取以后可以迅速进行分类。因此对于两种方法,我们按照顺序先介绍聚类分析,再介绍判别分析。

SPSS中,聚类分析和判别分析都集成在菜单Cassify中,如图11-1所示,其中Two-Step Cluster、K-Means Cluster和Herarchical Cluste是聚类分析菜单,而Tress和Discriminant是判别分析菜单,还有一个Nearest Neighbor最近邻居法菜单是新增的非参数功能菜单。

图11-1 聚类分析和判别分析菜单

11.1 聚类分析概述

刚才已经介绍了聚类分析是根据数据本身的特点,对样本(或者变量)进行分类的方法,在聚类完成以后,要求同类的样本(或变量)相似,而不同类的样本(或变量)不相似。这里就引入了一个问题,如何定义相似性呢?样本的相似性和变量的相似性刻画指标是否一致呢?这就是本节要研究的问题。

第11章 聚类分析和判别分析

『 2 』

11.1.1 聚类分析的应用和条件

相似性是聚类分析的基础,也是后面判别分析的基础。如果没有相似性的定义,样本和样本之间的差异就无法比较,样本间差异相同也就无从谈聚类了,因此相似性定义至关重要。在本小节中,我们介绍两种刻画相似性的指标——距离和相似系数,前者才用来度量样本之间的相似性,而后者常用来度量变量之间的相似性,虽然距离和相似系数有着不同的定义,但是基本都有一个要求,那就是变量至少要是顺序尺度变量,如果是名义尺度变量,就无法定义距离和相似系数了。当然,在聚类分析中常常处理的都是间隔尺度变量定义的距离和相似系数。下面我们就分别简要介绍距离和相似系数的定义。

1. 距离

假设我们考虑一个多元总体,其含有p 个变量1,

,p X X ,对其进行抽样,得到n 个样本,数据指

标列成矩阵或者数据表的形式。如下表11-1。这种样本数据阵的方式和SPSS 处理和存储数据的方式是一致的,这也是我们定义距离的基础。

表11-1 样本数据阵的组成 样本 变量

1X 2X … p X 1 11x 12x … 1p x

2 21x 22x … 2p x

… …

n

1n x 2n x … np x

在表11-1中,ij x 表示第i 个样本在第j 个变量上的取值,矩阵的行表示样本,而列则表示变量。

这个概念读者请将它印在脑海中,因为在多元统计分析中,几乎随时随刻都会用到这种概念。

每个样本都有p 个变量值,因此每个样本可以看成p 维空间中的点,两个样本就是空间中的两个点,根据空间的性质就可以定义距离,距离小时,说明两个点接近,在聚类时应该分在同一类;相反,距离大时,说明两个点差异明显,不相似,分类时应该分在不同的类。归纳起来就是距离越小,样本越相似。

距离一般要求满足三个条件:

正定性:即对于任意的两个样本i 、k ,其距离0ik d ≥,并且0ik d =⇔=i k x x ; 对称性:即对于任意的两个样本i 、k ,满足ik ki d d =; 三角不等式:即对于任意的三个样本i 、k 、l ,ik il lk d d d ≤+ 统计学中常用的距离有以下几种:

第三篇 SPSS 深入分析

1)明可夫斯基(Minkowski),也称明氏距离,其定义公式为:

11

()(||)p

g

g ij ik jk k d g x x ==-∑

明氏距离其实是一类距离的总称,因为其中含有参数g ,随着g 的取不同的自然数,明氏距离就有不同的形式,其中三种形式使用较多:

当g=1时,称为绝对值距离,常被用于度量城市街区的长度,也称街区距离或Block 距离,其定义为:

1

(1)||p

ij ik jk k d x x ==-∑

当g=2时,称为欧氏距离,这是统计学中使用非常广泛的距离,通常情况下所说的距离就是欧氏距离,其定义为:

ij d =

当g =∞时,称为切比雪夫距离,它常用于图像处理和模式识别中,强调最大的差异,有时也称最大距离,其定义为:

1()max ||ij ik jk k p

d x x ≤≤∞=-

注意,当变量个数只有1个,即单变量时,明氏距离退化为绝对值,因此明氏距离可以看做是绝对值在多变量上的推广。

明考夫斯基距离主要有以下两个缺点:①明氏距离的值与各指标的量纲有关;②明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。当各个变量单位不同或者对于不同的k ,离差||ik jk x x -相差很大时,不宜采用明氏距离,这是因为如果按照明氏距离计算,则离差大的变量将对距离其主导作用,其他变量的变化将非常不明显,这显然是不合理的。如果实在要用,一定要将各个变量实施标准化处理,保证各个变量的离差接近,才能用标准化的数据计算距离,常用的标准化处理是:

ij x x x *-=

式中ij x *

是ij x 标准化以后的值,j x 是变量j 的均值,jj s 是变量的样本方差,因此标准化通俗来讲就是减去均值除以标准差。

2)兰氏距离

这是兰思和维廉姆斯(Lance & Williams)所给定的一种距离,其计算公式为:

相关文档
最新文档