管理统计 SPASS第12章 聚类分析与判别分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12.1
聚类分析
• 实例:全国环境污染程度分析 为了更深入了解我国环境的污染程度状况,现 利用2009年数据对全国31个省、自治区、直辖市进 行聚类分析。
12.1
聚类分析
现在要分析我国各个地区的环境污染程度,案例 中选择了各地区“工业废气排放总量”、“工业废水 排放总量”和“二氧化硫排放总量”三个指标来反映 不同污染程度的环境状况,同时选择了北京等省市的 数据加以研究。这个问题属于典型的多元分析问题, 需要利用多个指标来分析各省市之间环境污染程度的 差异。因此,可以考虑利用快速聚类分析来研究各省 市之间的差异性,具体操作步骤如下。
a 1
-1 rij 1
其中
1 p xi xia p a 1
1 p x j x ja p a 1
聚类分析内容非常丰富,有系统聚类法、有序样品聚类 法、动态聚类法、模糊聚类法等。本节主要介绍使用较多 的快速聚类法和系统聚类法。
12.1
12.1.2 快速聚类法
聚类分析
K-均值聚类法又称快速聚类法,可以用于大量数据进行聚 类分析的情形。它是一种非分层的聚类方法。这种方法占用内 存少、计算量、处理速度快,特别适合大样本的聚类分析。它 的基本操作步骤如下: 1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只 能输出关于它的唯一解。这点不同于层次聚类。 2、确定k个初始类的中心。两种方式:一种是用户指定方式, 二是根据数据本身结构的中心初步确定每个类别的原始中心点。 3、根据距离最近原则进行分类。逐一计算每一记录到各个中心 点的距离,把各个记录按照距离最近的原则归入各个类别,并 计算新形成类别的中心点 4、按照新的中心位置,重新计算每一记录距离新的类别中心点 的距离,并重新进行归类。 5、重复步骤4,直到达到一定的收敛标准。 这种方法也常称为逐步聚类分析,即先把被聚对象进行初始 分类,然后逐步调整,得到最终分类。
思考:对我国 32个省、市、自治区的8个经济指标进行聚类, 应选取那种聚类方法? (1)对32个省、市、自治区聚类; (2)对8个经济指标聚类。
值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、 主成分分析、回归分析等往往效果更好。
12.1
3、距离和相似系数
聚类分析
为了将样品(或指标)进行分类,就需要研究样品之间关系。 目前用得最多的方法有两个: 一种方法是用相似系数,性质越接近的样品,它们的相似 系数的绝对值越接近1,而彼此无关的样品,它们的相似系数 的绝对值越接近于零。比较相似的样品归为一类,不怎么相似 的样品归为不同的类。 另一种方法是将一个样品看作P维空间的一个点,并在空 间定义距离,距离越近的点归为一类,距离较远的点归为不同 的类。
12.1
聚类分析
(1)距离 如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间 相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距 离。常用的距离有: 1q q p 明氏(Minkowski)距离 dij (q ) xia x ja
a 1
12.1
聚类分析
在系统聚类中,当每个类别有多于一个的数据点构成 时,就会涉及如何定义两个类间的距离问题。根据距离 公式不同,可能会得到不同的结果,这也就进一步构成 了不同的系统聚类方法。常用的方法有如下几种。 Between-groups linkage:组间平均距离法。 Within-groups linkage:组内平均距离法。 Nearest neighbor:最短距离法。 Furthest neighbor:最远距离法。 Centroid clustering:重心法。 Median clustering:中间距离法。 Ward's method:离差平方和法。
cos ij
x
a 1 p a 1 2 ia
p
ia
x ja
p 2 ja
x x
a 1
1 cosij 1
当 cosij 1 ,说明两个样品Xi与Xj完全相似; 接近1,说明Xi与Xj相似密切; cosij 0,说明Xi与Xj完全不一样;cosij 接近0,说明Xi与Xj差别大。
i,j 1,
,n
此距离仅适用于一切 xij 0 的情况,这个距离有助于克 服各指标之间量纲的影响,但没有考虑指标之间的相关性。
12.1
(2)相似系数
聚类分析
顾名思义,相似系数是描写样品之间相似程度的一个量, 常用的相似系数有: 夹角余弦 将任何两个样品Xi与Xj看成p维空间的两个向量,这两个向 量的夹角余弦用 cosij 表示。则
第12章
聚类分析与判别分析
12.1
聚类分析
12.1.1 聚类分析的基本原理 1、方法概述
聚类分析又称群分析,它是研究(样品或指标)分类问题的 一种多元统计方法。所谓类,就是指相似元素的集合。
2、聚类分析的分类
根据分类对象的不同可分为样品聚类和变量聚类。
(1)样品聚类
样品聚类在统计学中又称为Q型聚类,即对事件(Cases)进 行聚类,或是说对观测量进行聚类。它是根据被观测的对象的 各种特征,即反映被观测对象的特征的各变量值进行分类。
12.1
(4)最终聚类分析中心表
聚类分析
如下表所示列出了最终聚类分析中心。可以看到,最 后的中心位置较初始中心位置发生了较大的变化。
最终聚类分析中心
12.1
聚类分析
(5)最终聚类中心位置之间的距离 如下表所示为快速聚类分析最终确定的各类中心位置 的距离表。从结果来看,第一类和第三类之间的距离最 大,而第二类和第三类之间的距离最短,这些结果和实 际情况是相符合的。
2 ij
聚类分析
其中 表示指标的协差阵,即:
1 d (M ) ( X i X j ) ( X i X j )
( ij ) p p
1 n ij ( xai xi )( xaj x j ) n 1 a 1 i,j 1, ,p
1 n xi xai n a 1
12.1
(2)变量聚类
聚类分析
变量聚类在统计学又称为R型聚类。反映同一事物特点的变量有很 多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行 研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立 的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归 分析中,由于自变量的共线性导致偏回归系数不能真正反映自变量对 因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代 表性的自变量,而又不丢失大部分信息。
12.1
12.1.4 系统聚类法
聚类分析
同时根据聚类过程不同,又分为分解法和凝聚法。 分解法:开始把所有个体(观测量或变量)都视为同属一大类, 然后根据距离和相似性逐层分解,直到参与聚类的每个个体 自成一类为止。 凝聚法:开始把参与聚类的每个个体(观测量或变量)视为一 类,根据两类之间的距离或相似性逐步合并,直到合并为一 个大类为止。12.1源自 相关系数聚类分析
通常所说相关系数,一般指变量间的相关系数,作为 刻划样品间的相似关系也可类似给出定义,即第i个样品 与第j个样品之间的相关系数定义为:
rij
(x
a 1
p
ia
xi )( x ja x j )
p
(x
a 1
p
ia
xi )2 ( x ja x j ) 2
(7)聚类数目汇总
聚类分析
如下表所示是聚类数据汇总表,显示了聚类分析最终结 果中各个类别的数目。其中第一类的数目最多,等于20; 而第三类的数目最少,只有4个。
聚类数目汇总表
12.1
12.1.4 系统聚类法
聚类分析
系统聚类法常称为层次聚类法、分层聚类法,也是聚类 分析中使用广泛的一种方法。它有两种类型,一是对研究对 象本身进行分类,称为 Q 型聚类;另一是对研究对象的观察 指标进行分类,称为R型聚类。 思考:对我校全部在校学生的各项健康指标进行聚类,应选 取那种聚类方法?
•
打开数据文件12-1.sav,选择菜单栏中的【Analyze(分 析)】→【Classify(分类)】→【K-Means Cluster(K均 值聚类)】命令,弹出【K-Means Cluster Analysis(K均 值聚类分析)】对话框。 • 在左侧的候选变量列表框中将X1、X2和X3变量设定为聚 类分析变量,将其添加至【Variables(变量)】列表框中; 同时选择Y作为标识变量,将其移入【Label Cases by (个案标记依据)】列表框中。 • 在【Number of Clusters(聚类数)】文本框中输入数值 “3”,表示将样品利用聚类分析分为三类,如下图所示。
最终聚类中心位置之间的距离
12.1
(6)方差分析表
聚类分析
如下表所示为方差分析表,显示了各个指标在不同类的均 值比较情况。各数据项的含义依次是:组间均方、组间自由度、 组内均方、组内自由度。可以看到,各个指标在不同类之间的 差异是非常明显的,这进一步验证了聚类分析结果的有效性。
方差分析表
12.1
•
单击【Save(保存)】按钮,弹出【K-Means Cluster An alysis:Save(K均值聚类分析:保存)】对话框;勾选【 Cluster membership(聚类新成员)】和【Distance from cluster center(与聚类中心的距离)】复选框,表示输 出样品的聚类类别及距离,其他选项保持系统默认设置, 如下图所示,单击【Continue(继续)】按钮返回主对话 框。
迭代历史表
12.1
(3)聚类分析结果列表
聚类分析
通过快速聚类分析的最终结果列表可以看到整个样品 被分为以下三大类。 • 第一类:北京、天津、山西、内蒙古等20个地区。这些 地区工业废水、废气及二氧化硫的排放总量相对最低。 • 第二类:河北、福建、河南、湖北、湖南、广西和四川。 它们的污染程度在所有省份中位居中等水平。 • 第三类:江苏、浙江、山东和广东。这些地区的工业废 水、废气及二氧化硫排放总量是最高的,因此环境污染 也最为严重。 表中最后一列显示了样品和所属类别中心的聚类,此 表中的最后两列分别作为新变量保存于当前的工作文件 中。
xj
1 n xaj n a 1
马氏距离既排除了各指标之间相关性的干扰,而且还不受 各指标量纲的影响。除此之外,它还有一些优点,如将原数据 作一线性交换后,马氏距离仍不变等等。
12.1
聚类分析
兰氏(Canberra)距离 它是由Lance和Williams最早提出的,故称兰氏距离。
1 p xia x ja dij ( L) p a 1 xia x ja
12.1
实例结果及分析
聚类分析
(1)快速聚类分析的初始中心 结果首先给出了进行快速聚类分析的初始中心数据。 由于这里是要求将样品分为三类,因此软件给出了三个 中心位置。但是,这些中心位置可能在后续的迭代计算 中出现调整。
快速聚类分析的初始中心
12.1
(2)迭代历史表
聚类分析
下表显示了快速聚类分析的迭代过程。可以看到,第一次迭 代的变化值最大,其后随之减少。最后第三次迭代时,聚类中 心就不再变化了。这说明,本次快速聚类的迭代过程速度很快。
当q=1时
dij () max xia x ja
1 a p
即绝对距离
当q=2时
p d ij (2) ( xia x ja ) 2 a 1
1 2
即欧氏距离
当
q
时
d ij ( 1)
a 1
p
xia x ja
即切比雪夫距离
12.1
马氏(Mahalanobis)距离
• 单击【Options(选项)】按钮,弹出【K-Means Cluster An alysis:Options(K均值聚类分析:选项】对话框;勾选【 Statistics(统计量)】选项组中的复选框,其他选项保持 系统默认设置,如下图所示,单击【Continue(继续)】按 钮返回主对话框,单击【OK(确定)】按钮完成操作。
12.1
聚类分析
实例:不同地区信息基础设施发展状况的评价 1. 实例内容
要研究世界不同地区信息基础设施的发展状况, 这里选取了发达地区、新兴工业化地区、拉美地区、 亚洲地区中国家、转型地区等不同类型的20个国家 的数据。描述信息基础设施的变量主要有六个。 (1)Call—每千人拥有电话线数。 (2)movecall—每千房居民蜂窝移动电话数。 (3)fee—高峰时期每三分钟国际电话的成本。 (4)Computer—每千人拥有的计算机数。 (5)mips—每千人中计算机功率(每秒百万指令)。 (6)net—每千人互联网络户主数。