spss聚类分析.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

有两个关键问题: 类与类间的距离如何衡量? 如何选择分几类呢?
二、类间距离
最短距离法、最长距离法、类平均法、重心法和 离差平方和法等。
它们的归类步骤基本上是一致的,主要差异是类 间距离的计算方法不同。
以下用dij表示样品(指标)Xi与Xj之间距离,用D表 示类Gi与Gj之间的距离。
1. 最短距离法 定义类与之间的距离为两类最近样品(指标)的距离,即为
系统聚类过程是:假设总共有n个样品(或变量)
第一步:将每个样品(或变量)独自聚成一类,共有 n类;
第二步:根据所确定的样品(或变量)“距离”公式 ,把距离较近的两个样品(或变量)聚合为一类, 其它的样品(或变量)仍各自聚为一类,共聚成n 1类;
第三步:将“距离”最近的两个类进一步聚成一类, 共聚成n 2类;……,以上步骤一直进行下去,最 后将所有的样品(或变量)全聚成一类。
入状况的指标有:标准工资收入\职工奖金….. 样品是什么?
你所研究的11户居民. 进一步解读指标:
间隔尺度
有序尺度
名义尺度
思考:能不能对指标进行聚类?
第二节 相似性的量度
一 样品相似性的度量 二 变量相似性的度量
一、样品相似性的度量
Q型聚类分析,常用距离来测度样品之间的相似程度。 选择p个变量对n个样品聚类:可以把n个样品
聚类分析
第一节 聚类分析核心思想 第二节 相似性的量度 第三节 系统聚类分析法 第四节 K均值聚类分析 第五节 实例分析与计算机实现
第一节 核心思想
“物以类聚,人以群分”。 “近朱者赤,近墨者黑” 在生物学中,为了研究生物的演变,生物学家需要根据各种
生物不同的特征对生物进行分类。 在经济学中,根据经济发展的不同阶段对世界各个国家进行
2.马氏距离 两个样品间的马氏距离为
di2j (M ) (Xi X j )Σ1(Xi X j ) 马氏距离又称为广义欧氏距离。
优点: (1)考虑了观测变量之间的相关性。
如果各变量之间相互独立,即观测变量的协方差矩阵 是对角矩阵。 (2) 不再受各指标量纲的影响。
4.距离选择的原则
(1)要考虑所选择的距离公式在实际应用中有明 确的意义。如欧氏距离就有非常明确的空间距离 概念。马氏距离有消除量纲影响的作用。
1
DG ( p, q) npnq iGp jGj dij
.1
. 2
.
.4
3
(2)要综合考虑对样本观测数据的预处理和将要 采用的聚类分析方法。如在进行聚类分析之前已 经对变量作了标准化处理,则通常就可采用欧氏 距离。
(3)要考虑研究对象的特点和计算量的大小。样 品间距离公式的选择是一个比较复杂且带有一定 主观性的问题,我们应根据研究对象的特点不同 做出具体分折。实际中,聚类分析前不妨试探性 地多选择几个距离公式分别进行聚类,然后对聚 类分析的结果进行对比分析,以确定最合适的距 离测度方法。
系统聚类 模糊聚类 K均值聚类 有序样品聚类
第三节 系统聚类
一 系统聚类的基本思想 二 类间距离与系统聚类法 三 类间距离的统一性
一、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量 )先聚成类,距离相远的后聚成类,过程一直进行 下去,每个样品(或变量)总能聚到合适的类中。
Dk (p,q ) min{dij | i Gp, j Gq }
. .
. .
2. 最长距离法
定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即

Dk ( p, q) max{dij | i GP , j Gq}
. .
. .
3.类平均法 两类间距离为类中任意两样品(指标)距离的平均。
相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关系 数定义为
n
(xki Xi )(xkj Xj )
rij n k1
2n
2
[ (xki Xi ) (xkj Xj ) ]1/2
k1
k1
X i 和 X j分别为变量i和jБайду номын сангаас均值
显然也有,∣rij∣ 1。
有了对单个样品和单个指标相似形的度量方 法后,如何根据类间距离大小和相关系数大小 来进行分类呢?会用到以下聚类方法:
二、变量相似性的度量
R型聚类分析中,常用相似系数表示变量间的相似性。 1、夹角余弦
n
xki xkj
cosij
k 1
n
n
[(
x2 ki
)(
x2 kj
)]1/2
k 1
k 1
x k i 变量i的第k个取值
x kj
变量j的第k个取值
显然,∣cos ij∣ 1。
二氧化碳影响因素聚类
2.相关系数
看成p维空间中的n个点,则两个样品间相似程度就可 用p维空间中的两点距离来度量。

不同的距离公式: 1.明考夫斯基距离
令dij 表示样品Xi与Xj的距离 (1)绝对距离( q 1)
p
dij (1) X ik X jk k 1
(2)欧氏距离( q 2 )
p
dij (2) (
X ik X jk )2 1/ 2
1
410
4380000
2
336
1730000
3
490
220000
欧氏距离

万元
(1,2)
265000
81.6
(1,3)
218000
193.7
(2,3)
47000
254.8
立项课题数()
19 21 8
从距离的定义来看,所有变量都会在距离 中做出贡献,若变量间存在较高的线形相 关性,能够相互替代,那么计算距离就会 重复替代,将在距离计算中有较高的权重 ,从而使最终的聚类结果更倾向此变量
k 1
(3)切比雪夫距离( q )
dij
()
max
1k p
Xpik
X jk
dij (q) (
X ik
X jk
) q 1/ q
k 1
明考夫斯基距离的缺陷: 容易受变量的量纲影响. 没有考虑变量间的相关性
两种改进措施: “马氏距离”法和变量标准化处理法(见书)
高校科研的样本
学校
参加科研人数(人) 投入经费(元)
分类. 医学研究中,阑尾炎类型的划分:性单纯性阑尾炎,急性化脓性
阑尾炎,坏疽性及穿孔性阑尾炎。 在社会学研究中,需要构造人口生育分类模式、人口死亡分
类状况,以此来研究人口的生育和死亡规律。
聚类分析的核心思想就是根据具体的指标(变量)对 你所研究的样品进行分类.
指标是什么?书上的例子. 将居民户按户主收入状况进行分类,那么衡量收
相关文档
最新文档