spss聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【例5.1】设有六个样品,每个只测量一个指标,分别是1,2, 5,7,9,10,试用最短距离法将它们分类。 (1)选择样品距离公式,绝对距离最简单,形成D(0)
G1 0 1 4 6 8 9 G2 0 3 5 7 8 0 2 4 5 0 2 3 0 1 0 G3 G4 G5 G6
G1 G2 G3 G4 G5 G6
G1 G2 G3 G4 G5 G6
(2)D2(0)中ຫໍສະໝຸດ Baidu小的元素是D212=D256=1,于是将G1和G2 合并成G7,G5和G6合并成G8,新类与其它类的距离得到距离 阵D2(1)
G1 G2 G3 G4
G1 0 12.25 30.25 64
G2 0 4 20.25
G3
G4
0 6.25 0
(3)在D2(1)中最小值是D234=4,那么G3与G4合并一个新 类G9,其与与其它类的距离D2(2)
5. 离差平方和法 又称为Ward法。如果分类正确,同类样品的离差平方和应 当较小,类与类的离差平方和较大。 具体做法是先将n个样品各自成一类,然后每次缩小一类, 每缩小一类,离差平方和就要增大,选择使方差增加最小的 两类合并,直到所有的样品归为一类为止。
Dw D p q D p Dq
2
Dp为p类的离差平方和 Dq为q类的离差平方和 Dpq为p和q组成总类的离差平方和
5.组间平均链接
该个体与小类中每个个体距离的平均
6.组内平均链接
该个体与小类中每个给体距离,以及小类内部每 个个体距离的平均
case 1 2 3 4 5 1 0 8.062 17.804 26.907 30.414 2 8.062 0 25.456 34.655 38.21
二氧化碳影响因素聚类
2.相关系数 相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关 系数定义为
rij
(x ki k
1
n
X i )(x kj X j )
2 n
[ (x ki X i )
k 1
n
(x kj k
1
Xj) ]
2
1/2
X i 和X j
样品是什么?
你所研究的11户居民.
进一步解读指标:
间隔尺度
有序尺度
名义尺度 思考:能不能对指标进行聚类?
第二节 相似性的量度
一 样品相似性的度量
二 变量相似性的度量
一、样品相似性的度量
Q型聚类分析,常用距离来测度样品之间的相似程度。
选择p个变量对n个样品聚类:可以把n个样品看成
p维空间中的n个点,则两个样品间相似程度就可用p 维空间中的两点距离来度量。
:
不同的距离公式: 1.明考夫斯基距离 令dij 表示样品Xi与Xj的距离 (1)绝对距离( q 1 )
dij (1) X ik X jk
k 1
p
(2)欧氏距离( q 2 )
dij (2) ( X ik X jk )
k 1 p 2 1/ 2
(3)切比雪夫距离( q )
G7 G9
G7 0 3
G9 0
(4)最后将G7和G9合并成G10,这时所有的六个样品聚为一 类,其过程终止。 上述聚类的可视化过程如下:
【例5.2】针对例5.1的数据,试用重心法将它们聚类。 (1)假设样品采用欧氏距离,样品间的平方距离阵D2(0)
G1 0 1 16 36 64 81 G2 0 9 25 49 64 0 4 16 25 0 4 9 0 1 0 G3 G4 G5 G6
从距离的定义来看,所有变量都会在距
离中做出贡献,若变量间存在较高的线
形相关性,能够相互替代,那么计算距离
就会重复替代,将在距离计算中有较高
的权重,从而使最终的聚类结果更倾向
此变量
2.马氏距离 两个样品间的马氏距离为
2 dij (M ) (Xi X j )Σ1 (Xi X j ) 马氏距离又称为广义欧氏距离。 优点: (1)考虑了观测变量之间的相关性。 如果各变量之间相互独立,即观测变量的协方差矩阵 是对角矩阵。 (2) 不再受各指标量纲的影响。
有两个关键问题:
类与类间的距离如何衡量? 如何选择分几类呢?
二、类间距离
最短距离法、最长距离法、类平均法、重心法和
离差平方和法等。
它们的归类步骤基本上是一致的,主要差异是类
间距离的计算方法不同。
以下用dij表示样品(指标)Xi与Xj之间距离,用D表
示类Gi与Gj之间的距离。
1. 最短距离法 定义类与之间的距离为两类最近样品(指标)的距离,即为
4.重新确定各类中心 。 利用分配过来的样本重新计算类均值. 5.判断是否满足终止聚类的条件. 跌代次数:SPSS默认为10
类中心点偏移程度:新确定的类中心点距离上个类中
心点的最大偏移量小于指定量.
系统聚类与K均值聚类的区别与联系
K均值法和系统聚类法一样,都是以距离的
远近亲疏为标准进行聚类的.
系统聚类总结:
要选择初始样品(指标)的相似形测度公式 聚成新类后要选择类与类间的距离公式 在选择哪些样品(指标)或是哪些类聚合为一类
时统一的标准都是距离最近.
引申出一个问题,到底选择哪一种类间距离 公式更好呢?
最短距离法是用得比较多的
第四节 K均值聚类
一、核心思想 这种算法的基本思想是将每一个样品分配给最近中 心(均值)的类中,具体的算法至少包括以下三个 步骤: 1.指定聚类数; 2.确定初始类的中心. 用户指定或系统指定. 3.根据距离最近原则进行分类. 计算每个样本到各类中心点的距离,并按距离最 近原则对所有样品进行分类.
一、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量)
先聚成类,距离相远的后聚成类,过程一直进行下 去,每个样品(或变量)总能聚到合适的类中。 系统聚类过程是:假设总共有n个样品(或变量) 第一步:将每个样品(或变量)独自聚成一类,共有 n类; 第二步:根据所确定的样品(或变量)“距离”公式, 把距离较近的两个样品(或变量)聚合为一类,其 它的样品(或变量)仍各自聚为一类,共聚成n 1 类; 第三步:将“距离”最近的两个类进一步聚成一类, 共聚成n 2类;……,以上步骤一直进行下去,最 后将所有的样品(或变量)全聚成一类。
阑尾炎,坏疽性及穿孔性阑尾炎。
在社会学研究中,需要构造人口生育分类模式、人口死亡分 类状况,以此来研究人口的生育和死亡规律。
聚类分析的核心思想就是根据具体的指标(变量)对
你所研究的样品进行分类.
指标是什么?书上的例子.
将居民户按户主收入状况进行分类,那么衡量 收入状况的指标有:标准工资收入\职工奖金…..
聚类分析
第一节 第二节 第三节 第四节 第五节 聚类分析核心思想 相似性的量度 系统聚类分析法 K均值聚类分析 实例分析与计算机实现
第一节 核心思想
“物以类聚,人以群分”。
“近朱者赤,近墨者黑” 在生物学中,为了研究生物的演变,生物学家需要根据各种 生物不同的特征对生物进行分类。
在经济学中,根据经济发展的不同阶段对世界各个国家进行 分类. 医学研究中,阑尾炎类型的划分:性单纯性阑尾炎,急性化脓性
欧氏距离 3 4 17.804 26.907 25.456 34.655 0 9.22 12.806 9.22 0 3.606
5 30.414 38.21 12.806 3.606 0
三、分类数的确定
可以根据碎石图确定: X轴表示分几类 Y轴表示聚合系数
四、聚类分析步骤 以最短距离法步骤为例: (1)选择样品(指标)距离公式,计算样品的两两距 离,得距离阵记为D(0) ,开始每个样品自成一类, 这时Dij = dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合 并成一个 新类,记为Gr,即Gr = {Gp,Gq}。 (3)根据最短距离法计算新类与其它类的距离。 (4)重复(2)、(3)两步. 如果某一步距离最小的元素不止一个,则对应这些 最小元素的类同时合并。
Dk ( p ,q ) min{d ij | i G p , j Gq }
. .
.
.
2. 最长距离法 定义类 Gi 与 G j 之间的距离为两类最远样品的距离,即 为
Dk ( p, q) max{dij | i GP , j Gq }
. .
.
.
3.类平均法 两类间距离为类中任意两样品(指标)距离的平均。
4.距离选择的原则 (1)要考虑所选择的距离公式在实际应用中有明 确的意义。如欧氏距离就有非常明确的空间距离 概念。马氏距离有消除量纲影响的作用。 (2)要综合考虑对样本观测数据的预处理和将要 采用的聚类分析方法。如在进行聚类分析之前已 经对变量作了标准化处理,则通常就可采用欧氏 距离。 (3)要考虑研究对象的特点和计算量的大小。样 品间距离公式的选择是一个比较复杂且带有一定 主观性的问题,我们应根据研究对象的特点不同 做出具体分折。实际中,聚类分析前不妨试探性 地多选择几个距离公式分别进行聚类,然后对聚 类分析的结果进行对比分析,以确定最合适的距 离测度方法。
系统聚类可以选择分类数, 而K—均值法只能 产生指定类数的聚类结果。所以有时也借助 系统聚类法以一部分样品为对象进行聚类,
其结果作为K—均值法确定类数的参考。
【例5.3】假定我们对A、B、C、D四个样品分别测量两 个变量,得到结果。
样品 变量
X1
A B C D 5 -1 1 -3
X2
3 1 -2 -2
试将以上的样品聚成两类。
第一步:按要求取K=2,为了实施均值法聚类,我们将这些 样品随意分成两类,比如(A、B)和(C、D),然后计算 这两个聚类的中心坐标,见表5.10所示。
分别为变量i和j的均值 显然也有,∣rij∣ 1。
有了对单个样品和单个指标相似形的度量方
法后,如何根据类间距离大小和相关系数大小 来进行分类呢?会用到以下聚类方法:
系统聚类 模糊聚类 K均值聚类 有序样品聚类
第三节 系统聚类
一 系统聚类的基本思想 二 类间距离与系统聚类法 三 类间距离的统一性
dij ( q ) ( X ik X
k 1
dij () max X ik X jk
1 k p
p
q jk
)1/ q
明考夫斯基距离的缺陷:
容易受变量的量纲影响. 没有考虑变量间的相关性 两种改进措施: “马氏距离”法和变量标准化处理法(见书)
高校科研的样本
学校 1 2 3 参加科研人数 (人) 410 336 490 欧氏距离 元 (1,2) (1,3) (2,3) 265000 218000 47000 万元 81.6 193.7 254.8 投入经费(元) 4380000 1730000 220000 立项课题数() 19 21 8
G7 G9 G8
G7 0 20.25 64
G9 0 12.5
G8
0
(4)在中最小值是=12.5,那么与合并一个新类,其与与 其它类的距离
G7 G10
G7 0 39.0625
G10 0
(5)最后将G7和G10合并成G11,这时所有的六个样品聚为一 类,其过程终止。 上述重心法聚类的可视化过程见图5.3所示,横坐标的刻度表 示并类的距离。
1 DG ( p, q) n p nq
.1
2
i G p j G j
d
ij
.
. 3
. 4
D
d 13 d 14 d 23 d 24
2*2
4. 重心法 重心法定义类间距离为两类重心(各类样品的均值)的距 离。
Dc ( p, q) d x p xq
注意:每次得到一个新的合并类后要重新计算重心
二、变量相似性的度量
R型聚类分析中,常用相似系数表示变量间的相似性。 1、夹角余弦
cos ij
2 2 [( x ki )( x kj )]1/ 2
n
x ki x kj k
1
n
n
k 1
k 1
x ki
变量i的第k个取值 变量j的第k个取值
x kj
显然,∣cos ij∣ 1。
(2)D(0)中最小的元素是D12=D56=1,于是将G1和G2合 并成G7,G5和G6合并成G8,并利用(5.12)式计算新类与 其它类的距离D(1)
G7 0 3 5 7 G3 0 2 4 0 2 0 G4 G8
G7 G3 G4 G8
(3)在D(1)中最小值是D34=D48=2,由于G4与G3合并, 又与G8合并,因此G3、G4、G8合并成一个新类G9,其与其 它类的距离D(2)