实用统计方法——第三讲 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x21• x22•
x11• x12•
重心法(Centroid clustering):均值点的距离

( x1 , y1 )

( x2 , y2 )
离差平方和法连接
(2 − 3) 2 + (4 − 3) 2 = 2
2,4
(6 − 5.5) 2 + (5 − 5.5) 2 = 0.5
6,5
1,5
(1 − 3) 2 + (5 − 3)பைடு நூலகம்2 = 8
d13
x22•
x21•
最长距离(Furthest Neighbor )
• x11• •
x21•
d12
• • •

组间平均连接(Between-group Linkage)
• • •
• • •
d1 + L + d 9 9
组内平均连接法(Within-group Linkage)
d1 + d 2 + d3 + d 4 + d5 + d 6 6
聚类分析
Cluster Analysis
引言 距离的度量 k-均值聚类及 均值聚类及SPSS实现 均值聚类及 实现 分层聚类及SPSS实现 实现 分层聚类及 附录(聚类的相关 命令) 附录(聚类的相关Matlab命令) 命令
引言
物以类聚、人以群分; 物以类聚、人以群分; 但根据什么分类呢? 但根据什么分类呢? 如要想把中国的县分类, 如要想把中国的县分类,就有多种方法 可以按照自然条件来分,比如考虑降水、 可以按照自然条件来分,比如考虑降水、 土地、日照、湿度等, 土地、日照、湿度等, 也可考虑收入、教育水准、医疗条件、 也可考虑收入、教育水准、医疗条件、基 础设施等指标; 础设施等指标; 既可以用某一项来分类, 既可以用某一项来分类,也可以同时考虑 多项指标来分类。 多项指标来分类。
事先不用确定分多少类: 事先不用确定分多少类:分层聚类 分 层 聚 类 或 系 统 聚 类 ( hierarchical cluster) 。 开始时 , 有多少点就是多 ) 开始时, 少类。 少类。 它第一步先把最近的两类( 它第一步先把最近的两类 ( 点 ) 合并 成一类, 成一类 , 然后再把剩下的最近的两类 合并成一类; 合并成一类; 这样下去, 每次都少一类, 这样下去 , 每次都少一类 , 直到最后 只有一大类为止。 越是后来合并的类, 只有一大类为止 。 越是后来合并的类 , 距离就越远。 距离就越远。
Minkowski: ∑ ( xi − yi )q i
1 q
Block(绝对距离 Σi|xi-yi| 绝对距离): 绝对距离 Lance距离 距离
i i
| xi − yi | 1 ∑ x +y p i i i
i
Pearson correlation
(相似系数 相似系数2): 相似系数
D2(k,r)=αpD2(k,p)+αqD2(k,q)+βD2(p,q) α α β +γ|D2(k,p)-D2(k,q)| γ 前面方法的递推公式可选择参数而得: 前面方法的递推公式可选择参数而得
方法 αi (i=p,q) ½ 最短距离 ½ 最长距离 ni/nr 重心 ni/nr 类平均 离差平方和(n 离差平方和 i+nk)/ (nr+nk) 1/2 中间距离 可变法 (1-β)/2 β 可变平均 β γ 0 0 -αpαq α 0 -nk/ (nr+nk) -1/4 β(<1) β(<1) -1/2 1/2 0 0 0 0 0 0
返回
(1- β) ni/nr
事先要确定分多少类: 均值聚类 事先要确定分多少类:k-均值聚类
系统聚类法需要计算出不同样品或变量的距离,还要在聚类 的每一步都要计算“类间距离”,相应的计算量自然比较大 ;特别是当样本的容量很大时,需要占据非常大的计算机内 存空间,这给应用带来一定的困难。而K—均值法是一种快 速聚类法,采用该方法得到的结果比较简单易懂,对计算机 的性能要求不高,因此应用也比较广泛。 K均值法是麦奎因(MacQueen,1967)提出的,这种算法 的基本思想是将每一个样品分配给最近中心(均值)的类中 ,具体的算法至少包括以下三个步骤: 1.将所有的样品分成K个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中, 并对获得样品与失去样品的类,重新计算中心坐标; 3.重复步骤2,直到所有的样品都不能再分配时为止。
聚类分析
对一个数据,既可以对变量(指标 指标)进行 对一个数据,既可以对变量 指标 进行 分类(相当于对数据中的列分类 相当于对数据中的列分类), 分类 相当于对数据中的列分类 ,也可 以对观测值(事件 样品)来分类 事件, 来分类(相当 以对观测值 事件 , 样品 来分类 相当 于对数据中的行分类)。 于对数据中的行分类 。 当然, 不一定事先假定有多少类, 完 当然 , 不一定事先假定有多少类 , 全可以按照数据本身的规律来分类。 全可以按照数据本身的规律来分类。 本讲要介绍的分类的方法称为聚类分 析(cluster analysis)。对变量的聚 ) 类称为R型聚类 型聚类, 类称为 型聚类,而对观测值聚类称为 Q型聚类。它们在数学上是无区别的。 型聚类。 型聚类 它们在数学上是无区别的。
饮料数据(drink.txt ) 饮料数据(
16种饮料的热量、咖啡因、钠及价格四种变量 种饮料的热量、咖啡因、 种饮料的热量
如何度量距离远近? 如何度量距离远近?
如果想要对100个学生进行分类 , 个学生进行分类, 如果想要对 个学生进行分类 而仅知道他们的数学成绩, 而仅知道他们的数学成绩,则只好 按照数学成绩分类; 按照数学成绩分类;这些成绩在直 线上形成100个点 。 这样就可以把 个点。 线上形成 个点 接近的点放到一类。 接近的点放到一类。 如果还知道他们的物理成绩, 如果还知道他们的物理成绩,这样 数学和物理成绩就形成二维平面上 个点, 的 100个点 , 也可以按照距离远近 个点 来分类。 来分类。
10.06 28.64
其中, :人均粮食支出, :人均副食支出, :人均烟酒茶支出, 其中,X1:人均粮食支出,X2:人均副食支出,X3:人均烟酒茶支出,等。
计算两组间的欧式距离, 计算两组间的欧式距离,如:D12=D21=[(7.907.68)2+(39.77-50.37)2+‥‥ +(13.29-14.87)2] ‥‥+ ‥‥
1 xi ∈G p

i
p
i
p
2
x j ∈Gq

j
q
j
q
D1+ 2 =
xk ∈G p ∪Gq

( xk − x ) '( xk − x ) ⇒ D pq = D1+ 2 − D1 − D2
在用欧氏距离时, 在用欧氏距离时 有统一的递推公式
最短距离(Nearest Neighbor)
x11• x12•
0 11.67 0 D0 = 13.80 24.63 0 0 13.12 24.06 2.20 12.80 23.54 3.51 2.21 0
Lance和Williams给出 对欧氏距离 统一递推公式 和 给出(对欧氏距离 统一递推公式: 给出 对欧氏距离)统一递推公式
两个距离概念
由一个点组成的类是最基本的类; 由一个点组成的类是最基本的类 ; 如 果每一类都由一个点组成, 果每一类都由一个点组成 , 那么点间 的距离就是类间距离。 的距离就是类间距离 。 但是如果某一 类包含不止一个点, 类包含不止一个点 , 那么就要确定类 间距离, 间距离, 类间距离是基于点间距离定义的 是基于点间距离定义的: 类间距离 是基于点间距离定义的 : 比 两类之间最近点之间的距离可以作 如 两类之间最近点之间的距离 可以作 为这两类之间的距离, 也可以用两类 为这两类之间的距离 , 也可以用 两类 中最远点之间的距离或各类的中心之 中最远点之间的距离 或各类的中心之 间的距离来作为类间距离。 间的距离来作为类间距离。
如何度量距离远近? 如何度量距离远近?
三维或者更高维的情况也是类似; 三维或者更高维的情况也是类似; 只不过三维以上的图形无法直观地 画出来而已。 画出来而已。 在饮料数据中, 在饮料数据中,每种饮料都有四个 变量值。这就是四维空间点的问题 变量值。 了。
两个距离概念 按照远近程度来聚类需要明确两 个概念: 一个是点和点之间 点和点之间的距 个概念 : 一个是 点和点之间 的距 类和类之间的距离 一个是类和类之间的距离。 离,一个是类和类之间的距离。 点间距离有很多定义方式 有很多定义方式。 点间距离 有很多定义方式 。 最简 单的是欧氏距离。 单的是欧氏距离。 当然还有一些和距离相反但起同 样作用的概念, 比如相似性等, 样作用的概念 , 比如相似性等 , 两点相似度越大, 就相当于距离 两点相似度越大 , 越短。 越短。
Cxy (2) = rxy =
∑ ( x − x )( y − y )
( xi − x ) 2 ∑ ( yi − y ) 2 ∑
i i i i
相似系数1) 夹角余弦(相似系数 : 相似系数 cosine
Cxy (1) = cos θ xy =
∑x y
i i i
xi 2 ∑ yi 2 ∑
与类G 之间的距离D 类Gp与类 q之间的距离 pq (d(xi,xj)表示点 i∈ Gp和xj ∈ Gq之间的距离 表示点x 之间的距离) 表示点 最短距离法: 最长距离法: 最短距离法 最长距离法 D pq = min d ( xi , x j ) D pq = max d ( xi , x j ) 重心法: 重心法 类平均法: 类平均法 1 D pq = min d ( x p , xq ) D pq = ∑ x∑ d ( xi , x j ) n1n2 xi ∈G p j ∈Gq 离差平方和: 离差平方和 (Wald) D = ( x − x ) '( x − x ), D = ( x − x ) '( x − x ),
为研究辽宁、浙江、河南、甘肃、青海5省份 省份1991年城 例: 为研究辽宁、浙江、河南、甘肃、青海 省份 年城 镇居民生活消费的分布规律,需要利用调查资料对这5个省 镇居民生活消费的分布规律,需要利用调查资料对这 个省 分类。变量名称及原始数据如下表: 分类。变量名称及原始数据如下表:
变量 省份 辽宁 浙江 河南 甘肃 青海 X1 7.90 7.68 9.42 9.16 X2 39.77 50.37 27.93 27.98 X3 8.49 11.35 8.20 9.01 10.52 X4 12.94 13.30 8.24 9.32 10.05 X5 19.27 19.25 16.17 15.99 16.18 X6 11.05 14.59 9.42 9.10 8.39 X7 2.04 2.75 1.55 1.82 1.96 X8 13.29 14.87 9.76 11.35 10.81
两个距离概念
在计算时, 在计算时 , 各种点间距离和 类间距离的选择是通过统计 软件的选项实现的。 软件的选项实现的 。 不同的 选择它的结果会不同, 选择它的结果会不同 , 但一 般不会差太多。 般不会差太多。
向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数 之间的距离或相似系数: 向量 与 之间的距离或相似系数 欧氏距离: 欧氏距离 平方欧氏距离: 平方欧氏距离 ( xi − yi ) 2 ( xi − yi ) 2 ∑ Euclidean ∑ i Squared Euclidean i Chebychev: Maxi|xi-yi|
红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接和黄红首先连接。
有了上面的点间距离和类 间距离的概念, 间距离的概念,就可以介 绍聚类的方法了。 绍聚类的方法了。
K均值法和系统聚类法一样,都是以距离的远 近亲疏为标准进行聚类的,但是两者的不同 之处也是明显的:系统聚类对不同的类数产 生一系列的聚类结果,而K—均值法只能产生 指定类数的聚类结果。具体类数的确定,离 不开实践经验的积累;有时也可以借助系统 聚类法以一部分样品为对象进行聚类,其结 果作为K—均值法确定类数的参考。 下面通过一个具体问题说明K均值法的计算过 程。
相关文档
最新文档