聚类分析 第三讲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d 1 r
2 ij
2 ij
用一个简单的例子来说明动态聚类法的工作过
程。例如我们要把图中的点分成两类。快速聚类的
步骤:
(1) 1、随机选取两个点 x1(1) 和 x2 作为凝聚点。
2、对于任何点 x,分别计算 d ( x , x )和d ( x , x )
(1) (1)
k
k
1
k
2
(1) (1) d ( x , x ) d ( x , x 3、若 k 1 k 2 ) ,则将xk 划为第一类,否
则划给第二类。于是得图(b)的两个类。 4、分别计算两个类的重心,则得 x 和 x ,以其
(2) (2) 1 2
为新的凝聚点,对空间中的点进行重新分类,得到
新分类。
有序样品聚类法
有序样品聚类法—最优分割法
按一定的要求排成序的样品,称为有序样品;
如,从1949年到2009年,我国的国内生产总值可以划分
0.005 ( 4)
5个样品分三类的最小目标函数
e P (5,3) min e P ( j 1,2) D ( j ,5)
3 j 5
min e P ( 2,2) D (3,5), e P (3,2) D ( 4,5) e P ( 4,2) D (5,5)
D (1,3) D ( 4,5), D (1,4) D (5,5)
.........
计算最小目标函数 e〔P(i, k)〕
将i个样品,(i=4, 5,…, n),分成k类(k=3)的 最优分割的目标函数
e P (i ,3)
e min 3 j i
P ( j 1, 2) D ( j , i )
几个概念
均值 类Gij是由{xi,xi+1,…,xj},i<j,组成,则 该类均值定义为:
j 1 xij xl j i 1 l i
直径 类Gij的直径定义为:
D (i, j ) ( xl xij ) '( xl xij )
l i
j
它实际上是j-i+1个样品的离差平方和。
第六章
聚类分析
用一个简单的例子来说明动态聚类法的工作过
程。例如我们要把图中的点分成两类。快速聚类的
步骤:
(1) 1、随机选取两个点 x1(1) 和 x2 作为凝聚点。
2、对于任何点 x,分别计算 d ( x , x )和d ( x , x )
(1) (1)
k
k
1
k
2
(1) (1) d ( x , x ) d ( x , x 3、若 k 1 k 2 ) ,则将xk 划为第一类,否
0.005 ( 2)
4个样品分两类的最小目标函数
e P ( 4,2)
2 j 4
min D (1, j 1) D ( j ,4)
2 j 4
ห้องสมุดไป่ตู้
min D (1,1) D ( 2,4), D (1,2) D (3,4), D (1,3) D ( 4,4) min 0 0.02,28.1 0.02,37.0 0
j 2 .005(2) .020(2) .088(2) .232(2) .280(2) .417(2) .469(2) .802(2) .909(2) 3 4 5
i
3 4 5 6 7 8 9 10 11
.005(4) .020(5) .040(5) .040(5) .280(8) .285(8) .367(8) .368(8)
45.9 .088 .080 .020 49.1 .232 .200 .080 .020 51.1 .280 .232 .088 .020 .005 51.5 .417 .393 .308 .290 .287 .180
9
10
51.9 .469 .454 .393 .388 .370 .207 .005
n 个样品分成 k 类的分法
P ( n , k ) : x i1 , x i1 1 ,..., x i2 1 ,
x i2 , x i2 1 ,..., x i3 1 ,
.........
x ik , x ik 1 ,..., x ik 1 1 ,
n个样品分成 k类的分法(简写)
为几个阶段。阶段的划分必须以年份为依据,即按照时 间顺序将国内生产总值接近的年份划分到一个段内 如,研究儿童生长发育规律,可以根据一些反映生长发 育特征的指标,将儿童生长发育分为几个不同阶段
在分类时,要求样品的次序不能打乱,因而这种分 类也称为分割法。
最优分割的涵义
将n个有序样品分成 k 类,共有n-1个间隔,相
目标函数
n个样品分成k类的目标函数:
e P ( n, k )
D (i j , i j 1 1)
j 1
k
最优分割的思想:当n与k固定时,目标函数 越小表示各类的离差平方和越小,这时分类 是合理的。
最小目标函数递推公式
e P ( n, 2)
2min jn
,n
求最优分割的步骤
1、计算各种分类的直径D(i, j);
2、计算最小目标函数 e〔P(i, k)〕,将计算所得目 标函数列成矩阵;
3、根据最优目标函数矩阵逐步将n个样品分成k类。
儿童体重问题
年龄
增重
1
2
3
4
1.7
5
6
7
1.4
8
9
10
2.3
11
2.1
9.3 1.8 1.9
1.5 1.3
2.0 1.9
6
7
8
9
10
根据最优目标函数矩阵逐步将n个样品 分成k类
首先找 jk,使:
e P ( n, k ) min e P ( j 1, k 1) D ( j , n )
k jn
达到最小, 则第k类
G k j k , j k 1,..., n
然后再找 jk-1,使它满足:
52.0 .802 .800 .774 .773 .708 .420 .087 .080
11
52.2 .909 .909 .895 .889 .793 .452 .088 .080 .020
计算最小目标函数 e〔P(i, k)〕
将i个样品,(i=3,4,…,n),分成k类(k=2)的最 优分割的目标函数
.005(5) .020(6) .025(6) .040(8) .045(8) .127(8) .128(8)
.005(6) .010(6) .025(8) .030(8) .045(10) .065(10)
最小目标函数e〔P(i,j)〕
j
i 7 8 9 10 11 .005(6) .010(8) .005(8) .015(8) .010(8) .005(8) .030(10) .015(10) .010(10) .005(10) .045(11) .030(11) .015(11) .010(11) .005(11)
e P (i , 2)
min 2 j i
D (1, j 1) D ( j , i )
3个样品分两类的最小目标函数
e P (3,2)
2 j 3
min D (1, j 1) D ( j ,3)
2 j 3
min D (1,1) D ( 2,3), D (1,2) D (3,3) min 0 0.005,28.1 0
k jn
D (1, j 1) D ( j , n )
e P ( n, k ) min e P ( j 1, k 1) D ( j , n )
要将 n 个样品分成 k 类的最优分割,应建立在将
j 1 个样品分成 k 1类的最优分割基础上
j k , k 1,
则划给第二类。于是得图(b)的两个类。 4、分别计算两个类的重心,则得 x 和 x ,以其
(2) (2) 1 2
为新的凝聚点,对空间中的点进行重新分类,得到
新分类。
§6.4 系统聚类法的性质及类的确定
系统聚类法的简单性质 单调性
中间距离法、重心法不具有单调性
空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很 大。最短距离法与重心法比较浓缩;可变类平 均比较扩张;最短距离法比最长距离法浓缩或 最长距离法比最短距离法扩张;类平均法比较 适中。
P ( n , k ) : i1 , i1 1,..., i 2 1 ,
i 2 , i 2 1,..., i3 1 ,
..........
i k , i k 1,..., i k 1 1 ,
其中分点为1 i1< i 2<...< i k < i k 1 1 n
0.02 ( 2)
5个样品分两类的最小目标函数
e P (5,2)
2 j 5
min D (1, j 1) D ( j ,5)
2 j 5
min D (1,1) D ( 2,5), D (1,2) D (3,5),
min 0 0.088,28.1 0.08, 37.0 0.02,42.2 0 0.088 ( 2)
当于在n-1个间隔上插上 k -1根“棍子”,故 n 1 有 种可能
k 1
最优分割:使各段内样品间的差异最小,各段
间样品的差异最大的一种“棍子”的插法
Fisher算法介绍
基本思想: 开始时,将所有的样品分为一类,然后分 为两类、三类等,直到分成n类。每次分类要 求分类所产生的离差平方和增加量达到最小。
weight
age
求最优分割的步骤
求直径矩阵D(i, j) (1)直径矩阵D(i, j) 可以利用EXCEL的函数: DEVSQ(偏差平方和)
直径矩阵D(i, j)= D( j, i)
j i 1 2 3 4 5 6 7 8 9 10
2
3
28.1
37.0 .005
4
5 6 7 8
42.2 .020 .020
0.04 (5)
.........
将 i 个样品,分成 k 类的最优分割的目标函数
e P (i, k ) min e P ( j 1, k 1) D ( j , i )
k j i
列成最小目标函数 e〔P(i, j)〕矩阵
最小目标函数 e〔P(i, j)〕
min 0 0.088,0.005 0.02,0.02 0
0.02 (5)
6个样品分三类的最小目标函数
e P (6,3) min e P ( j 1,2) D ( j ,6)
3 j 6
min e P ( 2,2) D (3,6), e P (3,2) D ( 4,6) e P ( 4,2) D (5,6), e P (5,2) D (6,6) min 0 0.2,0.005 0.08, 0.02 0.02,0.088 0
4个样品分三类的最小目标函数
e P ( 4,3)
3 j 4
min e P ( j 1,2) D ( j ,4)
min e P ( 2,2) D (3,4), e P (3,2) D ( 4,4) min 0 0.02,0.005 0
6、按聚类的过程画聚类谱系图
并 类 距 离 ⑨
d 4,5 2 d1, 2 3.6 d 3, 6 6 d 7 ,8 9.43
⑧ ⑦ ⑥
4
5
3
1
2
7、决定类的个数与类。
观察此图,我们可以把5个样品分为3类,
1,2 、 3 、4,5 。
类个数的确定
1. 由适当的阈值确定
2. 根据数据点的散布图直观的确定类的个数 3. 根据统计量确定分类的个数 4. 根据谱系图确定分类个数的准则
准则A 各类重心之间的距离必须很大; 准则B 确定的类中,各类所包含的元素都不要太多; 准则C 类的个数必须符合实用目的; 准则D 若采用几种不同的聚类方法处理,则在各自的聚类图中应发现相同 的类.
有关问题
几种聚类方法获得的结果不一定相同
指标聚类采用相似系数,相似系数大或距 离小则表示类间关系密切,为了统一,可 采用以下公式变换。