快速聚类法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(a)空间的群点
(b) 任取两个聚点
1、随机选取两个点
x (1) 1
和
x (1) 2
作为聚点,图(b)
2、对任何点 xk ,分别计算d
xk
,
x (1) 1
和d
xk
,
x(1) 2
.
3、若
d
(
xk
,
x(1) 1
)
d
( xk
,
x2(1)()b则) 将
xk
划为第一类,
否则划给第二类。于是得图(c)的两个类
(iii) 一般设已选 l 个, 则第l 1个由以下式子确
定
min{d ( xil+1 , xir ), r 1 ~ l} max{min[d ( x j , xir ), r 1 ~ l], j i1 ~ il} 直到 k 个.
4)按密度大小选代表点:
以每个样本作为球心,以d为半径做球形;落在球 内的样本数称为该点的密度,并按密度大小排序。
.
(c) 第一次分类
(d) 求各类中心
4.分别计算两个类的重心,则得
x(2) 1
和
x(2) 2
,以其
为新的聚点,图(d),
5.对空间中的点进行重新分类,得到新分类, 图(e).
(e) 第二次分类
1. 快速聚类法的步骤 (1) 选择聚点
1)经验选择k 个样品作为聚点;
2) 人为选择k 个样品作为聚点;
当m增大,分类趋于稳定时x,i(m+1)与xi(m)趋于相等。
实际计算,当m步与m+1步分类结果完全相同时, 聚类过程结束。
2. 用 Lm 距离进行快速聚类
Lm 距离即明氏距离(Minkowski)
1
d
(
xi
,
x
j
)
p
xik
x jk
m
m
k1
对 L1 ,也称绝对距离
(1) 记 d ( xi , x j )
5) 用前k个样本点作为代表点
(2) 此后过程(假设采用欧氏距离)
1)
设初始聚点集 L(0)
{
x(0) 1
,
x2(0
)
,
初始分类(i 1 ~ k )(最近者)
, xk(0)}
G(0) i
{x
|
d ( x,
xi(0) )
d ( x,
x
(0) j
),
j
1~
k,
j
i}
G (0)
{G1(
0)
(2)中心向量=均值向量.
对一维数据,宜用 L1 ; 此外用 Lm1 .结果与 m 有关
例 6.3 利用表 6.1 的 13 个国家可持续发展综合国
力的数据进行分类(4 类), (1) 用 L1 ; (2) 用L1.5 .
§6.3快速聚类法(动态聚类法)
基本思想是,样本容量较大时,选择一批凝聚点 或给出一个初始的分类,让样品按某种原则向凝聚点 凝聚,对凝聚点进行不断的修改或迭代,直至分类比 较合理或迭代稳定为止。
类的个数k可以事先指定,也可以在聚类过程中 确定。选择初始凝聚点(或给出初始分类)的一种简 单方法是采用随机抽选(或随机分割)样品的方法。
(2) 对一般 Lm1 ,记 d ( xi , x j ) xi x j m
当 p 1 维 x1, x2, , xn , 称
n
| x j c |m min c 为 m 中心
j 1
当 p 维 x1, x2, , xn , 称
c (c1, c2 , , cp )T 为 m 中心向量
,
G(0) 2
,
,
G(0) k
}
2) 计算新聚点
重新分类:
x (1) i
1 ni
xi ,
xiGi( 0 )
i 1~ k
.
G (1) i
{x
|
d ( x,
x (1) i
)
d ( x,
x
(1) j
),
j
1~
k,
j
i}
得到新分类集
G (1)
{G1(1)
,
G(1) 2
,
,
G(1) k
3) 最小最大原则 (i) 先选 2 个, d ( xi1 , xi2 ) max{dij} (ii) 再选第 3 个 xi3 , 满足
max{min(d ( x j , xi1 ), d ( x j , xi2 ), j i1,i2} min{d ( xi3 , xi1 ), d ( xi3 , xi2 )}
动态聚类法有许多种方法,本节中,只讨论一种 比较流行的动态聚类法——k均值法。k均值法是由麦 奎因(MacQueen,1967)提出并命名的一种算法。
Yes
选 择
分
凝
聚
点
类
分
类
分
是
类
否
结
合
Байду номын сангаас
束
理
修
改
分
类
No
用一个简单的例子来说明动态聚类法的工 作过程。例如我们要把图中的点分成两类。快 速聚类的步骤:
首先选密度最大的作为第一个代表点,即第 一个聚类中心,
再考虑第二大密度点,若第二大密度点距第 一代表点的距离大于d1(人为规定的正数)则把 第二大密度点作为第二代表点,否则不能作为代 表点。
这样按密度大小考察下去,所选代表点间的 距离都大于d1。
d1太小,代表点太多,d1太大,代表点太少, 一般选d1=2d。对代表点内的密度一般要求 大于T。T>0为规定的一个正数。
}
3) 设在第 m 步已得 G(m) {G1(m) ,G2(m) , ,Gk(m)}
类重心点集 L(m+1)
{x1(m1) ,
x (m1) 2
,
, xk(m1)}
xi(m)是类G(i m-1)的重心,xi(m)不一定是样品。 xi(m+1)是类G(i m)的重心,xi(m+1)也不一定是样品
其中分量 cnj , j 1 ~ p 均为 x jk 的 m 中心, 满足
从而
n
| x jk M k
xj 1 j
M
m m
|m
n
min, p | x jk
k 1~ M k |m
p
min
j 1
j1 k 1
结论: (1)中心向量=中位向量(有较强的稳健性)
M (M1, M 2 , , M p )T (称为中位向量)
其中分量 Mi ,i 1 ~ p 均为中位数.
n
使得 | x jk M k | min, k 1 ~ p
j 1
n
np
从而
xj M 1
| x jk M k | min
j 1
j1 k 1
xik x jk
xi
xj
。
1
1k p
(1)对 L1 ,记 d ( xi , x j )
xik x jk
xi
xj
。
1
1k p
当维数 p 1 , x1, x2, , xn , 有(证略)
n
| xj
j 1
c|
min
c
M
med
1 jn
x
j
。
当 p 维, x1, x2, , xn , 也有