Chap5-3 聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X
X
X
X
X
X
中心点距离:两簇的中心点的距离
X X
武汉大学 李英冰
6
簇的中心、半径和直径
中心 半径 直径
Cm
iN 1(t
N
ip
)
N (t cm ) 2 Rm i 1 ip N
N N (t t ) 2 Dm i 1 i 1 ip iq N ( N 1)
1-d Gaussian
武汉大学 李英冰
概率层次聚类的簇合并:合并C1和C2使总 体聚类质量提高,但合并C3和C4不能
18
层次聚类的拓展
凝聚层次聚类的主要弱点

不能撤销先前步骤所做的工作 可伸缩性不好: 时间复杂度至少为 O(n2 )
层次&距离的结合

BIRCH (1996):使用聚类特征树的多阶段聚类 CHAMELEON (1999): hierarchical clustering using dynamic modeling
武汉大学 李英冰
8
2.1 K-均值(K-Means )算法
基本步骤:
1.
2. 3. 4. 5.
取得k个初始初始中心点
把每个点划分进相应的簇 重新计算中心点 迭代计算中心点 收敛
武汉大学 李英冰
9
K-Means 算法示例
K=2 任意划分对 象为k 组 更新簇的 形心
初始数集

Loop if needed
上确界距离(Lmax norm, L norm)
d (i, j ) lim h f 1
p
p xif x jf max j
1 h h
x x
if
jf
武汉大学 李英冰
…5…
距离度量
单链接:两簇元素间的最小距离 全链接:两簇元素间的最大距离 平均距离:两簇元素间的平均距离
武汉大学 李英冰
30
OPTICS需要两个信息
核心距离:使得p的 ε’-领域内至少有MinPts 对象 可达距离: 使p从密度q可达的最小半径
p
p
q
MinPts = 5;Eps = 1 cm
武汉大学 李英冰
密度可达
核心点、边界点、噪音点
核心点:在半径Eps 内含有超过MinPts数目的点 边界点:在半径Eps 内含有小于MinPts,但是在核心点的
邻居
噪音点:任何不是核心点或者边界点的点
Border
Noise
Core
Eps = 1cm
Partition the Graph
Merge Partition
Final Clusters
武汉大学 李英冰
…24…
4. 基于密度的聚类方法
划分和层次方法旨在发现球状簇,但很难发现任意形状的

基于密度的方法可以把簇看做数据空间中被稀疏区域分开

的稠密区域,可以发现任意形状的聚类,代表性的方法有:
…13…
2.2 K-中心点(K-Medoids )算法
如何修改K-均值算法,降低它对离群点的敏感性?
k中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平
均值最近的对象作为簇中心
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
factors?
Selected k
Meassures ①度量距离的手段
① k值的选定
武汉大学 李英冰
11
K-Means应用:图像分类
053-周垠驰-基于K均值聚类法的城市土地划分
武汉大学 李英冰
…12…
K-Means应用:对地理坐标进行聚类
对俄勒冈州波特兰市夜生活娱乐地点的聚类结果
武汉大学 李英冰
计算代替对 象的总代价
9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
武汉大学 李英冰
15
3. 层次方法
层次聚类方法将数据对象组成一棵聚类树。
C1
C1p1 C1 p1 C2 C1 p2
C2
C2 p3
C3
C4
C5
C3 C4 p4 p5
...
C5
C3 C3
C4 C4
武汉大学 李英冰
…28…
DBSCAN的优缺点
优点:相对抗噪音,能发现任意形状的簇 缺点: 当密度变化太大、或高维时,会有麻烦
武汉大学 李英冰
29
4.2 OPTICS: 通过点排序识别聚类结构
DBSCAN的参数设置依靠经验,参数的细微差别可能导致
差别很大的聚类结果
OPTICS不显示的产生数据集聚类,而是输出簇排序
武汉大学 李英冰
19
3.1 BIRCH算法
BIRCH采用多阶段聚类技术:扫描产生一个基本的聚类,
额外扫描进一步改进聚类质量
BIRCH主要步骤:
1. 2.
扫描数据库,建立一棵存放于内存的CF树 采用任意的聚类算法对CF-tree 页节点进行聚类
两个概念

聚类特征(CF)
聚类特征树(CF tree)
DBSCAN: Ester, et al. (KDD’96)
OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg & D. Keim (KDD’98)

CLIQUE: Agrawal, et al. (SIGMOD’98) (more grid-based)
i 1
Leabharlann Baidui
CF = (5, (16,30),(54,190))
(3,4) (2,6) (4,5) (4,7) (3,8)
武汉大学 李英冰
21
聚类特征树(CF tree)
CF tree 是一棵高度平衡的树


非叶节点都有后代或子女
CF tree 两个参数:分支因子,阀值
武汉大学 李英冰
22
3.2 变色龙(CHAMELEON)算法
用动态建模确定簇之间的相似度 如果两个簇的互联性很高且又靠得很近,就将其合并 相对互连度(RI) EC (C , C )
RI (Ci , C j )
i j
相对近似度(RC)
RC (Ci , C j ) Ci Ci C j
EC (Ci ) EC (C j
MinPts = 5
武汉大学 李英冰
…27…
DBSCAN算法原理
通过检查数据集中每点的Eps领域来搜索簇,如果点p的
Eps领域包含的多于MinPts个,则创建一个以p为核心对象 的簇 象,这个过程可能涉及一些密度可达簇的合并
然后,DBSCAN迭代地聚集从这些核心对象直接可达的对 当没有新的点添加的任何簇时,该过程结束。
C2 p2 C3
p3 C3 C4
C4 p4 C5 p5
. . .
C1 C1
C5 Proximity
Matrix Proximity Matrix
Proximity Matrix
C2 C2
C5 C5
p1
p2
p3
p4
... ...
p4
p1
p2
p3
...
p9
p10
p9
p11 p12 p10 p11
p12
p1
更新簇的 形心


Until no change
武汉大学 李英冰
10
K-Means 算法注释
算法的复杂度为O(tkn),
注释: 经常终止于局部最优
Input & centroids MaxIterations & Convergence
①数据的采集和抽象 ②初始的中心选择
①最大迭代次数 ②收敛值
重新分 配对象
Partition objects into k nonempty subsets Repeat


Compute centroid (i.e., mean point) for each partition Assign each object to the cluster of its nearest centroid
武汉大学 李英冰
25
4.1 DBSCAN
DBSCAN: 一种基于高密度连通区域的基于密度的聚类 基于密度的簇: 密度相连点的最大数据集 两个相关参数:

Eps: 邻域的最大半径 MinPts: 指定稠密区域的密度阀值
密度可达 VS 密度相连性
p q q p1 o 密度相连性
26
2 SEC (Ci , C j )
SEC (Ci )
Cj Ci C j
SEC (C j )
武汉大学 李英冰
…23…
变色龙算法的聚类步骤

构造成一个K-最近邻图Gk
将图Gk 划分成大量的子图
用层次聚类算法合并子簇 找到真正的结果簇
Construct (K-NN)
Data Set
Sparse Graph

x x
ip
h jp
欧氏距离(L2 norm)
d (i, j )
xi1 x j1 xi2 x j2 xip x jp
2 2
2
曼哈顿距离(city block, L1 norm)
d (i, j) | x x | | x x | ... | x x | i1 j1 i2 j 2 ip jp
p2
p3
p4
p9
p10
p11
p12
武汉大学 李英冰
16
层次方法的分类
根据层次分解是自底向上(合并)还是自顶向下(分裂),
进一步分为凝聚的和分裂的。
Step 0 a Step 1 Step 2 Step 3 Step 4 凝聚的层次聚类 (AGNES)
ab abcde
b
c d e Step 4
武汉大学 李英冰
cde
de 分裂的层次聚类 (DIANA)
17
Step 3
Step 2 Step 1 Step 0
概率层次聚类
使用概率模型度量簇之间的距离

把待聚类的数据对象看做要分析的基础数 据生成机制的一个样本,或生成模型
2-d Gaussian
实践中,可以该数据的生成模型采用常见的分
布函数( 如高斯分布,或伯努利分布)它们 由参数确定
武汉大学 李英冰
7
2. 划分方法
将包含n个对象的数据集 D 分配到k 个簇,所有对象Ci 和
形心之间的误差平方和最小
E ik1 pCi (d ( p, ci ))2
给定 k,划分k簇的优化算法:


K-均值(k-Means): 一种基于形心的技术
K-中心点(k-Medoids or PAM) :一种基于代表对象 的技术
武汉大学 李英冰
…20…
聚类特征(CF)
聚类特征(CF):CF = (N, LS, SS)


N是簇的数据点
LS是线性和 SS平方和
N
i 1
Xi
2
N
叠加性: CF1+CF2=(N1+N2, LS1+LS2, SS1+SS2)
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
A K Q J
A K
Q
J
3
聚类分析的基本思想
n个样品的p个指标
样品号 x1 x2 … xp

品 聚 类 (Q)
1 2 3 …
变量(指标)聚类(R)
相似系数最大的原则
n
距离最近的原则
武汉大学 李英冰
4
距离计算
闵可夫斯基距离
d (i, j )
h
xi1 x j1
h

xi 2 x j 2
h
Not Taking obstacles into account
Taking obstacles into account
5.3 聚类分析
Cluster analysis
武汉大学测绘学院 李英冰
YB Li, SGG, Wuhan University
目录
1. 基本概念 2. 划分方法( K-均值, K-中心点) 3. 层次方法 (BIRCH,CHAMELEON ) 4. 基于密度的方法 5. 基于格网的方法 6. 高级聚类分析 7. 聚类评估
武汉大学 李英冰
14
K-Medoids 步骤
Total Cost = 20
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8
10 9 8
任意选取 k 个对象 作为中心 点
7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
分配每个 剩余的对 象到最近 的中心点
7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
K=2
Total Cost = 26
随机选择一个非代表对象 Oramdom
10
Do loop Until no change
10 9
如果质量改 善,交换 O 和 Oramdom
8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
武汉大学 李英冰
2
1. 基本概念
簇: 一个数据对象集合。簇中对象彼此相似; 与其他簇不相

聚类分析:将对象分为相对同质群组的统计分析技术 分类与聚类的区别


分类:用已知类别的样本训练集来设计分类器
聚类:事先不知样本类别,利用样本先验知识来构造分类器
A K Q J
武汉大学 李英冰
A K Q J
相关文档
最新文档