谱聚类详细、入门级介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Spectral Clustering 谱聚类
举例
拉普拉斯矩阵L
1 1 2 3 4 5 6 2 3 4 5 6
G1 1
0.8 0.1 0.6 0.8 0.8 0.2
G2 5
0.8 0.7
1.5
-0.8 -0.6 0.0
-0.8
1.6 -0.8 0.0
-0.6
-0.8 1.6 -0.2
0.0
0.0 -0.2 1.7
5
0.0
0.0 0.0 0.0 1.7 0.0
6
0. 0
0.0 0.0 0.0 0.0 1.5
0.0
0.8 0.6 0.0 0.1 0.0
1.5
0.0 0.0 0.0 0.0 0.0
Spectral Clustering 谱聚类
举例
邻接矩阵W
1 1 2 3 4 5 6 0.0 0.8 0.6 0.0 0.1 0.0 2 0.8 0.0 0.8 0.0 0.0 0.0 3 0.6 0.8 0.0 0.2 0.0 0.0 4 0.0 0.0 0.2 0.0 0.8 0.7 5 0.1 0.0 0.0 0.8 0.0 0.8 6 0. 0 0.0 0.0 0.7 0.8 0.0 1 2 3 4 5 6
-0.368
0.612 -0.652 0.087
Spectral Clustering 谱聚类
Minimum Cut方法
0.7
2
0. 6
0.2
5
0. 8 0.2 0. 8 0.7
7
0.6
1
0.3
4
6
3
Minimum Cut划分不均衡
Spectral Clustering 谱聚类
Ratio Cut 方法
Minimum Cut方法
min(qT Lq) s.t. qT q nc2
瑞利商:
qT Lq R( L, q) T q q
性质:R( L, q) 的最小值,次小值……最大值分别在q为L的最小特征值, 次小特征值……最大特征值对应的特征向量时取得 求L次小特征值所对应的特征向量
G G
1 1 Rcut(G1 , G2 ) Cut(G1 , G2 ) n n 2 1
n1 、n2 划分到子图1和子图2的顶点个数
1 1 (n1 n2 ) Rcut(G1 , G2 ) wij w ij n n n n iG1 , jG2 1 2 iG1 , jG2 1 2
(n1 n2 ) w ij n1n2 n iG1 , jG2
2
2 n2 n 1 2 wij n1n2 n n1n2 n iG1 , jG2
2
n1 n2 wij n1n iG1 , jG2 n2 n
G2
5
0.8
3
4
0.7
6
Spectral Clustering 谱聚类
损失函数
划分时子图之间被“截断”的边的权重和
Cut(G1 , G2 )
iG1 , jG2
w
ij
G1 1
0.8 0.1 0.8 0.2
G2 5
0.8
2
0.8
0.6
3
4
0.7
6
Spectral Clustering 谱聚类
2 2 i 1 j 1
n
n
n
2wij qi q j wij (qi q j )
2 2 i 1 j 1 n n i 1 j 1 n
n
n
n
2wij qi q j 2qi
i 1 j 1 i 1
2
w
j 1ห้องสมุดไป่ตู้
n
ij
2qT ( D W )q
顶点数
权重和
1、同子图内所有点相似度高 2、不同子图的点相似度低
2 w ( q q ) ij i j i 1 j 1
损失函数
Cut(G1, G 2)
iG1 , jG2
w
ij
2(c1 c2 ) 2
Spectral Clustering 谱聚类
Laplacian矩阵
w (q q )
i 1 j 1 ij i j
n
n
2
wij (qi 2qi q j q j )
min(q Lq) s.t. qT q 1
瑞利商
T
qT Lq R( L, q) T q q
Spectral Clustering 谱聚类
Normalized Cut 方法
1 1 Ncut(G1 , G2 ) Cut(G1 , G2 ) d d 2 1
d1、d 2 子图1和子图2的权重和
2
Spectral Clustering 谱聚类
Ratio Cut 方法
n1 n2 Rcut(G1, G2 ) wij n1n iG1 , jG2 n2 n
n1 n2 n qi n2 n1n
n
2
令
i G1 i G2
0. 0 0.0 0.0 -0.7 -0.8 1.5
Spectral Clustering 谱聚类
Minimum Cut方法
c qi c i G1 i G2
T
q 求:min(
T
Lq)
2
2 q q q nc 条件: i i 1
n
Spectral Clustering 谱聚类
其中D为对角矩阵
Dii wij
j 1
n
Spectral Clustering 谱聚类
Laplacian矩阵
w (q q )
i 1 j 1 ij i j
n
n
2
2qT ( D W )q
再定义一个 L 矩阵
L D W
L 称为拉普拉斯矩阵,W 为权重矩阵(也称邻接矩阵),D 为度矩阵
Normalized Cut 方法
广义瑞利商
qT Lq R( L, q) T q Dq
Lq Dq
为L的广义特征值
1 2
Lq D D q
D LD
1 2 1 2
1 2
DD D
1
1 2
1 2
D q D2q
1 2
1 2
D D
1 2
1 2
1 2
I
L D LD
1 2
拉普拉斯矩阵L=D-W
1 1 2 3 4 5 6 2 3 4 5 6
1.5 -0.8 -0.6 0.0 -0.1 0.0
-0.8 1.6 -0.8 0.0 0.0 0.0
-0.6 -0.8 1.6 -0.2 0.0 0.0
0.0 0.0 -0.2 1.7 -0.8 -0.7
-0.1 0.0 0.0 -0.8 1.7 -0.8
1
0.8 0.1 0.8 0.2
5
0.8
2
0.8
0.6
3
4
0.7
6
Spectral Clustering 谱聚类
图的划分
图划分是指将图完全划分为若干个子图,各子图无交集
G1 ... Gk G
划分要求
Gi G j
同子图内的点相似度高 不同子图的点相似度低
0.8
G1
1 2
0.8 0.6 0.1 0.8 0.2
Spectral Clustering 谱聚类
概念
谱聚类:是一种基于图论的聚类方法,通过对样本数据的拉普拉 斯矩阵的特征向量进行聚类。 图(Graph):由若干点及连接两点的线所构成的图形,通常用来 描述某些事物之间的某种关系,用点代表事物,线表示对应两个事物 间具有这种关系。
1
0.8
0.1
0.8 0.2
T i 1 n 2
w
j 1
n
ij
qi
iG1
2
w q w
2 j 1 ij iG2 i j 1
n
n
ij
d2 d1 d1 d2 1 d1d d2d
min(qT Lq) s.t. qT Dq 1
广义瑞利商
qT Lq R( L, q) T q Dq
Spectral Clustering 谱聚类
度矩阵D
1 1.5 0.0 0.0 0.0 0.0 0.0 2 0.0 1.6 0.0 0.0 0.0 0.0 3 0.0 0.0 1.6 0.0 0.0 0.0 4 0.0 0.0 0.0 1.7 0.0 0.0 5 0.0 0.0 0.0 0.0 1.7 0.0 6 0. 0 0.0 0.0 0.0 0.0 1.5
q D q
L 规范拉普拉斯矩阵,对角元素全为1
Spectral Clustering 谱聚类
Ncut与Ratio cut区别
Ratio cut
1 1 Cut (G1 , G2 ) n n 2 1
Ncut
1 1 Cut(G1 , G2 ) d d 2 1
-0.1
0.0 0.0 -0.8
0. 0
0.0 0.0 -0.7
2
3
4
6
-0.1
0.0
1 0.408 0.408
0.0
0.0
2
0.0
0.0
-0.8
-0.7
3 -0.647 0.014
1.7
-0.8
4 -0.306 0.305
-0.8
1.5
5 -0.379 0.706 6 0.106 0.215
-0.408 -0.442
损失函数
Cut(G1, G 2)
iG1 , jG2
w
ij
w (q q )
i 1 j 1 ij i j
n
n
2
2(c1 c2 ) 2
qT Lq Cut(G1 , G2 ) (c1 c2 ) 2
Spectral Clustering 谱聚类
qT Lq Cut(G1 , G2 ) (c1 c2 ) 2
Rcut(G1 , G2 )
iG1 , jG2
w q
ij
i
q j q T Lq
2
2 2 q q qi qi qi n1
T
2
i 1
iG1
iG2
n2 n n2 1 1 n1n n2 n
Spectral Clustering 谱聚类
Ratio Cut 方法
-0.408 -0.442
次小特征值的特征向量
-0.371 0.371 0.405 0.445
0.408
0.408 0.408 0.408
-0.371
0.371 0.405 0.445
0.638
0.339 -0.167 -0.178
0.045
-0.455 -0.305 0.716
-0.388
-0.001 0.351 -0.289
4
0.0
0.0 0.2 0.0 0.8 0.7
5
0.1
0.0 0.0 0.8 0.0 0.8
6
0. 0
0.0 0.0 0.7 0.8 0.0
1
1
2 3 4 5 6
2
0.0
1.6 0.0 0.0 0.0 0.0
3
0.0
0.0 1.6 0.0 0.0 0.0
4
0.0
0.0 0.0 1.7 0.0 0.0
w (q q )
i 1 j 1 ij i j
n
n
2
2qT Lq
Spectral Clustering 谱聚类
Laplacian矩阵
1 n n q Lq wij (qi q j ) 2 0 2 i 1 j 1
T
L为半正定矩阵(即所有特征值非负值),最小特征值为0, 且对应的特征向量为单位向量 1 1 ... 1T
Laplacian矩阵
假设 G(V,E)被划分成 G1 , G2 两个子图(设G有n个顶点) 定义 q [q1 , q2 ,...,qn ] 是一个n维向量,用来表示划分方案
c qi 1 c2 i G1 i G2
n n
q [c1 , c1 , c1 , c2 , c2 , c2 ]
T 条件 图的划分问题转化为 q Lq 条件最小值问题
Spectral Clustering 谱聚类
举例
1
0.8 0.6 0.8 0.8 0.1
5
2
0.2
0.8
3
4
0.7
6
邻接矩阵W
1
1
2 3 4 5 6
度矩阵D
3
0.6
0.8 0.0 0.2 0.0 0.0
2
0.8
0.0 0.8 0.0 0.0 0.0
令
d1 d2d qi d 2 d1d i G1 i G2
Ncut (G1 , G2 )
iG1 , jG2
wij qi q j qT Lq
2
Spectral Clustering 谱聚类
Normalized Cut 方法
q Dq qi
5
0.8
2
0.8
0.6
3
4
0.7
6
Spectral Clustering 谱聚类
图的表示
G (V , E ) 表示无向图, V {v1 , v2 ,...,vn } 表示点集,E表示边集
wij 表示vi 与 v j 之间的关系,称作权重,对于无向图
w ij w ji 而且 wii 0 wij 0