块对角子空间聚类中成对约束的主动式学习
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第51卷第2期 V o l.51N o.2
山东大学学报(工学版)
J O U R N A L O F S H A N D O N G U N I V E R S I T Y(E N G I N E E R I N G S C I E N C E)
2021年4月
A p r.2021
文章编号:1672-3961 (2021)02-0065-09D O I: 10.6040/j.issn. 1672-3961.0.2020.182
块对角子空间聚类中成对约束的主动式学习
解子奇,王立宏*,李谩
(烟台大学计算机与控制工程学院,山东烟台264005)
摘要:针对块对角表示(b l o c k d i a g o n a l r e p r e s e n t a t i o n,B D R)子空间聚类算法在对子空间重叠的高维数据聚类时效果较差的问题,提出成对约束的块对角子空间聚类(c o n s t r a i n e d s u b s p a c e c lustering w i t h b l o c k d i a g o n a l r e p r e s e n t a t i o n,C B D R)算法,设计主 动式学习策略,获取用户提供的少量数据点成对信息,以改进B D R算法的性能,给出C B D R算法的目标函数和求解过程。
在 测试集上的试验结果表明,C B D R算法的聚类错误率和归一化互信息指标比B D R和S B D R(s t r u c t u r e d b l o c k d i a g o n a l r e p r e s e ntation) 算法好,而且主动式选取点对方法优于随机选取点对方法,使用少于的约束信息可降低B D R的聚类错误率达到5%以上。
关键词:子空间聚类;主动式学习;成对约束;块对角表示;约束聚类
中图分类号:T P181文献标志码:A
引用格式:解子奇,王立宏,李熳.块对角子空间聚类中成对约束的主动式学习[J].山东大学学报(工学版),2〇21,51(2):65-73.
X I E Ziqi, W A N G L i h o n g,L I M a n.Active learning o f pairwise constraints in block diagonal s u b space clustering[J]. Journal o f S h a n d o n g University (E n g i n e e r i n g Science) ,2021,51(2):65-73.
Active learning of pairwise constraints in block diagonal subspace clustering
XIE Ziqi, WANG Lihong* , LI Man
(S c h o o l o f C o m p u t e r a n d C o n t r o l E n g i n e e r i n g,Y a n t a i U n i v e r s i t y,Y a n t a i 264005,S h a n d o n g,C h i n a)
A b s t r a c t:F o c u s i n g o n th e p o o r p e r f o r m a n c e o f s u b s p a c e c l ustering b y b l o c k d i a g o n a l r e p r e s e n t a t i o n(
B D R)o n h i g h-d i m e n s i o n a l d a t a w i t h o v e r l a p p e d s u b s p a c e s,a n ac t i v e l e a r n i n g strategy w a s d e s i g n e d to o b t a i n partial p a i r w i s e i n f o r m a t i o n a m o n g a f e w d a t a points. A p a i r w i s e c o n s t r a i n e d b l o c k d i a g o n a l r e p r e s e n t a t i o n a l g o r i t h m(
C B
D R) w a s p r o p o s e d to i m p r o v e the p e r f o r m a n c e o f th e
B D R a l g o r i t h m.T h e o b j e c t i v e f u n c t i o n a n d solut i o n p r o c e s s o f th e
C B
D R w e r e g i v e n.T h e e x p e r i m e n t a l results o n the test datasets s h o w e d that th e C B D R a l g o r i t h m r e d u c e d t h e c l ustering e rror b y m o r e t h a n5%w i t h less t h a n5%〇 cons t r a i n t i n f o r m a t i o n in t e r m s o f c l ustering e rror a n d n o r m a l i z e d m u t u a l i n f o r m a t i o n,w h i c h significantly o u t p e r f o r m e d t h e c o m p a r e d a l g o r i t h m s,i.e., B D R,S B D R (s t r u c t u r e d b l o c k d i a g o n a l r e p r e s e n t a t i o n)w i t h r a n d o m selection o f p a i r w i s e constraints.
K e y w o r d s:s u b s p a c e c l ustering ;ac t i v e l e a r n i n g;p a i r w i s e constr a i n t s;b l o c k d i a g o n a l r e p r e s e n t a t i o n;c o n s t r a i n e d clustering
〇引言
聚类是一种基本的数据挖掘方法,通常应用于文本数据聚类、图像分割和人脸识别等实际问题中。
针 对高维文本和图像信息,子空间聚类能发现数据子集所在的低维子空间,从而去除无关信息对聚类结果的 干扰。
目前研究较多的子空间聚类算法有稀疏子空间聚类SSC算法m和低秩子空间聚类LRR算法[2],这 两个算法分别借助子空间的稀疏表示和低秩表示完成聚类。
近年来,块对角子空间聚类算法[34]因其较好 的聚类性能得到广泛关注,该类算法通过引人拉普拉斯秩约束来保持图的连通分支个数,得出的数据点相 似性矩阵呈块对角形式,容易获取子空间簇。
为了满足子空间保持表示[5],块对角算法(如BDR-Z[3])假定
收稿日期:2020-05-26;网络首发时间:2021-03-1615:09:24
网络首发地址:h t t p:///kcms/detail/37.1391.T.20210315.1719.006.h t m l
基金项目:国家自然科学基金资助项目(61773331,72072154)
第一作者简介:解子奇(1996—),男,山东济南人,硕士研究生,主要研究方向为聚类分析.E-m a U:x z z q l996@ s i n a.c o m
*通信作者简介:王立宏(1970—),女,吉林镇赉人,教授,博士,主要研究方向为数据挖掘与知识发现.E-m a i l:w a n g l h@y t u.e d u.c n
66山东大学学报(工学版)第51卷
数据点来自彼此独立的子空间,而这个要求在实际数据集上不容易满足,因此不能保证聚类结果和用户期 望的簇结构完全对应,导致在有些数据集上聚类错误率较高6
为了提高拉普拉斯秩约束的块对角聚类算法性能,现有的研究可以大体分为以下两个方面:(1)获取更 清晰的块对角结构。
例如,联合学习数据特征和相似性矩阵,自适应保持特征的局部信息,确保清晰的块对 角结构[7]。
还可以联合拉普拉斯正则项和自适应特征学习,获得具有块对角结构的拉普拉斯矩阵[8]。
也有 的研究通过改进目标函数,增加对噪声的描述及限制,得到去除噪声的聚类结果。
(2)获取更准确的块 对角结构。
此时大多需要增加一些辅助信息,例如,从多个层次找出数据点之间的成对约束关系,加入到目 标函数中[11]。
或者将相似性矩阵的划分结构作为约束项加入目标函数中,以得出较好结果[|2]。
为了降低 聚类错误率,还可以采用半监督的方法,通过增加一些数据点的标签信息113'15:或者成对约束信息[9'16]来指 导聚类。
利用标签信息的方法大多是将标签从少量有标签的数据点传播到无标签数据点。
或者将标签信 息加人目标函数中,要求相同标签的数据点必须有相同的表示,从而约束相似性矩阵[171。
成对约束信息包 括m u s t-l i n k和c a n n o t-l i n k约束,分别约定两个点必须在一个簇或者必须不在一个族。
针对复杂噪声设 计的鲁棒子空间聚类算法,利用成对约束信息作为先验知识来处理复杂噪声[9。
在SSC基础上设计基于熵 的主动式学习策略,获取具有最大信息量的成对约束信息来指导SSC聚类,也取得了很好的结果h6]。
研究 表明,附加一些成对约束信息可以改善聚类性能,但并不是所有的成对约束信息都是同等重要的,好的约束 能大幅提高聚类性能,而不好的约束不能提高甚至会降低聚类性能116。
因此,如何选出有价值的成对约束 是一个值得研究的问题。
本研究在块对角聚类算法BDR-Z基础上,从主动学习的角度出发,提出嵌人成对约束的块对角子空间 聚类算法,通过设计主动式学习策略获取少量数据点成对约束信息,以期提高算法的性能。
为了找出有价 值的成对约束,本研究对BDR-Z得出的相似性矩阵进行分析:相似性矩阵中的噪声可能预示着错误聚类的 情况,因此通过主动式提问,获取可疑点对的约束信息,加人到目标函数中,通过迭代更新相似性矩阵,提高 聚类性能。
在手写数字集MNIST和人脸数据集OR L上的结果也证实了本研究主动式学习策略的有效性。
1块对角子空间聚类
现有研究表明,高维数据通常含有冗余的特征信息和异常噪声,去除这些影响就会找出数据实际存在 的低维子空间。
子空间聚类是将高维数据划分到不同的簇,各簇对应数据的低维子空间结构。
根据数据的 自表示性质,每个数据点都可以由数据集中其他点的线性组合来表示,而如果数据是来自独立的子空间,则根据子空间保持性质,每个数据点可以由本子空间内的其他数据点线性组合表示[5]。
由此得出,如果数据X 来自独立的子空间,h及中的Z应具有块对角性质,其中;c2…;c…],Z_是系数矩阵,可用来 表示相似度。
但是子空间独立假设不成立的时候,Z的块对角性质被破坏,聚类效果变差:6:。
文献[3-4]直接将拉普拉斯秩约束写人目标函数,明确要求相似度矩阵具有块对角结构,从而反映出 输人数据集的&个类别。
对于任意相似度矩阵块对角正则项定义为的前A个最小特征值的和,即
n
II^IL =I a,(l b),
/=/(-^+l
式中:为B对应的拉普拉斯矩阵,LB =D i a g(B,)-f l,其中1是元素全为1的列向量,D i a g(Bl)表示以向 量x 1为对角线元素生成的对角矩阵,即的度数矩阵;人;是心的特征值,按降序排列。
由于矩阵的〇特征值个数等于B中块结构的数量1191,当|| B ||=0时,B具有A块对角结构[8]。
块对 角表示算法B D R的目标函数[M:为
m\n ^- \\ X - XZ \\2F+ ^\\ Z - B \\l + y \\ B \\k
Z.B2Z,
s.t.d i a g(B) = 0,B ^ 0,/i=BT
式中d i a g(B)表示B的对角线元素。
算法BDR-Z以W=( I Z I+ I Z TI )/2作为相似性矩阵进行谱聚类,给出 子空间聚类结果。
试验证明,当数据点来源于几个独自子空间时,BDR-Z得到的相似度矩阵具有块对角结 构,聚类效果较好[M]。
如果数据集的子空间不独立,BDR-Z的聚类错误率可能较高[6’12^
第2期解子奇,等:块对角子空间聚类中成对约束的主动式学习
67
图1 CBDR 及主动式学习流程框架
Fig. 1 The framework of CBDR and active learning
2.2成对约束的主动式学习策略
本研究利用相似度矩阵W 来设计主动式学习策略,将W 的行和列按照C B D R 聚类标签排序。
理想情 况下,排序后的W 具有块对角结构且每一块是来自相同子空间数据点的互表达系数。
统计W 各块内列向 量的范数,找出此簇最具代表性的数据点/>,,同时统计块外(簇外)列向量L ,范数最大值,找出疑似此簇 的漏分点形成点对进行提问并更新/3。
和广见图丨中的标记点。
设W ,是W 矩阵对角上的第1块,对应簇C ,内数据点为X ,,簇外数据点为,则
= a r g max Y I w ,
/t ?,
- a r g max V
I .
V _ V
I
1J )«A
从尽的定义中可以看出,如果用范数来表示点之间的联系紧密程度,则A 是和簇c ,内的点联系最 紧密的,因此可以将A 看作是簇C ,最具代表性的点。
相应的,P 2虽然在簇外,但也和簇C ,联系紧密,因此 可能是簇C ,聚类时漏掉的点。
询问这两个点之间的关系(是否属于同一簇),能提供有价值的约束信息。
当询问的结果是carniot-link时,下一次也可能还会找到这一对点。
为了防止程序反复提问同一对点,要求
(Pt ,P 2)竽 n 。
2成对约束的块对角子空间聚类算法
2.1算法思想
为了解决块对角子空间聚类存在的问题,本研究提出了成对约束的块对角聚类(c o n s t r a i n e d s u b s P a c e
c l u s t e r i n g w i t h b l o c k
d i a g o n a l r
e p r e s e n t a t i o n , CBDR )算法。
在块对角子空间聚类的基础上,依据获取的约束信息对矩阵Z 的局部结构增添点对约束,以提高聚类性能。
CBDR 算法目标函数如下:
miny || X-XZ || 2f +|- || Z-B || ^+r || B || , ⑴
s .t . d i a g (^)= 0
,B = B \Zn = Z °n
式中:约束是位置的集合,即/2£丨1,2,…,Mxj 1,2,…,丨。
通过Zn = Z [指定位置上Z 应该具有的取 值和相同,此处4(/,))=产’"(’")e/2。
I 0, e l s e
图1给出了 CBDR 算法及主动获取约束信息的直观描述如图1所示,其中(1)是主动式学习获取有价 值的点对,(2)是询问获取点对约束,更新/2。
CBDR 根据输入的原始数据和约束信息求出满足约束条件 的Z 。
这里的约束信息是通过2.2节主动式学习获取的点对信息,即m u s t -l i n k 或者c a n n o t -l i n k 。
如果点/和 1/之间是〇1咖-丨地,则相应的位置4(~’)取值设置为常数〜;如果是〇31111〇1-丨他,则«~_)设置为〇。
如果 已经获取了一些点对之间的约束关系,就可以把这些信息作为条件约束写人Z 的求解中,使Z 和这些约束 符合,从而利用这些先验信息引导出更准确的Z。
68山东大学学报(工学版)第51卷
对W的每个块都获取一对点后,更新约束信息/2,再次运行CBDR。
重复上述过程直到算法终止,本研 究的终止条件是到达指定迭代次数。
2.3C B D R求解过程
采用文献[3]的方法,将式(1)中的|| B |丨t改写为凸优化问题,
I I ^I I * =m m<LB,V)
s.t.0<V <1,t r(V)=k
式中:V为待求矩阵,符号〈•〉表示矩阵点乘运算,S为矩阵比较符号。
进而在给定时,式(1)可以改 写为
m m\\\X-X Z\\2F+^\\Z-B\\2F+y(Diag(B l) -B,V)
ZB Z Z o
s.t.d i a g(B) = 0,B ^0,B^B\Zn=Z°n
采用交替更新的方式A D M M:5]对式(2)中的V,Z,f l进行求解。
(1)固定B=片,Z= Z\更新V。
类似于文献[3],可得
VH'=UU T,(3)式中:1/e R"x t为D i a g(Bl)前个最小特征值对应的特征向量组成的矩阵。
(2)固定V=V',
Z= Z',更新B,可得[3]
B,+l= [(A+i T)/2] +,(4)
式中:A=Z-f(D i a g(V)1T-V) ,A=A-D i a g(d i a g(/1)),[A]+表示取矩阵 4 中正数。
(3)固定 V=V',B W,更新 Z。
采用增广拉格朗日方法AL M[M],将Z表示为和两部分,其中
令则
z…(U)={Z〇.
d,j)
e l s e
[°
[Zu
d j)
e l s e
f(Zn,Z n)=~ ||X-XZ ||1+^ ||Z-B ||2f+^ ||Zn-Z°n+^A I I 2f,
/(Zn,Z n) = y tr( (X-XZn-XZn) T( X-XZn-XZ n)) + |t r( (Zn-B n)r(Z n-B n)) +香tr( (Z『 B )+|t r((Z"-Z>士/l)),
对Zp求导得
令导数等于〇,推出
df(Zn,Zn)= -XJX+XT XZn+XT XZn+l3Zn-l3Bn+iJiZ n-ijiZ0n+A,
Zn=(XT X+(^)I)-'(-X T XZn+C),式中(7 =,尤+/31+#&-/1。
同理
Zn=(XJX+/3l)~\-XJXZn+D),
式中D M h+XTX。
将式(6)代人式(5)中,求得
Zn=Y'R,
式中 F=0A:t ATU t X+0/)_’+ (/3+M)/,/?= C-X U T X+/3/r'D。
(5)
(6)
(7)
式(7)代人式(6)得出Zr t,进而得出Z= Z…+Z…。
根据A L M原理,更新m和A,即可迭代求得Z,本研究迭代100次,详见算法1。
算法C B D R 的具体过
第2期解子奇,等:块对角子空间聚类中成对约束的主动式学习69
程见算法2描述,算法2中停止条件为max!||Z'+1-Z' || », ||B'+1-B' || »丨式中e=10_3[3]。
算法1 getZ
输入:尤e R"'/2,办
初始化:/L l>0, vl
W hile没有达到迭代次数do
计算公式(7)(6),求得和;
A^A+ix(Zn-Z0n);
End while
z=z rt+z flo
输出:Z e i r"
算法2 CBDR求解
输入,r>〇w>o
初始化:r=0,v'=o,z'=o,fl'=o, /2=U
(1) 计算公式(3),更新^+|;
(2) 计算公式(4),更新妒+1;
(3) 调用算法1,更新Z'+l;
(4) 如果满足条件算法停止,否则,?=/+1,转(1);
(5) 对 VV=(IZI+ IZTl)/2 进行谱聚类;
输出:X的聚类结果。
3试验结果与分析
3.1评价指标
用聚类错误率(clustering error,CE)和归一化互信息(normalized mutual information,NMI)来评估CBDR与其他算法的聚类结果。
聚类错误率
EC(P,Q) =\- —^8(/?,,m a p(^)),
n1=1
式中:P,.和I分别表示第<_个数据点的输出标签和数据点真实标签P =;y,5U,;y) = 1,否则,5U,;y) = 0; m apU,)函数将数据真实标签与算法输出标签p,.相匹配。
C E越低表明算法聚类性能越好。
第二种评价指标为归一化互信息,常用在聚类分析中度量两个聚类结果的相似性[6],归一化互信息
W<P,G)
K P,Q)
[S(P) +S(Q)]/2
式中:p和2分别为数据算法输出标签和数据真实标签;/(/%0)表示p和2的交互信息,/(Z5,2)=
R T P i p〇^7•)
X YJP{pi n其中为数据真实标签中的簇数,r为算法输出标签中的簇数,p(p,.),/ = l j = \ P i ) ^\)
尸(%)和/^(凡n i)分别表示数据点属于簇/m.和n%的可能性;s为熵,s(p)=
-i;P(A)igP(p,)。
n m i取值范围为[0,1],其值越高表明算法聚类性能越好。
/ = 1
3.2 试验数据集
BDR-Z算法在手写数字数据集M NIST和人脸数据集O R L上聚类错误率较高[M2],因此本研究选择这两个数据集对CBDR进行测试。
采用的对比算法是结构化块对角子空间聚类算法SBDR[12],为了保证对比公平,3种算法参数取值相同,即7 = 70和A = 0.1,另外SBDR中参数S取最优值1(T5[12]。
为了对比本研究的主动式学习算法,设计了随机获取点对的算法,在试验中分别以“随机”和“主动式”表示。
70
山东大学学报(工学版)
第51卷
(1) MNIST 数据集
MNIST 数据集包含0~9共丨0个数字的手写图像,其中有些数字比较相似,如7和9,3和8等,容易出
现聚类错误。
对于差别较大的数字,如2和9,BDR -Z 则不容易出错。
列举了数字2、3、7、8和9,如图2(a ) 所示。
本研究构造了 7个聚类错误率较高的数据集D , ~D 7,每个数据集随机为每个数字选取50张图片形 成样本数据集,具体数字组成情况见表1、2。
(a) MNIST
(b) ORL
图2 MNIST 数据集和O R L 数据集
Fig.2 The MNIST dataset and the ORLdataset
表1
CBDR 在MNIST 数据集的聚类错误率
Table 1Clustering error of CBDR on MNIST dataset
%
数据集数字组成
BDR-Z SBDR
CBDR( 12)
CBDR (24)随机
主动式
随机
主动式
D
'
7,934.5034.7533.1530.1531.7528.15d
2
3,816.8017.8014.1011.3013.9010.15〇,
2,7,925.8725.6324.7323.0924.4721.38D
,
3,5,836.5037.2735.8733.9735.9332.57D ,0,1,7,937.3836.8037.5836.6036.6036.05D ,
2,3,5,833.5832.3031.9530.7830.7528.850,3,6,7,8,9
33.92
34.07
34.67
31.75
34.43
30.47
注:CBDR( 12)表示CBDR 共询问了 12个点对的类标签是否相同;CBDR( 24)类似.
表2 CBDR 在MNIST 数据集的归一化互信息
Table 2 NMI of CBDR on MNIST dataset
%
数据集
数字组成
BDR-Z SBDR CBDR( 12)
CBDR (24)
o t l
主动式 i t a
主动式
A
7,9
10.9910.22d
2
3,837.5634.90A
2,7,952.3251.92d 4
3,5,824.7923.640,1,7,9
67.2767.57D ,
2,3,5,841.7143.360,3,6,7,8,9
58.38
58.46
14.6016.5015.6819.4641.5051.8645.5955.7552.6256.3254.6858.6625.5227.7626.7731.2666.0869.5867.5070.1942.5646.0044.4148.1458.63
60.13
58.52
61.55
(2)O R L 数据集
人脸数据集O R L 是40个人的4〇0张照片,每人10张,部分图片如图2(b )所示。
BDR -Z 算法在该 数据集上的聚类错误率也在20%以上6'12]。
为了测试算法对数据集的聚类情况,试验构造了 3个数据集 〇8~£>1q ,见表3、4。
试验中每个人都使用全部10张照片,D 8从40个人中随机抽取10个人,表3、4记录 了在数据集上运行20遍的平均错误率和平均归一化互信息。
Z >9类似/)8,而〇|(,是全体数据集,各算法只 运行一遍。
表3 CBDR 在O R L 数据集的聚类错误率
Table 3 Clustering error of CBDR on ORL dataset
%
CBDR(40) CBDR (80)数据集
人数
BDR-Z SBDR 随机
主动式
随机
主动式
D ,1010.5011.357.90 4.857.65 1.90D ,
2019.7515.95
18.9017.2820.5014.10
40
23.00
22.00
24.25
23.50
25.50
23.00
第2期 解子奇,等:块对角子空间聚类中成对约束的主动式学习 71
表4CBDR在O R L数据集的聚类归一化互信息
Table 4 NMI of CBDR on ORL dataset%
数据集人数BDR-Z
CBDR (40)CBDR(80)
随机主动式随机主动式
1092.2492.5192.7996.5594.0198.58 d92090.2491.1790.0691.9590.3693.75 ^104089.7289.4188.5791.1789.6191.37
3.3询问固定数量点对时的聚类性能
表1、2分别记录了算法BDR-Z、SBDR和CBDR在MNIST数据集D,~£»7上运行20遍的平均聚类错误 率C E与聚类NMI,最好结果已加粗表示。
为了公平对比,3个算法都是在相同的样本上进行的。
从表1、2 可以看出,在绝大部分情况下,随机和主动式策略配合C B D R的聚类性能要优于BDR-Z与SBDR,其中 CBDR在访问相同点对数量时主动式CBDR要优于随机式CBDR,说明本研究提出的主动式学习策略的有 效性。
当询问点对数量从12增加到24时,主动式策略和随机式策略的CBDR的C E和NMI都有不同程度 的改善,说明随着询问点对数量的增加,CBDR聚类性能得以提升。
以D,为例,D,包含100个图片,其可能 的成对约束数量为4950,这里24对点占的比例约为4.85%«,而〇£从13〇1^2的34.50%降低到28.15%,降 低幅度超过5%。
表3、4分别记录了算法BDR-Z、SBDR和CBDR在O R L数据集D8~ D,。
上运行20遍的C E与NMI。
从 表3、4可以看出,在数据集D8上主动式询问80对点的聚类性能明显优于4〇对点,随着询问点对数量 的增加CBDR聚类性能得以提升。
3.4增加迭代次数对性能的影响
图3记录了 CBDR在上20次迭代聚类错误率变化情况,其中迭代次数为0时对应的C E是 BDR-Z的结果。
如图3所示,随着迭代次数的增加,CBDR的C E虽然有些波动,但整体呈下降趋势,而且主 动式策略比随机策略聚类错误率低,说明主动式学习能找到更有价值的成对约束,可以引导算法找出更准 确的块对角结构。
无论是随机策略还是主动式学习策略,CBDR的C E都低于BDR-Z,说明CBDR在BDR-Z 的基础上加上少量的约束信息能提高聚类性能。
(c)D, (d)D4
图3数据集f l, ~ D4上CBDR迭代20次聚类错误率
Fig.3 Clustering error for 20 iterations of CBDR on datasets Z),〜
72
山东大学学报(工学版)
第51卷
3.5参数V 。
的影响
参数V 。
是用来限制约束点对之间紧密程度 的,为了研究参数对CBDR 聚类性能的影响,取
v ce [0.1,0.8],主动式策略配合CBDR 在数据集 A 上运行20遍取平均值,结果如图4所示。
从图
4中可以看出,当"。
£[〇.1,〇.6]时,0801^聚类性 能较好,当V 。
取值过大,CBDR 聚类表现较差。
为 了公平对比,在本文所有数据集A 的试验中
v 0 取 0.2。
3.6讨论
从以上试验可以看出,在测试数据集上,CBDR 的C E 与NMI 均比BDR -Z 和SBDR 有不同
程度的改善。
和本研究相关的研究都涉及到如何
获取更准确的块对角相似矩阵,但是采用的方法不同。
文献[6]在BDR -Z 目标函数中加入了对重建误差的 加权惩罚项以及对加权概率矩阵的约束,以处理各种原因引起的误差,不涉及到主动式学习。
文献[11]从 多个图像分块层次找出数据点之间的成对约束关系,加入到目标函数中一起进行优化,也不涉及主动式学 习。
文献[12]在BDR -Z 目标函数中直接加入对相似矩阵的预期结构约束,以实现相似矩阵更好的块对角 结构。
本研究提出的CBDR 也是对相似矩阵的结构约束,但是该结构是通过主动询问用户获取的成对约束 信息,而且随着询问次数增多,约束的结构范围不断增大。
文献[16]是对稀疏子空间聚类算法SSC 的改进, 设计基于熵的评价不确定方法,通过主动式学习,找出最不确定的点对,将m u s t _l i n k 和cannot_link相应的表 示矩阵直接加人到SSC 求出的相似性矩阵中,作为谱聚类的输人信息。
本研究的主动式学习策略是基于对
一
个确定点和一个不确定点之间关系的询问,并不是两个不确定的点,这是与文献[16]不同之处。
另外,
CBDR 对相似矩阵的更新方式更为简单,直接对相应位置设置常数v Q 或者0,起到标记的作用。
4结语
本研究提出的成对约束的块对角聚类算法是在BDR -Z 的基础上,利用相似度矩阵设计主动式学习策略
获取有价值点对,并依据获取的约束信息对矩阵Z 的局部结构增添点对约束,提高算法聚类性能。
在测试 数据集上的试验结果表明,C B D R 比BDR -Z 和SBDR 在聚类错误率和归一化互信息指标上均有不同程度的 改善:本研究的工作是为了获取更准确的块对角结构而主动获取约束信息,可以看作是对数据分块结构的 学习。
未来的工作将针对更广泛的结构学习算法进行研究,将类标签和成对约束的学习结合起来,分阶段 地完成块对角的学习和表示。
参考文献:
[1] ELHAMIFAR E ,VIDAL R. Sparse subspace clustering: algorithm, theory, and applications[J]. IEEE Transactions on Pattern
Analysis & Machine Intelligence, 2012, 35(11) :2765-2781.
[2] LIU G, LIN Z, YAN S, et al. Robust recovery of subspace structures by low-rank representation[ J ]. IEEE Transactions on
Pattern Analysis & Machine Intelligence, 2013, 35( 1 ): 171-184.
[3] LU C, FENG J, LIN Z, et al. Subspace clustering by block diagonal representation[ J ]. IEEE Transactions on Pattern Analysis
& Machine Intelligence, 2019, 41(2) :487-501.
「4] YANG Y, ZHANG X. Subspace clustering algorithm based on Laplacian rank constraint[C]//Proceedings of 2019 IEEE 3rd
Information Technology, Networking, Electronic and Automation Control Conference. Chengdu, China : IEEE, 2019: 1556-1559.
[5] VIDAL R, MA Y, SASTRY S. Generalized principal component analysis M ]. New York, USA : Springer, 2016.
[6] WANG L, HUANG J, YI M, et al. Block diagonal representation learning for robust subspace clustering[ J ]. Information Sci
ences, 2020, 526:54-67.
图4
不同参数v 。
下CBDR 的聚类错误率
Fig.4 The clustering error of CBDR with different
parameter
v0
第2期解子奇,等:块对角子空间聚类中成对约束的主动式学习73
[7] ZHANG Zhao, REN Jiahuan, LI Sheng, et al. Robust subspace discovery by block-diagonal adaptive locality-constrained rep-
resentation[C]//Proceedings of ACM International Conference on Multimedia (M M;19). Nice, France:ACM, 2019.
[8]郑建炜,李卓蓉,王万良,等.联合L apladan正则项和特征自适应的数据聚类算法[J] •软件学报,2019, 30(12):
3846-3861.
ZHENG Jianwei, LI Zhuorong, WANG Wanliang, et al. Clustering with joint Laplacian regularization and adaptive feature learning[J]. Journal of Software, 2019,30( 12) :3846-3861.
[9] HE R, ZHANG Y, SUN Z, et al. Robust subspace clustering with complex noise[ J]. IEEE Transactions on Image Processing,
2015, 24( 11) :4001-4013.
[10]鲁全茂.面向高维数据的聚类算法研究[D].北京:中国科学院大学,2018.
LU Quanmao. Research on clustering algorithms for high-dimensional data[D]. Beijing: University of Chinese Academy of Sciences, 2018.
[11] ABDOLALI M, RAHMATI M. Neither global nor local:a hierarchical robust subspace clustering for image d ata[J]. Infor
mation Sciences, 2020, 514:333-353.
[12] LIU Maoshan, WANG Yan, SUN Jun, et al. Structured block diagonal representation for subspace clusteringf J]. Applied In
telligence, 2020.
[13] ZHANG Zhao, ZHANG Yan, LIU Guangcan, et al. Joint label prediction based semi-supervised adaptive concept
factorization for robust data representation [ J ]. IEEE Transactions on Knowledge and Data Engineering, 2020, 32(5): 952-970.
[14] YIN M, XIE S, WU Z, et al. Subspace clustering via learning an adaptive low-rank graph[J]. IEEE Transactions on Image
Processing, 2018, 27(8) :3716-3728.
[15] WANG Weiwei, YANG Chunyu, CHEN Huazhu, et al. Unified discriminative and coherent semi-supervised subspace cluste-
ring[J]. IEEE Transactions on Image Processing, 2018, 27(5) :2461-2470.
[16] LIU Y, LIU K, ZHANG C, et al. Entropy-based active sparse subspace clustering[ J]. Multimedia Tools and Applications,
2018, 77:22281-22297.
[17] WANG J, WANG X, TIAN F, et al. Constrained low-rank representation for robust subspace clustering[ J]. IEEE Transac
tions on Cybernetics, 2017, 47(12) :4534-4546.
[18] WAGSTAFF K, CARDIE C, ROGERS S, et al. Constrained k-means clustering with background knowledge[C]//Proceed
ings of the Eighteenth International Conference on Machine Learning. MA, USA:Morgan Kaufmann Publishers Inc, 2001 :577-584.
[19] LUXBURG U V. A tutorial on spectral clustering[ J]. Statistics & Computing, 2007, 17(4) :395-416.
[20] NIE F, WANG H, CAI X, et al. Robust matrix completion via joint schatten p-norm and lp-norm minimization[ C]//P ro
ceedings of IEEE International Conference on Data Mining Series. Brussels, Belgium:IEEE, 2012:566-574.
(编辑:陈燕)
(上接第64页)
[21 ] WANG Dingding, LI Tao, ZHU Shenghuo, et al. Multi
document summarization via sentence-level semantic analysis and symmetric matrix factorization [ C ]//Pro
ceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval.
New York, USA:ACM Press, 2008:307-314.
[22] LANCICHINETTI A, FORTUNATO S, RADICCHI F.
Benchmark graphs for testing community detection algo
rithms [J ]. Physical Review E Statistical Nonlinear and Soft Matter Physics, 2008, 78(4) :046110.
[23] NEWMAN M E J. Modularity andcommunity structure in
networks [ J ]. Proceedings of the National Academy of
Sciences of the United States of America, 2006, 103
(23) :8577-8582.
[24] FORTUNATO S, BARTHELEMY M. Resolution limit
in community detection [ J ]. Proceedings of the National
Academy of Sciences of the United States of America,
2007, 104(1) :36-41.
[25] DANON L, DIAZ-GUILERA A, DUCH J, et al. Com
paring community structure identification [ J ]. Journal of
Statistical Mechanics :Theory and Experiment, 2005
(9) :P09008.
(编辑:陈燕)。