基于最短路径相似度的复杂网社团识别算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于最短路径相似度的复杂网社团识别算法
姚斌;赵玲艳;卢鹏丽;张生龙
【摘要】基于最短路径的思想,定义新的节点相似度,利用谱平分算法来识别复杂网络的社团结构.首先根据节点间最短路径的思想计算改进的共享最近邻(SNN)相似度,将其标准化后求出标准化矩阵的特征值及特征向量,然后根据网络选取一定数目的第一非平凡特征向量作为聚类样本,利用FCM算法可识别网络的社团.实验结果表明,该算法对于社团结构不明显的网络划分效果很好.
【期刊名称】《兰州理工大学学报》
【年(卷),期】2016(042)002
【总页数】6页(P107-112)
【关键词】SNN相似度;最短路径;谱平分算法;FCM算法;社团结构
【作者】姚斌;赵玲艳;卢鹏丽;张生龙
【作者单位】兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050;兰州理工大学计算机与通信学院,甘肃兰州730050
【正文语种】中文
【中图分类】TP391
自然界中存在大量的复杂系统,如生态系统、网络系统、通信系统和经济系统等.这些复杂系统往往是由多个交互的单元组成,这些单元之间存在一定的联系,为了解复杂系统的功能和行为,通常借助网络形式进行研究.复杂系统中的单元对应为
网络中的点,单元之间的联系则对应为网络的边,当网络节点数目很大,网络中的边连接复杂时,这样的网络被称作“复杂网络”.例如,社会学系统用网络进行描
述时,是将社会中的人看作节点,而人与人之间的联系则看作网络的边.随着对复
杂网络研究的深入,人们发现复杂网络具有很多结构特征,而社团结构是其最重要的结构特征之一,即网络中的节点自然分组,节点与自身所在组内的节点连接较多,与其他组的节点连接稀疏[1].复杂网络的社团不仅能够帮助理解大规模网络的拓扑
结构,还能反映其对应的现实复杂系统中各个单元、模块的功能,为现实世界中复杂系统的复杂性研究提供十分重要的帮助.因此,复杂网络的社团结构识别成为研
究的热点之一.
目前为止,学者们已提出较多社团结构识别的算法,并将其应用到现实世界中.较
为经典的算法有Kernighan-Lin算法[2]、GN算法[3]、谱平分法[4-7]和基于中心度发现算法[8]等,每个算法都试图找到网络最合理的划分.但是,怎样才能知道哪
种算法划分的社团是合理的?为了解决这个问题,2004年,Newman提出模块
度Q的定义[9].模块度Q的值是指网络中社团内部的边数与社团间边数的差值.通
过Q值的大小可以衡量网络的划分质量,Q值越大,说明划分结果越好.随后,Clauset等人提出局部模块度Q来描述局部社团划分的优劣[10],该方法的优点是计算量比较小.然而,现实世界中很多网络的社团并不是绝对独立的,社团与社团
之间相互关联且存在重叠的部分.在这样的网络中,社团结构不是十分明显,已有
的很多算法无法得到比较好的划分效果.
文献[11]提出一种基于谱平分法改进的社团结构识别算法,该算法将节点之间的权重作为衡量节点间关系的因子,算法在效率上有所改进,但是算法的识别效果并不理想.文献[12]提出一种基于相似度的加权复杂网络社区发现方法,该算法是针对
加权复杂网络的社区,定义权重关系的相似度和归属度,将相似度代替边介数来改进GN算法,该算法在速度和精度上均有所改善.
本文将谱平分与相似度思想结合,提出基于最短路径相似度的社团识别算法.首先,根据网络中节点最短路径的思想,提出改进的SNN相似度矩阵.然后,结合谱平分方法,选取一定数目的特征值并作为聚类样本,接着利用FCM算法进而提出新的社团识别算法.最后将算法应用到人工网络和四个现实世界网络中进行测试,结果
表明本文算法在社团结构不明显的网络中也能得到较好的识别结果.
1.1 相关定义
假设G=(V,E)表示一个无向简单图,即没有环路且图中任意两个点之间都不存在重边.其中,V={1,2,3,…,n}表示G中节点的集合; }是G中边的集合,且
|V|=n,|E|=m.A是图G的邻接矩阵,该矩阵是一个n×n的方阵,其元素Aij定义
如下:
假设ki为节点i的度,则有,若定义矩阵K为对角矩阵,则其对角元素为
K=diag(k1,k2,…,kn).
1.2 谱平分法
对于无向简单图G=(V,E),若节点个数为n,则图G的Laplacian矩阵是一个
n×n的对称矩阵L,其定义为L=K-A,且其元素Lij可以表示如下:
由定义可知,Laplacian矩阵L是实对称矩阵,其特征值都为实数且总有一个特征值是0,同时特征值0对应的特征向量为l=(1, 1, …, 1).假设矩阵L的特征值为
μ1≥μ2≥…≥μn=0,可以说有m-1个特征值是无限接近特征值0的,其中m表
示社团的数目,而其他特征值都远大于0.通过理论知识可以计算得到矩阵L的特
征值μn-1对应的特征向量,然后观察该特征向量可以发现,属于同一个社团内的节点,其对应在特征向量内的元素近似相等[13-15].因此,通过特征值μn-1可以
将网络平分成两个社团,这也是谱平分方法的理论基础.
若将一个网络划分成两个社团,通过计算第一非平凡特征向量就可以实现.然而,
现实世界中的网络较为复杂,往往不止两个社团,仅计算第一非平凡特征向量不能
满足要求.因此,如果要将网络划分成m个社团,可以选取无限接近0的m-1个
特征值对应的特征向量来实现对网络的社团结构进行识别.
1.3 模块度函数Q
为了衡量复杂网络中社团结构划分的结果,2004年,Newman提出模块度函数
Q的概念[16].模块度函数Q可以衡量网络的一个给定划分的质量,根据模块度函
数Q值的大小还可以自动选择网络的一个最优社团数目.
假设P是简单图G的一个划分,即P=G1(V1,E1),…,Gc(Vc,Ec),其
中:Vi(i∈{1,2,…,c})是子图Gi的节点集合,Ei是子图Gi的边的集合.模块度函数
Q(P)可定义如下[14]:
其中m.模块度函数Q值在0.3~0.7之间,并且Q值越接近0.7,说明算法划分
出的社团越好.
2.1 最短路径相似度矩阵
共享最近邻(shared nearest neighbor,SNN)相似度常用于多维数据集的聚类.在
网络中,一个社团内的节点比不同社团内的节点具有较高的相似度.
假设无向简单网络G=(V,E),A表示网络的邻接矩阵,则Ni={j|Aij=1}表示节点i
的邻居集合,其中若i、j两节点有边相连时Aij=1,否则Aij=0.对于任意一个网络,用S表示网络的SNN相似度矩阵,且其元素Sij定义为
即节点i和节点j共享近邻的个数.
例如,图1中节点1的邻居集合为N1={2, 3, 5, 6, 7, 13},节点2的邻居集合为
N2={1, 4, 5, 6, 8, 10, 11, 12, 13, 14},则集合N1和N2的共同节点为5,6和13,所以,S12=S21=3.
由上面的例子可知,对于节点的度不同时,节点的相似度的值只与两个节点的邻居有关,也就是说SNN相似度忽略了其他节点对相似度值的影响.为了弥补SNN相似度的不足,现提出基于最短路径的相似度矩阵SPS,其元素SPSij定义如下:
其中:ki和kj分别表示节点i和节点j的度,α、β及λ分别表示邻居节点间最短
路径对节点i、j相似度的影响因子,可针对不同社团的边的稠密程度对其值进行
调节.
通过分析,节点i和j的邻居节点集Ni和Nj间的最短路径长度只有如下四种情况:1) 最短路径长度为0,即共享近邻个数,用m0表示.如图1中对于节点1和节点
2来说,N1和N2间最短路径长度为0,即共享近邻节点分别为{5,6,13},则
m0=3.
2) 最短路径长度为1,即表示节点i和节点j的邻居节点中有边直接相连的边的个数,用m1表示.如图1中对于节点1和节点2来说,N1和N2间最短路径长为1,即节点对为{1-2, 1-3, 1-5, 1-6, 1-7, 1-13, 4-2, 4-3, 5-2, 6-2, 8-2, 10-2, 11-2,
12-2, 13-2, 14-2},则m1=16.
3) 最短路径长度为2,即表示节点i和节点j的邻居节点中无边直接相连,但是可通过i或者j其中一个点相连(即两点的最短路径必须经过i或者j)的边的个数,用
m2表示.如图1中对于节点1和节点2来说,N1和N2间最短路径长为2,即节点对为{4-5, 4-6, 4-13, 5-3, 5-6, 5-7, 5-13, 6-3, 6-7, 6-13, 8-5, 8-6, 8-13, 10-5, 10-6, 10-13, 11-5, 11-6, 11-13, 12-5, 12-6, 12-13, 13-3, 13-7, 14-5, 14-6,
14-13},则m2=27.
4) 最短路径长度为3,即表示节点i和节点j的邻居节点必须通过i和j两个点才
能相连(即两点的最短路径必须经过i和j)的边的个数,用m3表示.如图1中对于
节点1和节点2来说,N1和N2间最短路径长为3,即节点对为{4-7, 8-3, 8-7, 10-7, 10-3, 11-7, 11-3, 12-7, 12-3, 14-7, 14-3},则m3=11.
显然,如果节点i,j的度值不相同,那么他们对于相似度矩阵SPS的影响程度应
该是不同的,即SPSij≠SPSji,节点间连接越紧密,节点的相似度值应该越大.而在图1中,节点1和2的度分别为k1=6,k2=10,当时,有
SPS12=SPS21=0.184 375.容易看出SPS12对节点1的影响程度要大于对节点2的影响程度,而相似度矩阵SPS是对称的,不能反映这一特征.
为了能够反映度不同的节点对相似度的值的影响程度不同,现将相似度矩阵SPS 转化为非对称矩阵SPS′,具体构造方法如下:
其中:ki为节点i的度,SPS′反映的是网络中的任一节点与其他节点联系的紧密程度.
为了得到一个标准矩阵,特将SPS′进行标准化,然后可以得到转换后的标准矩阵SPS″,具体转化公式为
其中K′是一个对角矩阵,其对角线上的元素.通过理论知识可以得到,矩阵SPS″的最大特征值总是1,并且将特征值1对应的特征向量称为平凡特征向量.
2.2 算法思想
假设一个无向简单网络G=(V,E),网络的节点个数为n,社团个数为m,且其邻接矩阵用A表示.要将整个网络划分成各个社团,一般按照下面的方法进行:首先,计算网络的最短路径相似度矩阵SPS.然后,将SPS矩阵转化为非对称矩阵SPS′,同时对其进行标准化,进而转变为SPS″矩阵.根据图论知识可知,矩阵SPS″的最大特征值总是1,故要将网络划分成m个社团,必须选取矩阵SPS″的m-1个无限接近1的特征值作为样本.最后观察该m-1个特征值对应的特征向量,通过同一社团内节点在特征向量中元素近似相等,可进行网络社团的识别.
详细的算法过程可描述如下:
输入:网络G=(V,E),V表示网络中的节点集合,E表示网络的边的集合;m表示网络的社团数目.
输出:该网络G的一个较优的社团划分G1,G2,…,Gm;
1) 计算网络的矩阵:邻接矩阵A和最短路径相似度矩阵SPS和矩阵SPS′.
2) 对矩阵行标准化:将矩阵SPS′进行标准化得到矩阵SPS″,然后计算该矩阵的特
征值以及对应的特征向量.
3) 将得到的SPS″矩阵的特征值按降序进行排序,如
1=μ1≥μ2≥μ3≥…≥μm≥…≥μn,同时计算每个特征值对应的特征向量.
4) 取出无限接近1的m-1个特征值,即μ2,μ3,…,μm,找到m-1个特征值对应的特征向量,并将其作为聚类样本.最后,利用FCM算法就可以进行网络的社团识别. 将本文算法应用到人工网络和四个现实世界网络中,然后选取不同数目的特征值来计算模块度,通过比较来验证算法的有效性.算法是在MATLAB7.8.0环境下实现,使用NETDRAW软件进行结果实现.
3.1 人工网络
该算法选用的人工网络包含19个节点,37条边,网络中的节点分别属于三个不
同的社团,网络如图2所示.将本文算法应用到人工网络中,选取两个特征值,并
将其对应的特征向量作为聚类样本,实验结果与实际的人工网络的社团结构一致. 3.2 《红楼梦》家族关系网络
《红楼梦》家族关系网络是根据小说《红楼梦》中的四大家族主要人物而生成的网络,如图3所示.该网络是以家族成员为背景形成的,网络包含67名成员,其中,网络中的节点代表小说中的人物,节点之间的连线表示小说中的人物具有亲属关系(这里只考虑诸如父母、兄弟姐妹、夫妻等主要亲属关系).
将本文算法应用到《红楼梦》家族关系网络,这里,设置.算法将网络划分成六个
社团,分别为宁国府、王府、史府、薛府和荣国府分成的两个子社团(以贾琏为中
心的子社团和剩下的点构成另外子社团),如图4所示,分别用不同的形状进行表示.
3.3 海豚社会网络
海豚社会网络是Lusseau研究生活在新西兰一个岛上的62只海豚,通过观察他们之间的联系情况,而得到的一个社会网络[17].该网络由62个节点和159条边组
成,网络中的节点表示实际生活中的海豚,而网络的边则表示海豚之间的联系.在
观察期间,随着一只关键海豚的离开,该海豚社会网络被分成两个社团.图5则是
将算法应用到该网络的划分结果,网络被划分成四个社团,这里取.
文献[18]的算法是将网络划分成两个社团,本文算法首先也是将网络划分成左右两个社团,这两个社团与文献[18]中的划分社团结果是一致的,并且本文算法在此基础上又将左右两个社团分别进一步划分为更小的社团,这在一定程度上预示着将来的演变结果,其中,各个社团分别用不同的形状进行标记.
最后选取不同数目的特征向量作为聚类样本,计算算法的模块度函数Q值,并比
较其值的变化,如表1所示.
3.4 名词和形容词网络
名词和形容词网络是由查尔斯·狄更斯小说《大卫·科波菲尔》英语文本语料库中112个错位的单词组成[19].这112个单词是由小说中60个经常发生的名词和60
个形容词构成,有8个单词不与任何其他单词相邻,故从网络中除去.网络中每个
节点代表一个单词,节点之间的连边代表在小说中两个单词一起出现过,如图6
所示.在英文小说中,通常情况下名词是在形容词之后出现的,但是也有形容词之
后还是形容词的(比如图6中三角形节点之间的连边),或者名词的后面还是名词(比如图6中正方形节点之间的连边).
将本文算法应用到名词形容词网络中,参数值分别设定为,网络被划分成两个社团,即形容词和名词两个社团.但是有的单词既是形容词又是名词,因此正方形节点所
在的社团中存在三角形节点,三角形节点所在的社团中也存在正方形节点,如图7所示(三角形节点代表形容词,方形节点代表名词).
本文算法的划分结果与文献[19]中Newman划分的网络结果基本一致,但是本文算法根据交叉节点实际的连边数,将交叉节点进一步明确社团,较文献[19]划分要更加精确一些.
3.5 美国政治书籍网络
美国政治书籍网络是由V. Krebs完成的,该网络表示的是在亚马逊书城上美国政
治性书籍的销售情况[20].网络中的节点代表书城里的书,网络的连边代表两本书
曾被同一买家购买过.当参数值取时,本文算法将网络分成三个社团,如图8所示,社团分别用不同形状的节点表示.
算法首先将网络划分成两个社团,即图8中左右两个大社团,两个社团分别代表
美国左翼与右翼党派观点.但是根据亚马逊书城销售数据显示,左边社团中圆形节
点所代表的书籍并不满足方形节点所代表的书籍理念.因此,左边社团进而分成了
两个小社团,整个网络就被划分成三个社团.
文献[20]中算法将网络分成四个社团,通过比较划分后的模块度函数值,可知本算法是较优的,计算结果如表2所示.
传统的谱平分方法一次仅能够将网络划分成两个社团,如果想得到更多的社团,就需要重复使用谱平分法对网络进行划分.本文提出了一种对社团结构不是很明显的
网络进行社团识别的算法.首先根据最短路径的思想,提出最短路径相似度矩阵,
然后,将相似度矩阵与传统的谱平分法方法相结合,同时选取一定数量的相似度矩阵特征值作为聚类样本,仅使用一次FCM算法即可得到网络的社团结构,实验结果表明本文的算法是可行的.
【相关文献】
[1] 朱庆生,蒋天弘,周明强.基于自然最近邻居的社团检测算法[J].计算机应用研
究,2014,31(12):3560-3563.
[2] KERNIGHAN B W,LIN S.An efficient heuristic procedure for partitioning graphs [J].Bell System Technical Journal,1970,49(2):291-307.
[3] 徐杨,蒙祖强.基于GN算法的微博社区识别方法 [J].广西大学学报:自然科学
版,2013,38(6):7445-7451.
[4] 张燕平,王杨,赵姝.应用Normal矩阵谱平分法的多社团发现 [J].计算机工程与应
用,2010,46(27):43-45.
[5] FORTUNATO S,CASTELLANO munity detection in graphs [J].Physics Reports,2010,486(3/4/5):75-174.
[6] WHITE S,SMYTH P.A spectral clustering approach to finding communities in graphs
[C]//Proceeding of the 2005 SIAM International Conference on Data Mining.Newport Beach:[s.n.],2005.
[7] WU Chenchen,DU Donglei,XU Dachuan.An improved semidefinite programming hierarchies rounding approximation algorithm for maximum graph bisection problems [J].Journal of Combinatorial Optimization,2013,29(1):53-56.
[8] 卢鹏丽,贾春旭.基于中心度发现的中心社团 [J].兰州理工大学学报,2012,38(6):82-87.
[9] NEWMAN M E J.Detecting community structure in networks [J].Eur Phys J
B,2004,38(2):321-330.
[10] CLAUSE A.Finding local community structure in networks [J].Phys Rev
E,2005,72(2):026132.
[11] XIE Fuding,JI Min,ZHANG Yong.The detection of community structure in network via an improved spectral method [J].Physica A,2009,338(20):3268-3272.
[12] 王坤,吕光宏,梁召伟.基于相似度的加权复杂网络社区发现方法 [J].四川大学学报:自然科学版,2014,51(6):1170-1176.
[13] CUI Shuyu,TIAN Guixian.The spectrum and the signless laplacian spectrum of coronae [J].Linear Algebra and Its Applications,2012,437(7):1692-1703.
[14] DAS K C,GUTMAN I,CEVIK A S.On the Laplacian-energy-like invariant [J].Linear Algebra and Its Applications,2014,442(2):58-68.
[15] HIGHAM D J,KALNAA G,MILLA K.Spectral clustering and its use in bioinformatics [J].Journal of Computational and Applied Mathematics,2007,204(1):25-27.
[16] NEWMAN M E J,GIRVAN M.Finding and evaluating community structure in networks [J].Phys Rev E,2006,69(2):1-22.
[17] LUSSEAU D,SCHNEIDER K,BOISSEAU O J,et al.The bottlenose dolphin community of doubtful sound features a 1arge proportion of long lasting associations [J].Behavioral Ecology and Sociobiology,2003,54(4):396-405.
[18] 王学凯,马英红.一种基于聚集系数的复杂网络社团划分算法 [J].网络安全技术与应
用,2012(9):53-56.
[19] NEWMAN M E J.Finding community structure in networks using the eigenvectors of matrices [J].Phys Rev E,2006,74(3):036104.
[20] NEWMAN M E J.Modularity and community structure in networks [J].Proceedings of the National Academy of Sciences of the United States of America,2006,103(23):8577-8582.。

相关文档
最新文档