基于连边相似度的重叠社区发现算法研究施伟
基于代数连通性的复杂网络社区发现模型研究

基于代数连通性的复杂网络社区发现模型研究随着社交媒体和互联网的普及,人们越来越依赖于网络来进行社会交往和信息交换。
因此,对于复杂网络的研究和理解变得尤为重要。
其中一个重要的研究方向是社区发现模型,即在网络中识别出具有相似属性的节点集群。
这对于了解网络的结构和功能,以及预测节点行为和信息传播具有重要意义。
在这篇文章中,我们将介绍基于代数连通性的复杂网络社区发现模型研究。
社区发现的方法可以分为两类:基于密度的方法和基于代数的方法。
基于密度的方法类似于聚类算法,主要通过测量节点或边之间的距离和相似性来划分社区。
而基于代数的方法则是利用图的代数性质,如矩阵特征向量和特征值等来进行社区分析。
基于代数的方法中,代数连通性是一种重要的概念。
代数连通性是指网络中两个节点之间的路径上的那些节点可以被表示为一个矩阵的乘积,即这些节点是代数上连通的。
根据代数连通性的定义,可以将网络表达成一个矩阵,称为拉普拉斯矩阵。
该矩阵可以用来描述网络的代数结构,以及节点之间的关系。
基于代数连通性的社区发现模型中,最常用的方法是谱聚类。
该算法利用拉普拉斯矩阵的特征向量来将网络划分成不同的社区。
具体来说,谱聚类首先通过拉普拉斯矩阵的特征向量进行降维操作,然后将节点分配到聚类中心。
在分配节点时,谱聚类依据节点之间的相似性度量来实现。
然而,谱聚类方法也有其局限性。
首先,谱聚类对于大规模的网络来说计算效率较低,因为需要计算拉普拉斯矩阵的所有特征向量。
其次,谱聚类索要目前的大多数网络,社区结构较为稀疏或复杂。
因此,如何将谱聚类方法与其他新的算法相结合,以解决这些限制性问题是当前工作的重点。
目前,研究人员正在探索更加高效和精确的方法来进行复杂网络的社区发现。
例如,利用核矩阵方法来降低计算复杂度;利用传统的聚类算法,如K-means以及基于密度的算法,来辅助谱聚类;以及设计深度学习算法,来挖掘网络中潜在的与社区相关的特征。
在社区发现研究领域,基于代数连通性的方法是非常有前景的。
基于节点重要性与相似性的重叠社区发现算法

基于节点重要性与相似性的重叠社区发现算法
付饶;孟凡荣;邢艳
【期刊名称】《计算机工程》
【年(卷),期】2018(044)009
【摘要】在复杂网络中进行重叠社区发现时,现有模糊C均值算法(FCM)采用随机策略导致社区划分结果不一致.为此,提出一种新的重叠社区发现算法.引入节点重要性来量化复杂网络中节点的重要程度,根据节点重要性排序和节点间最短路径选取若干核心节点作为FCM初始的聚类中心节点,从而提高FCM的不稳定性.利用基于s-跳最短路径的节点相似度量方法得到信息更丰富的相似矩阵,以提高算法的准确率.采用谱聚类对相似矩阵处理得到节点的隶属度矩阵,并依据阈值分配各节点的社区归属.实验结果表明,该算法能够得到唯一的社区划分结果,且在Karate、Dolphins数据集上的NMI指标比GCE、INFOMAP和GOPRA等算法高8%以上.
【总页数】7页(P192-198)
【作者】付饶;孟凡荣;邢艳
【作者单位】中国矿业大学计算机科学与技术学院,江苏徐州221116;中国矿业大学计算机科学与技术学院,江苏徐州221116;中国矿业大学计算机科学与技术学院,江苏徐州221116
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于局部相似性的社区发现算法 [J], 吴钟刚;吕钊
2.基于Node2Vec的重叠社区发现算法 [J], 陈卓;姜鹏;袁玺明
3.基于节点重要性和局部扩展的重叠社区发现算法 [J], 郭峰;尤凯丽;李昕泽
4.基于SLPA优化的重叠社区发现算法 [J], 陈界全;王占全;李真;汤敏伟
5.基于节点重要性与相似性的标签传播算法 [J], 林天森;孙飞翔
因版权原因,仅展示原文概要,查看原文内容请购买。
FCM框架下的重叠社区发现算法

【 关键词 】 : 重叠社 区; 节点相似度 ; F C M
1引 言
义提 供约 束指 导 。
本 文 给 出 了社 交 网络 的两 个 性 质 并 结 合 六度 分
随着 F a c e b o o k 、 t w i t t e r与 新 浪 微 博 等 社 交 网络 服
务平 台的 成功 推广 , 关 于社 交 网络 的研 究 正 变得 日益 隔理 论构 造 出 了一 种新 的节 点相似 度 。 然 后针 对 F C M 重要 和 广 泛 。社 区结 构 是 这些 社 交 网络 的共 同特 性 , 的缺 陷提 出 改进 ,从 而 利用 该 改进 的 F C M框 架 实 现
所 谓 社 区 就 是 网络 中的“ 分组” , 组 内联 系 密 切 , 组 间 重 叠社 区发现 。该算法 利 用 了一种初 始类 簇 中心选 择 提 出 了一 种 新 的聚 类 中心 点 的 更 新 方案 , 并 在 联 系 稀疏 。在社 交 网络 中进 行 社 区发现 对 理解 它 的结 方法 , 构和 功 能特 性有 着深 刻 的理 论和 实 用价 值 。社 交 网络 计算 出节 点隶 属 度 之 后给 出 阈值 确 定 每 个 节 点 的类 不 同 于其 他 网 络 ,它 有着 一 些 独特 的现 象 和 基 本 理 标 从而 完成 重 叠 社 区发 现 , 本 文称 该 算法 为 s i mi l a i r t y
并且 使 社 区 内链 接 数 目最 多 , 而 社 区间 的链 接 数
目最少 。 重 叠 社 区发 现 目标 是 使 社 区 内的 链 接 数 目最 多
的相似 度 定义 。强弱 关系 理 论指 出了社 交 网络 中相似
性 传播 的一 种方 法 ( 通 过 邻 居) , 而 六 度 分 隔理 论 则 指 而使 社 区间链 接 数 目最 少 , 其 实链 接 是用 来体 现 节 点
【CN109949173A】基于传递相似度和聚类度的两阶段局部社区发现方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910191365.X(22)申请日 2019.03.12(71)申请人 南京航空航天大学地址 211106 江苏省南京市江宁区将军大道29号(72)发明人 夏正友 刘赛赛 刘庆庆 (51)Int.Cl.G06Q 50/00(2012.01)G06F 16/953(2019.01)(54)发明名称基于传递相似度和聚类度的两阶段局部社区发现方法(57)摘要本发明涉及基于传递相似度和聚类度的两阶段局部社区发现方法,具体涉及一种基于传递相似度、局部聚类度与广度优先搜索的局部社区发现方法,包含核心社区检测和社区扩展两阶段。
在核心社区检测阶段,将给定节点和其最大局部聚类度的邻居节点加入社区中,并通过生成核心社区解决种子依赖性问题;本发明提出的传递相似性计算,同局部聚类度和搜索深度一起构成核心节点判定条件,解决了核心节点判断不准确问题;提出核心节点判定阈值和扩展节点并入社区阈值自动选取的方法,能够适应网络结构变化,自动选定不同阈值和停止遍历的条件,可以解决社区扩展结束条件确定难的问题。
权利要求书2页 说明书5页 附图1页CN 109949173 A 2019.06.28C N 109949173A1.基于传递相似度和聚类度的两阶段局部社区发现方法,其特征在于:包括以下步骤:步骤S1:读取网络数据集,生成网络图G;读取给定的节点Vu;步骤S2:初始化当前检测到的社区集合C、社区邻居队列N、节点传递相似度向量S、广度遍历深度向量Depth、节点权重W;步骤S3:根据节点局部聚类度LCC,将给定节点Vu及其具有最大LCC值的邻居节点加入C 中,更新N、S、Depth、W;步骤S4:遍历N中每一个节点Vi,将满足核心节点条件的节点Vi加入社区C中,并将其未在C和N中的邻居节点加入N中,当N中所有节点都遍历完成后,就生成了由核心节点组成的核心社区C;步骤S5:根据主关键字Depth值递增,此关键字S值递减顺序排序核心社区C;步骤S6:根据公式(6)计算核心社区C中所有节点的平均节点传递相似度Savg;步骤S7:遍历C中每个节点Vi,并将Vi的每个不在C和N中的节点加入N中;步骤S8:遍历N中每一个节点Vi,将满足扩展节点条件的节点Vi加入社区C中,并将其未在C和N中的邻居节点加入N中,当N中所有节点都遍历完成后,就生成了给定节点Vu所在的社区C;步骤S9:输出最终的社区划分结果C。
一种基于多维遗传算法的重叠社区发现方法

) 的研究发现, 一些社交网络中, 节点之间在社区间重叠 ( 图1
6 ] 部分的连接往往比社区内部的连接更加紧密 [ 。这一研究结
在很多社交网络中, 一个人往往同时属于多个群体或参与 多个话题, 这就提出了重叠社区发现的问题。现在的社区发现 算法都隐含一个共同的假设, 认为社区是网络节点集合的若干 子集, 每个子集内部节点之间的连接相对紧密, 而不同子集节
4 ] 点之间的连接相对稀疏 [ 。换句话说, 这意味着一对节点同
时属于的社区越多, 它们之间相连的可能性就越低。然而最近
现在有大量的社交网络如 F a c e b o o k 、 T w i t t e r 和新浪微博 等。在社交网络中, 人们可以通过社区相互联系和交换信息来 展示个人生活。社区结构的发现有助于捕获和跟踪网络的拓 扑结构、 揭示复杂系统内在的功能特性、 预测个体关系和行为 的演化趋势, 具有很强的应用价值。社区发现算法的研究得到 了研究人员的广泛关注, 很多经典算法如模块度、 介数等被提
1 相关工作
社区反映了网络中个体行为的局部聚集特征, 在社交网络 中存在大量的隐性或显性社区, 社区结构的研究成为近年来社
1 ~ 4 ] 交网络研究的一个趋势 [ 。
果与现有社区的认识形成了鲜明的对比, 目前已有的众多社区 发现算法均没有考虑此种结构的社区, 它们在算法中要么将社 区重叠部分分成单独的一个聚类, 要么将重叠部分的所有社区
, 2 王 琦1 ,温志平1
( 1 . 南京工程学院 计算机工程学院,南京 2 1 1 1 6 7 ; 2 . 南京大学 计算机科学与技术系,南京 2 1 0 0 9 3 ) 摘 要:社区结构的发现是社交网络分析研究的重要内容。与传统的重叠社区不同, 最近的研究表明某些真实 网络中在社区重叠部分要比社区内部节点间的连接更加密集, 而现有的算法没有考虑此类社区结构。基于遗传 算法, 提出了一种新颖的方法来发现此类社区划分。为了刻画节点属于多个社区的重叠现象, 首次将多维染色 体和均匀块交叉算子引入到社区发现算法中。通过实验证明, 提出的算法可以很好地发现社交网络中重叠和非 重叠的社区结构。 关键词:社团发现;重叠社团;多维染色体;从属网络 中图分类号:T P 3 9 3 文献标志码:A 文章编号:1 0 0 1 3 6 9 5 ( 2 0 1 6 ) 1 2 3 5 4 3 0 4 : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 1 3 6 9 5 . 2 0 1 6 . 1 2 . 0 0 6 d o i
一种新的重叠社区发现算法

区都具有 很 大的适 应度 , 则这 些节 点归属 于 多个社 区。考虑 到社 区之 间的 重 叠性 , 社 区相 似度 很 大的社 区合 将 并为 一个社 区。将 该算 法应 用到 Zca 空手道俱 乐部 网络 和 海豚社 会 网络 中, ahr y 实验 表 明该算 法 能 够很好 地 划
vs e o m n y S e h o n d s a dj n dten d i bg et tes ot o m nt.I te o e a ev r bg i tdc m u i ’ i b r o e , n ie o e t a i s fn s t h c m u i f h d d h e i i t n g o h w h g i e y n h t y
度 的社 区发现算法 , 中 N w a 其 e m n等人 提 出的 G N算法 是一
第2 9卷 第 3期 21 0 2年 3月
计 算 机 用 研 究
Ap lc t n Re e r h o mp t r p i ai s a c fCo u e s o
Vo _ 9 No 3 l2 . Ma . 2 1 t 02
一
种 新 的重 叠社 区发 现 算 法 木
d tc v r p ig c mmu i e .T i lo i m o k t e n d swi r a e t l y d ge s t e i i a o ee t e l p n o o a n t s h sag r h t o h o e t a g e tc n r i e r e a h n t lc mmu i e ,t e i t h at i nt s h n i
i e st n o f n s o ma y c mmu i e ,t e e o g d t e e a o t nt s h n i b ln e sv r lc mmu i e .Co s e n h v r p i g p o e y o o i t o nt s i n i r g t e o e l p n r p  ̄ fc mmu i ,i di a nt t y c mb n d c mmu i e i ra i lr is i t n o o ie o n t sw t g e t s a i e n o o e c mmu i .I a p id t i ag rtm n o t e Z c ay’ r t l b i h mi t nt y t p l h s l oi e h i t h a h r S Kaa e C u N t o k a d t e D l h n o il t r ,a d t e e p rme t n i ae i ag r h c n d vd v r p ig c mmu i e f — e w r n h o p i sS c a wo k n h x e Ne i n d c t s h s l o i m a ii eo el p n o i t t a n t sef i i
基于引力度扩展的重叠社区发现算法

Ov e r l a p p i n g c o mmu n i t y d e t e c t i o n a l g o r i t h m b a s e d o n e x p a n s i o n o f g r a v i t a t i o n a l d e g r e e
Ab s t r a c t : Th e o v e r l a p p i n g c o mmu n i t y t h a t t h e r e a r e a l o t o f o v e r l a p p i n g n o d e s d u r i n g c o mmu n i t i e s i n n e t wo r k s .To f i n d o v e r l a p —
g r e e .Th e a p p l i c a t i o n s t o s o me r e a l — wo r l d c o mp l e x n e t wo r k s t O e v a l u a t e t h e a l g o r i t h m ,a n d t h e e x p e r i me n t a l r e s u l t s d e mo n s t r a t e t h a t t h e a l g o r i t m h i s e f f i c i e n t f o r d e t e c t i n g o v e r l a p p i n g c o mm u n i t i e s i n c o mp l e x n e t wo r k s .
ma x i ma l g r a v i t a t i o n a l d e g r e e a n d a d d n o d e s t o e x p a n d t h e p a r t i a l c o mmu n i t y a c c o r d i n g t O t h e v a l u e o f c o mmu n i t y b e l o n g i n g d e —
基于边图的线性流重叠社区发现算法

基于边图的线性流重叠社区发现算法王斌;李强;盛津芳;孙泽军【摘要】重叠网络的社区发现是复杂网络研究中的重要问题.为了提高网络中重叠社区发现的时间效率,提出一种基于边图的线性流重叠社区发现算法LBSA.算法首先对于边图网络中的边进行随机的依次处理,完成节点的初步社区划分,再将其中重叠小社区合并到相似度最大的其他大社区中得到最终的社区.通过以上步骤,算法能够以接近线性的时间复杂度得到网络的重叠结构.从最终的实验结果来看,与其他算法相比,该算法能够在更短的时间有质量地发现网络中的重叠社区.【期刊名称】《计算机工程与应用》【年(卷),期】2019(055)002【总页数】7页(P60-66)【关键词】流式图;重叠社区发现;边聚类系数;边图;社区相似度【作者】王斌;李强;盛津芳;孙泽军【作者单位】中南大学信息科学与工程学院,长沙 410083;中南大学信息科学与工程学院,长沙 410083;中南大学信息科学与工程学院,长沙 410083;中南大学信息科学与工程学院,长沙 410083【正文语种】中文【中图分类】TP3911 引言在生物学,社会学以及网络分析等领域中,各复杂系统都可以抽象成为复杂网络[1-3]。
近些年对复杂网络研究中发现,它们普遍存在有稠密的节点聚集,也就是社区结构。
网络中的社区并没有严格的定义,一般认为社区内部节点连接更紧密,社区间节点连接更稀疏。
网络中的社区的发现,不仅对了解网络结构,分析网络特征,挖掘网络信息具有重要意义[4],而且具有广泛的应用前景[5]。
社区发现研究已经成为现代网络科学中最热门的课题之一[6]。
在传统的社区发现中,大多数研究关注于每个节点属于一个社区,而随着对更多网络如“Family”,“Foot-ball”等的研究过程中发现,每个节点可能属于多个社区,也就是网络中的社区存在有重叠结构。
目前提出了许多具有代表性的重叠社区发现算法,如基于节点的派系过滤算法(Clique Percolation Method,CPM)算法[7-9],通过定义派系k先发现网络中的全耦合网络,再将多个相互连通的小全耦合网络构成更大社团,该算法适合用于连接稠密的网络,但因需提前定义派系大小,并不适合用于现实网络中;基于边划分[10-12]的重叠社区发现算法,将原始网络转换为边图,原始网络中的边作为转换后边图中的节点,基于边图的社区划分使其边上的节点也划分到相应的社区,因每个节点有多条边,重叠的社区结构就可以被发现出来,但这类算法对于不同密度网络表现不同,同时这类算法会产生许多重叠小社区碎片;基于动力学的算法通过动态的过程发现网络中的社区结构,如基于标签传播的算法[13-14],基于同步的方法[15-16],基于距离动力学的方法[5]等,这类算法一般在不同的网络中都有较好的划分结果,但因为动态迭代过程其时间复杂度普遍较高。
基于节点相似度的网络社区发现算法

基于节点相似度的网络社区发现算法
徐熊飞
【期刊名称】《电脑编程技巧与维护》
【年(卷),期】2024()2
【摘要】现实生活和自然界系统中都存在着各种各样的联系,这些系统都可以类比为不同的复杂网络,近年来,由于技术的快速发展,社区结构作为复杂网络重要的拓扑性质,被广泛应用于推荐系统、智能广告、定向市场营销、公共卫生系统等,具有强烈的现实意义,引起了国内外大量学者的广泛研究,由此产生了大量社区发现算法。
基于节点离心率定义新的节点相似度,针对现有大多数社区发现算法划分社区的质量较低、社区数量较多的问题,改进了一种基于节点相似度的社区发现算法,该方法用于未加权的网络检测社区结构,充分利用了网络的局部与全局信息,最终得到较好的社区结构,具有重要的现实意义。
【总页数】5页(P53-56)
【作者】徐熊飞
【作者单位】贵州财经大学
【正文语种】中文
【中图分类】TP3
【相关文献】
1.基于多层节点相似度的社区发现方法
2.基于LeaderRank和节点相似度的复杂网络重要节点排序算法
3.基于共邻节点相似度的加权网络社区发现方法
4.基于相似
度聚类的二分网络社区发现算法5.基于节点相似性和网络嵌入的复杂网络社区发现算法
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于主题相似性和网络拓扑的微博社区发现方法

② 更新各子簇的 中心点; ③ 如果所 有 的子 簇 中心 均不发 生变 化,则结束,
并获得社 区结构, 否 则转 至步骤①继续执行. 其 中,步骤①在 指派 节点 到相应子簇 时,根据公 式( 8 ) 计算剩余节 点与各个簇 中心 的相似度,将其指派
算法步骤: ① 根据 与 中心 点的相似 度,将 剩余 节点指 派到
相应 的簇 中:
, ( v , v , ) : m a x ,兀 ( v , )
( , V n ) ∈ 时
( 9 )
其中, s i m ( v , , v , J ) 为节点v f , v j 的主题相似度, l i n k  ̄ 为
了将与 已有 中心很相似 而与其 它中心不相似 的节 点作
① 根据公式( 1 0 ) 计算社区 C , C, 的重叠度;
②当 D , c , ) > 时 , 将C , , c , 并 为 一 个社 区 ;
S o t f wa r eT e c h n i q u e ・ Al g o r i t h m 软 件技 术 ・ 算法 1 1 1
法【 。 】 求得.
获取初始聚类 中心集合后,对 剩余节点进行基 于
用户相似性的聚类.具体方法如下:
设网络中非相邻节点 v . 和v . 节 点之间的最短路径
l i n k ( v  ̄ , ’ , , ) 为 , ) , , ) ’ … , , , v / ) } , 定 义 它 们 之 间
值.
为候选对象 的可 能. 事 实上,社交 网络 中的社区往往 是由大量普通节 点围绕着少量“ 中心节 点” 建立起来的.
这些“ 中心节点” 通常与其它 节点联系很多, 度 比较大. 因此把集合 V中度较 小的节点过滤掉,避免它们成 为
局部引力度扩展的重叠社区发现算法

局部引力度扩展的重叠社区发现算法孙延维;雷建军;刘倩【摘要】社交网络拥有社区结构,而网络中的一些节点又被两个或更多社区共享,这就使网络呈现出重叠社区结构.在前面对重叠社区划分算法的研究中提出了基于引力度扩展的重叠社区发现算法(GDE),以引力度最大的节点为种子来扩展与发现重叠社区.这里,提出基于h-域的局部引力度扩展的改进算法(LGDE).改进算法的实验测试结果表明该算法的执行效率获得了极大的提高,并且是可行的.【期刊名称】《华中师范大学学报(自然科学版)》【年(卷),期】2015(049)006【总页数】6页(P851-856)【关键词】重叠社区;局部引力度;h-域;社交网络;种子扩展【作者】孙延维;雷建军;刘倩【作者单位】湖北第二师范学院基础教育信息技术服务湖北省协同创新中心,武汉430205;湖北第二师范学院基础教育信息技术服务湖北省协同创新中心,武汉430205;重庆邮电大学计算智能重庆市重点实验室,重庆400065【正文语种】中文【中图分类】TP393.0真实世界里的网络拥有社区结构这一重要特征,而在大多数实际的社交网络[1]中,一些社交成员都是同时参与了多个社交圈子,那么社交网络的重叠社区现象是显而易见的.学术界对挖掘网络重叠社区结构的兴趣与日俱增,目前已经出现了许多重叠社区发现算法.其中包括基于快速派系过滤的SCP算法[2],之后又有基于信息论编码理论的InfoMap算法[3],以及Blondel[4]等的层次快速展开算法等.通过研究发现,现有的种子扩展类型的算法选取的种子具有随机性或种子在网络中的影响力较弱,这就可能使算法的社区发现效果不佳.针对此问题,在先前的研究中已提出了基于引力度扩展的重叠社区发现算法[5],其测试结果显示算法划分的社区结果的准确率有所提高,但执行效率较低,因此,本文提出改进的局部引力度扩展的重叠社区发现算法.给定一个无向、无权网络G(V,E),其中V是网络的节点集,E是网络的边集,节点数|V|=n,边数|E|=m;将网络中未被划分到任意一个社区中的节点的划分状态标记为‘F’,已经被分配到社区里的节点的划分状态标记为‘T’.首先,将网络中所有节点的划分状态初始化为‘F’.1.1 基于引力度扩展的重叠社区发现算法(GDE)基于引力度扩展的重叠社区发现算法[5]包含了有序的算法流程,其描述如下. 1)查找初始社区步骤1:使用计算节点引力度的公式来计算网络中未被划分到社区里的节点的引力度值;步骤2:选取引力度值最大的节点作为发现一个社区的种子;步骤3:查询种子节点的划分状态为‘F’的邻居节点集合,这些邻居节点与种子节点便形成了一个初始社区c;步骤4:对于社区c中的每一个节点u,计算其隶属度B(u,c)的值,如果存在B(u,c)<Bc(Bc表示节点u与社区c联系紧密程度的门限值)的节点,则将这些节点从社区c中移除;步骤5:返回步骤4,直到∀u∈c,B(u,c)≥Bc,则获得了最终的初始社区c. 2)扩展社区步骤1:找出社区c的邻居节点集合,将其记为Nc,并计算邻居节点集Nc中每个节点v的隶属度B(v,c)的值;步骤2:找出Nc中隶属度B(v,c)≥Bv(其中Bv表示节点v与社区c联系紧密程度的门限值)的所有节点,用Nv={B(v,c)≥Bv}表示这个节点集合;步骤3:如果|Nv|>0(|Nv|表示集合Nv中节点的个数),则添加Nv中的节点到社区c中,便形成了一个更大的社区c,返回步骤1;步骤4:如果|Nv|=0,则挖掘出了一个最终的重叠社区c.该算法在查找初始社区的步骤1中计算节点的全局引力度值时,要计算该节点与网络中其他节点的最短路径长度,而计算网络中任意两点间的最短路径长度的时间复杂度是O(n3),则发现网络中所有重叠社区的时间复杂度就是O(n4),这会使算法的执行效率非常低下,而且通过实验表明该算法运行所耗费的时间代价确实很大.1.2 节点的h-域网络G的节点u的h-域表示的是包括所有通过节点u或者以节点u为起点的最短路径长度不超过h的节点集.节点u的h-域的导出子图的节点集[6]被定义为式(1):例如,图1所示的网络中,椭圆虚线圈画范围内的子图就是节点6的2-域导出子图,而节点6的2-域导出子图的节点集V6,2={1,2,3,4,5,7,8,9,10}.其中d(6,1)=2,d(2,2)=2,d(2,3)=1,d(2,4)=1,d(2,5)=1,d(2,7)=1,d(2,8)=1,d(2,9)=2,d(2,10)=2,都满足d(6,v)≤2的条件.1.3 节点的局部引力度节点u的引力度就是网络中的节点u与其他节点的引力之和,这是一个全局引力度的概念,其定义为[5]:为改善算法的执行效率,我们引进节点h-域的思想将全局引力度优化为局部引力度的概念.而局部引力度的定义则为式2必须满足附加约束条件式(1),将局部引力度的公式表示为:其中,Vu,h是节点u的h-域导出子图的节点集合,Mu,Mv是网络节点u、节点v的质量,p (u,v)是节点u与节点v之间的最短距离.1.4 局部引力度扩展的重叠社区发现算法(LGDE)本文提出了h-域局部引力度的概念,这就使得局部引力度扩展的重叠社区发现算法在寻找初始社区时与基于引力度扩展算法在寻找初始社区的流程与思想有所不同.在此给出基于局部引力度思想下寻找初始社区的算法流程,其详细描述如下:1)确定社区种子步骤1:指定h-域的h大小;步骤2:查找标记为‘F’的节点集合,将其记为VF;步骤3:对∀v∈VF,利用广度优先搜索查找节点v在h-域内的节点集合,将其记为Vv,h;步骤4:利用公式(3)计算∀v∈VF的局部引力度值,并选局部引力度值最大的节点为社区的种子节点,将其记为u.2)由种子源查找初始社区步骤1:查找种子节点u的邻居节点集,则这些邻居节点就与节点u一起组成了初始社区c,并将社区c的节点集记为Vc;步骤2:对于∀v∈Vc,计算其隶属度B(v,c)的值,如果存在B(v,c)<Bc的节点,则将这些节点移出社区c;步骤3:返回步骤2,直到∀v∈Vc,B(v,c)≥Bc,则获得了确定的初始社区c. 1.5 局部引力度扩展的重叠社区发现算法的流程图图2是局部引力度扩展的重叠社区发现算法的流程图,该图清楚的描述了算法如何确定社区种子,并通过种子节点寻找初始社区,然后扩展初始社区,直到最终挖掘出网络的重叠社区结构.为了测试基于h-域的局部引力度扩展的重叠社区发现算法的可行性与有效性,将算法运用在真实网络上进行了测试,并与LFM算法[7]、基于引力度扩展的重叠社区发现算法做性能上的对比.本文提出的算法中的h为一个设置参数,在进行算法实验时,将选取h=2与h=3[6]来计算节点的h-域引力度值.2.1 算法评价指标2.1.1时间复杂度时间复杂度是评价算法的时间花费代价的一个性能指标,是指执行算法所需要的计算工作,而一个算法的质量优劣将影响到算法乃至程序的效率.本文首先从理论上加以分析本算法时间复杂度,然后以本算法程序的运行时间为标准,来评估算法的执行效率.2.1.2评价重叠社区划分质量的模块度本文算法测试的真实社交网络数据集基本都属于无先验知识、无元数据、无类标的网络数据集.为了衡量本文算法对一个网络重叠社区结构划分质量的好坏,仍然采用文献[8]中提出的扩展模块度函数EQ(Extend Modularity)来衡量算法划分的重叠社区结构的质量.2.2 真实网络数据集介绍本文算法测试的网络数据集为Zachary’s karate clubshe社交网络[9]、Dolphins’s social network[10]、American College football社会网络[9]、Email网络数据集[11]与KDD Cup2012部分数据集[5].其中Karate club包括34个节点与78条边;Dolphin拥有62个节点、159条边;football包含115个节点与615条边;Email有1133个节点与5451条边.KDD Cup2012部分数据集是以一定规模增长提取的数据集,节点个数的起点为100.2.3 社交网络的算法性能分析2.3.1算法时间复杂度的理论分析局部引力度扩展的重叠社区发现算法(LGDE)在计算网络节点的h-域引力度值的时间复杂度受参数h的影响,而1≤h≤n-1,其中n表示网络的规模.LGDE算法在计算网络中任意两点间的最短路径长度的时间复杂度在最优情况下是O(n2),最差情况下为O(n2(n-1)),因此,发现网络中所有重叠社区的时间复杂度在最优情况下就是O(n3),最差情况下为O(n3(n-1)).由此可见,LGDE算法的时间复杂度在最优与最差情况下都比GDE算法的时间复杂度O(n4)获得了良好的改善.2.3.2Karate club、Dolphin、Football、Email的运行效率分析对Karate club、Dolphin、Football、Email社交网进行了算法的真实运行时间分析,其算法的执行效率分析如表1.对表1进行分析可知,LFM算法、基于引力度扩展的重叠社区发现算法、h-域引力度扩展的重叠社区发现算法在Karate club、Dolphin、Football、Email网络数据集上的运行时间随着网络规模的增大都在不断的增加.其中h-域引力度扩展算法的运行时间比LFM算法、引力度扩展算法的运行时间增加更慢,即h-域引力度扩展算法的执行效率比引力度扩展算法的执行效率获得了显著的提高.2.3.3Karate club、Dolphin、Football、Email重叠社区划分的准确率分析算法划分的重叠社区结构的质量优劣分析如图3.图3是算法的EQ值与Social network的关系图,横坐标表示社交网络,纵坐标表示EQ取值.对图3进行分析,由图中的(a)可知,在Karate网络中,引力度扩展算法、h=2与h=3时的h-域引力度扩展算法的EQ值是相同的,且都比LFM算法的EQ值稍低.因此,LFM算法对Karate网络划分的重叠社区结构比引力度扩展算法、h-域引力度扩展算法在Bc=0.4时划分的重叠社区结构更好,且h-域引力度扩展算法划分的重叠社区结构与引力度扩展算法划分的重叠社区结构效果一样.在Dolphin、Football、Email网络中,引力度扩展算法、h=2与h=3时的h-域引力度扩展算法的EQ值基本上相同,且都比LFM算法的EQ值高.因此,LFM算法对Dolphin、Football、Email网络划分的重叠社区结构比引力度扩展算法、h-域引力度扩展算法在Bc=0.4时划分的重叠社区结构弱,且h-域引力度扩展算法划分的重叠社区结构与引力度扩展算法划分的重叠社区结构效果基本上一致.从图3的(b)可以得出,在Karate、Email网络中,引力度扩展算法、h=2与h=3时的h-域引力度扩展算法的EQ值一样,且都比LFM算法的EQ略低.因此,LFM 算法对Karate、Email网络划分的重叠社区结构比引力度扩展算法、h-域引力度扩展算法在Bc=0.5时划分的重叠社区结构质量稍微高一些,且h-域引力度扩展算法划分的重叠社区结构与引力度扩展算法划分的重叠社区结构一样准确.在Dolphin、Football网络中,引力度扩展算法、h=2与h=3时的h-域引力度扩展算法的EQ值都比LFM算法的EQ值大,即引力度扩展算法、h-域引力度扩展算法在Bc=0.5时对Dolphin、Football网络划分的重叠社区结构比LFM算法划分的重叠社区结构更加明显.图3的(c)是h-域算法在h=2与h=3的EQ比较,h=3,Bc=0.4与h=3,Bc=0.5时,算法在Karate、Dolphin、Football、Email网络上获得的EQ值基本上分别都比h=2,Bc=0.4与h=2,Bc=0.5时获得的EQ值高;因此,h-域算法在h=3时划分的重叠社区结构比h=2时划分的重叠社区结构更加准确,质量更高,结构性更强.2.4 KDD Cup2012数据集算法性能分析图4是算法的运行时间Time与节点数n的关系图,横坐标为节点数,纵坐标为运行时间.由图4可以看出,随着同一网络节点数的增多,LFM算法、引力度扩展算法、h-域引力度扩展算法的运行时间都在增长.其中h-域引力度扩展算法在h=2与h=3时的运行时间比LFM算法、引力度扩展算法的运行时间增加得更缓慢,尤其比引力度扩展算法的运行时间有了数量级的减少.因此,h-域引力度扩展算法的执行效率相对于引力度扩展算法的执行效率有了极大的改善.图5是算法实验获得的EQ值与网络节点数n的关系图,横坐标为节点数,纵坐标为EQ值.在图5的(a)中可以看出,引力度扩展算法、h=2与h=3的h-域引力度扩展算法在Bc=0.4时获得的EQ值总体上比LFM算法的EQ值高,表明引力度扩展算法、h-域引力度扩展算法在Bc取0.4时划分的重叠社区结构比LFM算法划分的重叠社区结构更具有结构性,质量更高.但是,在网络规模为1000时,引力度扩展算法的EQ值比h=2与h=3的h-域引力度扩展算法的EQ值略高,说明此时h-域引力度扩展算法所划分的重叠社区结构的准确度稍微有点降低.在图5的(b)中可以看出,引力度扩展算法、h=2与h=3的h-域引力度扩展算法在Bc=0.5时获得的EQ值总体上比LFM算法的EQ值高,表明引力度扩展算法、h-域引力度扩展算法在Bc取0.5时划分的重叠社区结构比LFM算法划分的重叠社区结构更加精确.但是,在网络规模为1000时,引力度算法的EQ值比h=2与h=3的h-域引力度算法的EQ值略高,说明此时h-域引力度算法所划分的重叠社区结构的结构性仍然有所减弱.图5的(c)是h-域引力度扩展算法在同一网络中h=2与h=3的算法EQ比较图,当h=2与h=3,在Bc取0.5比Bc取0.4在总体上获得的EQ值稍高,但在节点规模为1000时,Bc取0.4却比Bc取0.5时的EQ值高,此时h-域算法在Bc=0.4比Bc=0.5划分的重叠社区结构质量高些.当h=3时h-域算法获得的EQ值基本上比h=2取得的EQ值高,说明h-域算法在h=3时划分的重叠社区结构比h=2时划分的重叠社区结构更强,结果更加精准.本文提出了基于h-域的局部引力度扩展的重叠社区发现算法,将计算节点的全局引力度值优化为计算节点的h-域引力度值.然后将该算法在实际网络上进行了测试,并与基于引力度扩展算法、LFM算法做了性能上的对比分析,实验结果表明该算法在执行效率上比基于引力度扩展的重叠社区发现算法的执行效率有了显著的提高,而且该算法获得的EQ值总体上并没降低.因此,局部引力度扩展的重叠社区发现算法是有效与可行的.【相关文献】[1] LESKOVE J, LANG K L, DASGUPTA A, et al. Community structure in large networks: natural cluster sizes and the absence of large well-defined clusters[J]. Internet Mathematics, 2008, 6(1): 29-123.[2] KUMPULA J M, KIVELA M, KASKI K, et al. A sequential algorithm for fast clique percolation[J]. Physical Review E, 2008, 2(61): 1-9.[3] ROSVALL M, AXELSSON D, BERGSTROM C T. The map equation[J]. The European Physical Journal-Special Topics, 2009, 178(1): 13-23.[4] BLONDEL V D , GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008,10(10): 1-8.[5] 刘倩,刘群. 基于引力度扩展的叠社区发现算法[J]. 计算机工程与设计, 2014, 35(3): 110-113[6] GREGORY S. A fast algorithm to find overlapping communities in networks[J]. European Conference, ECML PKDD, 2008, 52(11): 408-423.[7] LANCICHINETTI A, FORTUNATO S, KERTESZ J. Detecting the overlapping and hierarchical community structure in complex networks[J]. New Journal of Physics, 2009,11(33): 1-15.[8] SHEN H, CHENG X, CAI K, et al. Detect overlapping and hierarchical community structure in networks[J]. Physica A, 2009, 388(8): 1706-1712.[9] CHEN D, SHANG M, LV Z, et al. Detecting overlapping communities of weighted networks via a local algorithm[J]. Physica A: Statistical Mechanics and its Applications,2010, 389(19): 4177-4187.[10] 潘磊,金杰,王崇骏,等. 社会网络中基于局部信息的边社区挖掘[J]. 电子学报, 2012,40(11): 2255-2263.[11] 武志昊,林友芳,田盛丰,等. 高度重叠社区的社区合并优化算法[J]. 北京交通大学学报,2011, 35(3): 116-122.。
基于联合引力度扩展的加权网络重叠社区划分算法

基于联合引力度扩展的加权网络重叠社区划分算法孙延维;雷建军;杨进才【摘要】The overlapping community detection algorithm based on expansion of gravitational degree,which is mainly used to excavate overlapping community structure in social networks,is applied to un-weighted networks.Real community is more with weightedattributes,according to the seed strategy of GDE,and based on the characteristics of the weighted network,the core node of a community is able to be determined by its degree and strength.Here the over overlapping community detection algorithm based on expansion of union gravitational degree in weighted networks (UGDE) is proposed.According to experimental results,it demonstrates that the algorithm is efficient and feasible for detecting overlapping communities in weighted networks.%基于引力度扩展的重叠社区发现算法(GDE),主要用于挖掘无权社交网络的重叠社区结构.真实社区更多是具有加权属性的,本文根据GDE算法的种子策略思想,并依据加权网络的特征,以网络节点的度与强度来综合确定重叠社区的中心节点,提出基于联合引力度扩展的加权网络重叠社区划分算法(UGDE).算法的实验检测结果表明:该算法对划分加权网络中的重叠社区具有可行性与有效性.【期刊名称】《华中师范大学学报(自然科学版)》【年(卷),期】2017(051)004【总页数】6页(P435-440)【关键词】重叠社区;联合度;联合引力度;社区划分;加权网络【作者】孙延维;雷建军;杨进才【作者单位】华中师范大学教育信息技术学院,武汉430079;湖北第二师范学院计算机学院,湖北武汉430205;湖北第二师范学院计算机学院,湖北武汉430205;华中师范大学教育信息技术学院,武汉430079【正文语种】中文【中图分类】TP393复杂网络解析[1-3]的一个重要研究问题就是社区结构,而重叠社区结构更能体现现实世界里人们可以自由加入多个团体的实际情况.因此,发现复杂网络的重叠社区结构就成为社区研究的热点,且这一研究的突破将会对探究人类社会交往方式的进展起到里程碑的推动作用.如今,已有计算机科学、统计学、应用数学、统计物理领域的科学工作者们在发现复杂网络重叠社区结构上做了大量的科研工作,并产生了很多重叠社区发现方法.其中有基于适配标签传播的ALPA算法[4],使用链路空间变换的LinkSCAN算法[5],基于边界非负矩阵三角分解的(BNMTF)方法[6],边密度聚类算法 (LDC)[7],基于马尔科夫随机游走控制策略的UEOC方法[8],通过多目标进化的MEA_CDP算法[9]等.以上的方法都是针对无权网络的,而真实社会中的个体往往是带有很多社会交际信息的,这种信息可由复杂网络的边权重体现出来,即加权网络更能确切的表达人们的日常活动信息.因此,研究加权网络的重叠社区结构具有更大的社会价值.目前,用于挖掘加权复杂网络重叠社区结构的算法较少,本文运用GDE算法[10]的种子策略,并根据加权网络的特性,用节点的强度与度来联合肯定重叠社区的中心节点,由此提出基于联合引力度扩展的加权网络重叠社区划分算法(UGDE).1.1加权网络节点的联合度在社交加权网络中,权值一般代表了节点联系的密切度,节点间边的权重值越大,说明两个节点间的日常往来越亲密,反之,交往则越稀少.而在加权网络中,根据节点间边的权值来判断节点之间的相互影响力度是无可厚非的,但是节点与多少个节点之间有直接交往关系,也是不容忽略的.因此,衡量加权网络中任意节点对网络中其他节点的直接影响力的大小不能只单一从权值判断,而应该将节点的度与节点的强度联合考虑.设定加权网络Gw(Vw,Ew),其中网络节点集合的数学表示为Vw,网络边集合的数学表示为Ew.设定任意节点a∈Vw,节点a的联合度定义参考文献[11],将其定义为:式中,ka是节点a的度,sa是节点a的强度,β是一个为正数的调节参数,它将节点a的度与a的强度联合了起来,且β∈[0,1].1.2加权网络节点的联合隶属度设定一个加权网络Gw(Vw,Ew),以及Gw中的一个重叠社区cw∈Cw,Cw是Gw的一个重叠社团划分,且∀a∈Vw,则将节点a对重叠社区cw的联合隶属度Bw(a,cw)定义为:其中,k(cw)a是节点a对重叠社区cw的连接度, s(cw)a是节点a对重叠社区cw的连接强度.1.3加权网络节点间的最短路径一个无向、无权网络G(V,E),及∀a,b∈V,则节点u与节点v之间的最短路径[11]定义为:其中,i表示a可达b通过的所有中间节点,Aai是网络G的邻接矩阵A里的元素. 在加权社会网络中,节点间边的权重值一般表示的是节点间讯息交流的亲近程度,而不是节点间的路径长度,从理论意义上讲,当权值越大,节点间消息的互动应该更加频繁,通过彼此影响感染网络中的其他节点的可能性更高,他们的理论路径应该更短.一个加权网络Gw(Vw,Ew),及∀a,p∈Vw,则将节点a与节点p之间的加权最短路径[11]定义为:例如,在图1的加权网络中,加权最短路径,若按最短路径的原定义式(3)进行计算,则dw(b,e)=min(wbe, wbc+wcd+wde, wba+wae)=(1,20,4)=1.由计算可知,由定义(4)得出的加权最短路径为b→c→d→e,由定义(3)得出的最短路径为b→e,但b与e之间的联系相当少,消息传递的频率会很低,而b与c,c与d,d与e之间却经常联络,信息交换频率就会很高,由此可得出,以b→c→d→e的传播路径来确定节点在加权网络中感染其他节点的力度更为可靠.1.4加权网络节点的联合引力度Wai是网络Gw的加权邻接矩阵W里的元素,当节点a与节点i之间可达有连接时wai的大小为权重值,反之,设置wai的值为无穷大,则的值为0.一个加权网络Gw(Vw,Ew),∀a∈Vw,则节点a的联合引力度定义为:其中,mw(a)、mw(p) 分别是节点a、节点b的加权质量,由文献[10]可知,mw(a)=Ua,mw(p)=Up.加权网络Gw(Vw,Ew),对加权网络节点的归属状态进行初始化,给∀a∈Vw一个原始划分标记“N”,即节点a未被指定到重叠社区里,当节点a被分派到某个重叠社区里时,将其节点的划分标记更新为“J”.2.1算法描述1) 挖掘中心社区步骤1:∀a∈Vw,且a的划分标记是‘N’,由式(1)计算出节点a的联合度,式(4)计算出节点a与其他节点间的加权最短路径,再由式(5)计算出节点a的联合引力度;步骤2∶Gw中联合引力度最大的节点被指定为一个重叠社区的种子节点s;步骤3:将与种子s是邻居关系的节点集记为VL,∀b∈VL,且b的社区归属状态为‘N’,则将b加入种子s的社区里,最终,此类节点就和s构成了中心社区ch,ch的节点集记作Vh;步骤4:∀a∈Vh,计算出节点a的Bw(a,ch)值,若BT>Bw(a,ch)(BT是重叠社区联合隶属度的门限值),则在Vh中减除节点a;步骤5:回溯至第4步骤,直至∀a∈Vh,都满足BT≤Bw(a,ch),此时中心社区ch被明确.2) 中心社区的扩展步骤1:将社区ch的邻舍节点集记作VJ,∀b∈VJ,计算其Bw(b,ch)值;步骤2:设定一个节点集VF=∅,∀b∈VJ,若BT≤Bw(b,ch),将节点b加入到VF中,即VF=VF+{b};步骤3:若VF≠∅,则社团ch里就增加VF中的节点集,这样就组成了一个具有更多成员的社区ch,回溯至第1步骤;步骤4:若VF=∅,一个加权网络重叠社区ch就被确定与发现.2.2UGDE算法流程图2是基于联合引力度扩展的加权网络重叠社区划分算法的流程图,该图诠释了UGDE算法怎样划分出加权网络中的一个重叠社区,并直到整个加权网络的重叠社区结构被发现.将基于联合引力度扩展的加权网络重叠社区划分算法在实际的加权网络上进行实验,以检测该算法的有效性与可行性.本文还将该算法与EM-BOAD算法[12]、LOC算法[13]做了执行效率与重叠社区结构划分质量上的比较.3.1算法执行效率的理论分析与比较本文的UGDE算法计算加权网络任意节点对之间的带权最短路径长度的时间复杂度是O(n3),导致算法执行性能较差,因而UGDE算法的时间复杂度在最优情况,即网络中只存在一个社区时,是O(n3);而最差情况,即每个节点自成一个社区时,是O(n4),n是网络的节点个数.EM-BOAD算法的时间复杂度最优情况是O(n),最差情况是O(n2).LOC算法的时间复杂度最优情况是O(n2),最差情况是O(n3). 从以上分析可知,UGDE算法的时间复杂度是三者中最高的.因此,本文借鉴六度分割理论[14]的思想(地球上任意两个人之间要产生联系,平均中间只需要通过5个人就可以了)对该算法进行优化.文中将网络中任意节点的全局加权引力度优化为计算以该节点为起始节点,并通过5个节点内可达的全部节点的局部加权引力度.则UGDE算法的时间复杂度在最好情况,就变为O(n2);而最差情况则变为O(n3).3.2加权网络重叠社区结构质量函数模块度当在不知晓一个网络的实际社区结构的情形下,通常采用模块度函数来判断实验环境下获得的社区结构的质量如何.本文采用文献[13]中的模块度Qo,该指标是专门针对评估加权网络重叠社区结构质量的优劣而提出的模块度函数.Qo的定义为:其中,w表示加权网络的连接边的权重总和,wab表示加权矩阵W的元素,3.3实际加权网络数据集本文实验的实际数据集有Zachary’s karate club[15],lesmis[16],netscience[17],astro-ph.其中lesmis是法国大作家维克多·雨果在1862年发表的小说《悲惨世界》中人物之间的关系网络,该网络含有77个人物节点,254条带权人物关系边,边上的权值表示了某对人物在小说同一章节出现的次数.netscience是科学家在网络理论与实验研究这一领域的合作关系网络,其中有1 600个研究者节点,2 743条赋权关系边,边权重表明某两位学者共同合作研究的频率大小.astro-ph是学者在天体物理学这一领域的协作关系网络.3.3.1参数β取值讨论本文算法中的正数调节参数β值的设置参考文献[11],将β的值定为0.5,重叠社区归属阀值BT仍采用文献[10]中的取值.为了验证β取0.5时,本文算法是否能得到最优结果,我们在实验中做了检验,且β的增加步长设置为0.1,其测试结果如图3所示.图3为参数β与加权网络重叠社区结构质量评价指标Qo之间的关系图.解析图3可知,当β为0.5时,Qo值最大,此时UGDE算法在Karate、lesmis、netscience网络上获得的加权重叠社区结构的质量最佳,结构性最强.因此,β应该设定为0.5.3.3.2算法对karate club的重叠社区划分由于karate club只有34个成员节点,78条有权关系边,它的网络规模就比较小,可显而易见的从网络可视化角度来清楚的分析其重叠社区划分结果.karate club的带权重叠社区结构如图4.图4为Zachary’s karate club的加权重叠社区划分结构图,其中的(1)、(2)子图分别是阀门参数BT=0.5与BT=0.4的重叠社区结构图.由图中可知,本文算法将karate club划分成2个加权重叠社区,两个子图中重叠社区的种子都是节点1与节点34,而(1)子图中的重叠节点是3,(2)子图中的重叠节点是9、3、14.该俱乐部实际也是以节点1与节点34为核心领导人物被划分成了两个团体,由此可知本文算法在karate club上划分的加权重叠社区结构具有较好的准确性.3.3.3算法在karate club、lesmis、netscience上的运行效率分析与对比表1是算法的运行效率对比表,对其进行解析,将EM-BOAD算法、LOC算法、UGDE算法在加权网络karate、lesmis、netscience上测试时,所耗费的运行时间都与网络的规模成正比关系,即网络规模扩大,运行时间也加增.其中,EM-BOAD算法的时间花费代价最小,而本文提出的UGDE算法的运行时间相对最多,即该算法的运行效率是三者中最差的.3.3.4算法在karate club、lesmis、netscience上的加权模块度对比表2是算法的Qo对比表,由对表2的剖析可得,在加权网络karate、lesmis、netscience上实验获取的加权模块度函数值中,EM-BOAD算法的Qo表现最差,即划分的重叠社区结构的结构化程度是三个算法中最低的;在karate、lesmis网络中,UGDE算法的Qo值都优于LOC算法的Qo值,此时UGDE发现的重叠社区结构的质量比LOC要好;而在netscience网络中,UGDE算法的加权模块度函数Qo值却微小于LOC算法的Qo值,即此时UGDE算法划分的重叠社区结构的模块化水平低于LOC.3.3.5算法在astro-ph加权网络上的性能分析本文在astro-ph这个大型的加权关系网络中获取不同规模的数据集进行测试,仍将UGDE算法与EM-BOAD算法、LOC算法的实验结果作比较,从而更加确切地解析本文算法的性能.图5是网络规模与算法运行时间的关系图;图6是网络规模与加权模块度的关系图,其中网络规模由横坐标表示,加权模块度由纵坐标表示.对图5进行解析,当astro-ph加权网络被用于实验测试的数据量按固定规模逐渐增加,EM-BOAD算法、LOC算法、UGDE算法的运行时间同时呈现出逐渐上升趋势,但本文的UGDE算法的时间递增相对速度最快,消耗的时间最多,执行效率相对较低.对图6进行剖析可知, EM-BOAD算法、LOC算法、UGDE算法获得的加权模块度值与网络规模成反比关系,即随着astro-ph加权网络的节点个数递增,算法的Qo值却呈现出递减趋势.其中EM-BOAD的Qo值变小的速率最高,其划分效果最差,本文UGDE算法在节点数量从1 000按1 000节点的规模递增至5 000获得的Qo值都是三个算法中最良好的,但网络节点个数在5 000以上,UGDE算法的Qo值相对比LOC的Qo值略小.由此可知,UGDE算法划分的加权网络重叠社区结构具有较好的结构性与准确性,但在达到一定规模以上的大型网络中,其划分的重叠社区结构的结构性相对稍弱于LOC算法.本文提出了基于联合引力度扩展的加权网络重叠社区划分算法,将带权节点的度与强度联合起来决定节点在加权网络中的影响力.在具体的加权网络上将算法做了运用测试,测试结果阐明UGDE算法花费的时间代价相对较高,该算法在实验的各个加权网络中获得的Qo值总体上大于EM-BOAD、LOC算法的Qo值,但仍有稍小于LOC算法的加权模块度值的情形,从而表明本文算法在划分加权网络的重叠社区结构上是有效可行的.我们后期研究工作将致力于进一步降低UGDE算法的运行时间,并改善本文算法在大型加权网络上发现的重叠社区结构的质量.【相关文献】[1] JIERUI X, STEPHEN K, BOLESLAW K. Overlapping community detection in networks: the state-of-the-art and comparative study[J]. ACM Computing Surveys, 2013, 45(4): 1-43.[2] BOSCHLOO L, SCHOEVER R, BORKULO C, et al. The network structure of psychopathology in a community sample of preadolescents[J]. Journal of Abnormal Psychology, 2016, 125(4): 599-606.[3] PREM K, DAVID M. Efficient discovery of overlapping communities in massive network[J]. Proceeding of the National Academy of Sciences of the United States of America, 2013, 110(36): 4534-4539.[4] CHUNYING L, YONGHANG H, ZHIKANG T, et al. Adaptive label propagation algorithm to detect overlapping community in complex networks[J]. International Journal of Future Generation Communication and Networking, 2016, 9(8): 317-326.[5] SUNGSU L, SEUNGWOO R, SEJEONG K, et al. LinkSCAN: Overlapping community detection Using the link-space transformation[J]. ICDE, 2014, 30: 292-303.[6] YU Z, DIY-YAN Y. Overlapping community detection via bounded nonnegative matrix tri-factorization[J]. ACM New York, 2012, 12(8): 606-614.[7] HUANG L, GUISHEN W, WEI P, et al. A link density clustering algorithm based on automatically selecting density peaks for overlapping community detection[J]. International Journal of Modern Physics, 2016, 30(8): 1-15.[8] DI J, BO Y, CARLOS B, et al. Markov random walk under constraint for discovering overlapping communities in complex networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2011, 31(5): 1-22.[9] JING L, WEICAI Z, HUSSEIN A, et al. Separated and overlapping community detection in complex networks using multi-objective evolutionary algorithms[J]. IEEECongress on Evolutionary Computation, 2010, 8: 1-7.[10] 刘倩,刘群. 基于引力度扩展的叠社区发现算法[J]. 计算机工程与设计, 2014, 35(3):110-113.[11] OPSAHL T, AGNEESSENS F, SKVORETZ J. Node centrality in weighted networks: generalizing degree and shortest paths[J]. Social Networks, 2010, 32(3): 245-251.[12] JUNQIU L, XINGYUAN W, JUSTINE E. Detecting overlapping communities by seed community in weighted complex networks[J]. Physica A, 2013, 23(392): 6125-6134.[13] CHEN D, SHANG M, LYU Z, et al. Detecting overlapping communities of weighted networks via a local algorithm[J]. Physica A: Statistical Mechanics and Its Applications, 2010, 389(19): 4177-4187.[14] 乔秀全,杨春,李晓峰,等. 社交网络服务中一种基于用户上下文的信任度计算方法[J]. 计算机学报, 2011, 34(12): 2403-2413.[15] 鹿静,徐勇,安丽平. 基于节点相似度的加权网络社团结构划分算法[J]. 信息与控制, 2012,4(41): 504-508.[16] 吕天阳,谢文艳,郑伟民,等. 加权复杂网络社团结构的评价指标及其发现算法分析[J].物理学报, 2012, 21(61): 1-10.[17] NEWMAN M E J. Finding community structure in networks using the eigenvectors of matrices[J]. Physical Review E, 2006, 74(3): 1-22.。
基于兴趣相似度的社区结构发现算法研究

基于兴趣相似度的社区结构发现算法研究
韩瑞凯;孟嗣仪;刘云;郭英慧;张彦超
【期刊名称】《铁路计算机应用》
【年(卷),期】2010(019)010
【摘要】复杂网络通常会呈现出社区结构特性,如何在实际网络中高效地发现社区结构是近年来复杂网络的研究热点之一.到目前为止,已经提出很多分析复杂网络社区结构的算法.但是大部分算法基于无权网络并且有些算法由于其时间复杂度的过高导致其不适合应用于对大型网络的分析.本文提出一种基于兴趣相似度的社区结构发现算法.该算法适用于加权网络,并且降低时间复杂度.
【总页数】5页(P10-14)
【作者】韩瑞凯;孟嗣仪;刘云;郭英慧;张彦超
【作者单位】北京交通大学,通信与信息系统北京市重点实验室,北京,100044;北京交通大学,通信与信息系统北京市重点实验室,北京,100044;北京交通大学,通信与信息系统北京市重点实验室,北京,100044;北京交通大学,通信与信息系统北京市重点实验室,北京,100044;北京交通大学,通信与信息系统北京市重点实验室,北
京,100044
【正文语种】中文
【中图分类】TP393
【相关文献】
1.基于用户多属性加权和兴趣相似度的协同过滤算法研究 [J], 罗海媛;章牧
2.基于节点相似度的社团发现算法研究 [J], 张若昕;柴丹炜;熊小峰;刘建生;乐光学
3.基于连边相似度的重叠社区发现算法研究 [J], 施伟;傅鹤岗;张程
4.一种基于社区结构的用户兴趣关联规则发现方法 [J], 邓智龙;张海粟;黄立威
5.基于内容相似度的社区发现算法研究 [J], 钟磊
因版权原因,仅展示原文概要,查看原文内容请购买。
异质网络中重叠社区发现技术研究

异质网络中重叠社区发现技术研究异质网络中重叠社区发现技术研究随着互联网的快速发展和大数据时代的到来,人们日益意识到网络中存在大量的潜在信息和关系。
网络社区是复杂网络中的一个重要概念,通过研究网络社区可以帮助人们更好地理解网络结构、推断用户行为和进行信息检索等。
然而,传统的社区发现算法在面对异质网络时会面临诸多挑战。
异质网络指的是网络中包含多种类型的节点和边,例如社交网络中既有人与人之间的关系,又有人与组织之间的关系。
这些不同类型之间的关联关系使得网络的复杂性增加,传统算法往往难以有效地挖掘其中的特征。
在异质网络中,重叠社区是指一个节点可以同时属于多个社区的现象。
相较于传统的非重叠社区,重叠社区更能真实地反映网络中节点之间的复杂关系。
因此,在异质网络中发现重叠社区成为了一个热门的研究方向。
为了解决异质网络中的重叠社区发现问题,学者们提出了多种算法和方法。
下面将介绍几种常见的技术研究。
1. 基于网络结构的方法:这类方法主要基于节点和边之间的关系来进行重叠社区发现。
例如,基于模块化最大化的方法将网络社区发现问题转化为一个优化问题,并通过最大化模块化指标来划分社区。
该方法非常灵活,可以应用于不同类型的网络,但是在面对复杂的异质网络时,算法的效果可能不够理想。
2. 基于属性的方法:这类方法主要利用节点的属性信息来推断其所属的社区。
例如,使用属性相似度来度量节点之间的相似度,然后通过聚类算法将相似的节点分到一起。
这种方法常用于社交网络中,可以更好地反映节点的兴趣、职业等特征。
然而,属性信息往往不完整或者存在噪声,在实际应用中可能会导致精度降低。
3. 基于深度学习的方法:近年来,随着深度学习技术的发展,越来越多的学者开始将其应用于重叠社区发现任务中。
深度学习模型可以自动地从数据中学习特征表示,从而更好地挖掘网络中的潜在信息。
例如,基于图卷积神经网络的方法可以在网络中同时考虑结构和属性信息,从而更准确地发现重叠社区。
基于SLPA优化的重叠社区发现算法

第38卷第1期2021年1月计算机应用与软件Computer Applications and SoftwareVol.38 No.1Jan.2021基于SLPA优化的重叠社区发现算法陈界全1王占全〃李真2汤敏伟21(华东理工大学信息科学与工程学院上海200237)2(天翼电子商务有限公司风险管理部上海200080)摘要传统的重叠社区发现算法S L P A虽然具有时间复杂度和性能上的优势,但标签传播算法内在的随机 策略使得算法结果并不稳定。
针对S L P A的缺点,提出一种高效稳定的重叠社区发现算法L-S L P A。
先对网络进 行非重叠划分,减少不同标签分配的数量,同时加入边界节点的考虑进行剪枝,以提高运行速度。
实验结果表明,相比于S L P A,该算法在降低运行时间和随机性的同时保证了结果的准确性。
关键词复杂网络社区发现重叠社区中图分类号T P301.6 文献标志码A D O I:10.3969/j.issn.1000-386x.2021.01.050AN IMPROVED OVERLAPPING COMMUNITY DETECTIONALGORITHM BASED ON SLPAChen Jie q u a n1W ang Z h an qu an1*L i Z hen2T ang M in w e i21(School o f Inform ation Science and Engineering,East China University o f Science and Technology,Shanghai200237, C hina)2(R isk Management Department,Bestpay Co. ,Ltd. ,Shanghai200080 ,C hina)A b s tr a c t As a tra d itio n a l o ve rla pping co m m u nity detection a lgo rithm,SLP A has the advantages o f tim e co m p le xity and pe rfo rm an ce.H ow ever,its results are unstable due to the in h e re n t random strategy o f la b e l pro F or the purpose o f addressing the shortcom ings o f SLP A,we propose an e ffic ie n t and stable ove rla pping com m u nity detection alg o rith m L-S L P A.The netw ork was p re lim in a rily d iv id e d in to n o n-o ve rla p p in g com m unities to reduce the nu m be r o f d iffe re n t la b e l assignm ents.M ea nw hile,we pruned the alg o rith m w ith the consideration o f boundary nodes to im prove the ru n n in g speed o f the a lg o rith m.The exp erim e ntal r esults show that com pared w ith S LP A,L-S t e ru n n in g tim e and random ness w h ile en suring the accuracy o f the re su lts.K e y w o rd s Com plex netw orks C om m unity detection O verla pp ing com m u nity〇引言社区检测是一种在网络中探索集群或社区的行 为。
基于图熵聚类的重叠社区发现算法

基于图熵聚类的重叠社区发现算法
施欢欢;印安涛
【期刊名称】《无线互联科技》
【年(卷),期】2016(000)013
【摘要】图聚类算法是数据挖掘和复杂网络研究中的一个关键环节。
基于密度、层次划分的方法已经被广泛应用于流行病学、新陈代谢和科学引文写作中。
尽管上述的聚类方法适用于复杂网络的社区发现,但精度受到限制,其中一个最大的挑战是重叠社区的生成。
为填补这一缺口,提出了一种利用图熵搜索局部最优的聚类方法。
与传统的基于密度的种子生长式方法不同,在每一次迭代中,引入图熵来衡量图结构的模块度,并为种子的选择提供了随机选择、基于节点的度和基于节点的聚类系数3种方案。
经过自下而上迭代的聚类,引入准确率和召回率等评价指标评估聚类结果的精确度,证明了算法的有效性。
【总页数】5页(P98-101,116)
【作者】施欢欢;印安涛
【作者单位】南京财经大学信息工程学院,江苏南京 210046;南京财经大学信息工程学院,江苏南京 210046
【正文语种】中文
【相关文献】
1.基于局部语义聚类的语义重叠社区发现算法 [J], 辛宇;杨静;汤楚蘅;葛斯乔
2.基于链接密度聚类的重叠社区发现算法 [J], 朱牧;孟凡荣;周勇
3.基于边密度聚类的重叠社区发现算法 [J], 郭昆;陈而宝;郭文忠
4.基于二阶段聚类的重叠社区发现算法 [J], 蒋盛益;杨博泓;李敏敏;吴美玲;王连喜
5.Hadoop下基于边聚类的重叠社区发现算法研究 [J], 方木云;刘洪彬;谢恩文因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
之间相似度的基础上提出了连边之间相似度的计算方法; 再按照相似度由小到大对边图删除边,构建出边图的
树状图。树状图的每一层对应网络的一个划分,采用划分密度函数来衡量划分的质量,以此寻找最优的划分。
最后将算法应用到 Zachary 空手道俱乐部网络中,并与 GN 算法进行对比,实验结果表明 EGN 算法能够很好地发
现实世界中许多复杂的系统都可以抽象为网络,如人际关 系网[1]、科学家合 作 网[2]、流 行 病 传 播 网[3]、蛋 白 质 相 互 合 作 网[4]等。这些网络具有复杂的内部结构,因此称为复杂网络。 通常复杂网络中用节点来表示个体,节点之间的连边表示个体 之间的关系。对于人际关系网来说,研究不同的人在社会上的 交际圈,可以概括出社会的组成,对社会的发展提供强有力的 参照。对于疾病传播网来说,研究疾病如何进行传播以及网络 结构本身具有的内在性质,对于控制疾病的传播具有很重要的 作用。因此复杂网络研究具有很重要的现实意义。近年来对 众多实际网络的研究发现,它们存在一个共同的特征,称为社 区结构。它是指网络由若干个群或团组成,每个群的内部节点 之间连接相 对 紧 密,而 不 同 群 之 间 节 点 的 连 接 比 较 稀 疏[5]。 社区发现近年来成为研究者所关注的焦点,发现社区的不同结 构,对于了解网络结构和分析网络特征具有重要意义。
现重叠社区。
关键词: 社区发现; 重叠社区; 相似度; 划分密度
中图分类号: TP393; TP301. 6
文献标志码: A
Hale Waihona Puke 文章编号: 1001-3695( 2013) 01-0221-03
doi: 10. 3969 / j. issn. 1001-3695. 2013. 01. 056
Overlapping communities detecting based on similarity of edge
连边相似度划分连边集的重叠社区发现算法 EGN。算法依据网络图的连边集进行划分,每一条边被划分到某个
特定的社区,而一个节点可以关联多条连边,因此节点可以被划分到不同的社区,从而发现重叠社区。EGN 算法
首先需要构造网络节点之间连边关系的边图; 然后根据边图中节点的关系计算网络图中连边的相似度,在节点
SHI Wei,FU He-gang,ZHANG Cheng
( College of Computer Science,Chongqing University,Chongqing 400044,China)
Abstract: To void GN alorithm’s problem and reduce the computational complexity,this paper proposed a new algorithm called EGN which based on the partition of edges in network. According to the partition of edges,each edge would be partitioned to an independent community,consequently nodes could be partitioned to multiple communities. It could detect the overlapping community in networks at last. Line graph would be constructed before using EGN algorithm which based on the relationship of nodes in network. And after that,the algorithm calculated the similarity of edges in network. It proposed the method of calculation of edge similarity which based on the similarity of node,and then constructed dendrogram of line graph in the whole process at last. Each layer of the dendrogram was related to the partition of networks. Through dividing the dendrogram in one layer,it detected the communities. It used a function of partition density to measure the capability of partition. At last,it applied this algorithm in the Zachary’s Karate Club network,and compared with GN algorithm. The results of experiment show that the EGN algorithm is able to detect overlapping communities very well. Key words: community detection; overlapping communities; similarity; partition density
第 30 卷第 1 期 2013 年 1 月
计算机应用研究 Application Research of Computers
Vol. 30 No. 1 Jan. 2013
基于连边相似度的重叠社区发现算法研究*
施 伟,傅鹤岗,张 程
( 重庆大学 计算机学院,重庆 400044)
摘 要: 针对 GN 算法在发现重叠社区时存在的不足,以及为了降低算法时间复杂度,提出一种基于网络图中