基于最短路径特征的社团发现算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
* 收稿日期:2016-04-20; 修回日期:2016-07-19
藏的社团对研究网络的结构属性具有重要意义。现 实世界中,如广泛使用的 Email 网络、万维网、遍 及全球的 Internet、生物系统中的蛋白质网络、社 交网络以及无线 mesh 网络 [2-3] 等,都属于复杂网络
Received date:2016-04-20;Revised date:2016-07-19
系数的定义。 1.1 最短路径特征
基于最短路径特征的启发,定义了两种不同的 概念:一种是最短路径的数目特征;另一种是最短 路径的长度特征。其中,最短路径的数目特征应用 于计算中介系数,而最短路径的长度特征则应用于 获取节点的相似度。 1.2 中介系数 定义节点影响力的中介系数:
Bi
n 1 n 2 / 2

2

(5)
式中,Ii 表示第 i 个社团内部边的数目,Di 表 示第 i 个社团中节点的度之和。 3.2 LFR 人工合成网络
SPCDA 算法的主要时间开销包括计算网络中每 个节点的中介系数值 Bi 和计算网络中所有节点对的 相似度值 S( j,k)。其中,计算网络中 n 个节点的中介 系数值 Bi,有 n 个网络节点,且每一个节点都要匹 配成节点对,则需要循环 n C 次,所以这部分的 时间复杂度是O[ n ( n1)( n2)/2] ;然后,计算节点对的相 1 似度,网络中有 n 个节点,则需要循环 n Cn 次,因
(1. 江西理工大学 理学院,江西 赣州 341000; 2. 嘉兴学院 数理与信息工程学院,浙江 嘉兴 314000)
摘 要:为了准确快速地挖掘社团结构,提出基于最短路径特征的社团发现算法 SPCDA(Shortest Path feature community discovery algorithm)。该算法是基于最短路径特征的启发,根据最短路径数 目的特征计算每个节点的中介系数而获取社团中心,并由其长度的特征计算节点之间的相似度值。 然后,取所有节点的平均相似度值作为划分社团的阈值,构成类似于聚类的模型。最后,将与社 团中心的相似度值大于阈值的节点进行归类,按照此过程不断迭代,至节点集为空。将该算法应 用于人工合成网络和两个经典的真实社会网络,并与 GN 算法和 LPA 算法进行比较,结果证明 SPCDA 算法能够准确、快速地挖掘隐藏的社团结构。 关键词:社团结构;最短路径;中介系数;相似度 中图分类号:TP301.6 文献标志码:A 文章编号:1002-0802(2016)-08-01034-07
·1034·
第 49 卷
杨艳新,熊小峰,乐光学:基于最短路径特征的社团发现算法
第8期
的范畴。挖掘复杂网络潜在的社团结构,对于舆情 控制、预防病毒传播、对未知生物功能的预测 [4-6] 等重要重大。 节点特征属性的复杂性、网络拓扑结构的复 杂性、节点与结构之间的相互影响以及网络之间的 相互影响,这都是复杂网络的复杂性所在。复杂网 络中的社团结构体现在社团内部的节点连接相对紧 密,社团之间的节点连接相对稀疏 [7]。 近年来,复杂网络中社团的挖掘得到了不少专 家学者的关注。其中,采用层次聚类 [8] 是一种典型 的社团挖掘算法。该算法包括分裂式层次聚类和聚 合式层次聚类两种,最具代表性的分裂式层次聚类 算法为 GN 算法 [9]。由美国密歇根大学的 Girvan 等人 提出的基于边介数 [10] 的社团发现算法,则包括最短 路径边介数、 随机游走边边介数以及电流边边介数。 随后,由密歇根大学的 Newman 等人提出了社团划 分质量函数 - 模块度 [11] 度量,根据检测模块度函数 值大小来选取最佳的社团结构。另外,Newman 在已 有算法的基础上提出了一种快速社团发现算法—— Newman 算法 [12]。该算法属于聚合式层次聚类算法, 算法起初把网络中每一个节点作为一个独立的社团, 每次选择两个能使模块度函数值 Q 增加最大的社团 进行合并,直至 Q 值不再增加为止。 此 外,Raghavan 等 人 [13] 提 出 了 一 种 简 单 快 速 的 标 签 传 播 算 法(Label Propagation Algorithm, [14] LPA) 。 该算法具有近乎线性的时间和空间复杂度。 Blondel 则提出了一种基于贪婪层次聚类的 BGLL 算 法 [15],该算法基于局部模块度最优化思想。还有研 究者提出了多种不同的社团结构划分算法 [16],如谱 方法 [17]、FN 算法 [18] 等。 本文提出一种基于最短路径特征,根据最短 路径数目的特征计算每个节点的中介系数而获取社 团中心,根据最短路径长度的特征计算节点之间的 相似度值,取所有节点的平均相似度值 [19] 作为划 分社团的阈值,以构成类似于聚类 [20] 的模型,最 后将与社团中心的相似度值大于阈值的节点进行归 类,按照此过程不断迭代,至节点集为空。最后, 采用标准化互信息(Normalized Mutual Information, NMI)[21] 和模块度(Modularity)[22] 检测社团结构的 紧密性。
n 1 n 2
2
Fra Baidu bibliotek
表示所有网络节点
对的最短路径中可能经过节点 i 的最短路径数目最 大值。 1.3 节点相似度 定义网络节点的相似度:
S j , k 1
1
i j k
d
n
ji
d ki
2
(2)
式中,dji、dki 为节点 j、k 到节点 i 的最短路径 长度(连接边数),S( j,k) 的取值域为(0,1]。 1.4 划分阈值 定义社团结构划分的阈值:
Community Discovery Algorithm based on Shortest Path Feature
(1.School of Science, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000,China;
第 49 卷 第 8 期 2016 年 8 月
通信技术 Communications Technology
Vol.49 No.8 Aug.2016
doi:10.3969/j.issn.1002-0802.2016.08.015
基于最短路径特征的社团发现算法 *
杨艳新 1,2,熊小峰 1,乐光学 1,2
YANG Yan-xin1,2, XIONG Xiao-feng1, YUE Guang-xue1,2
Abstract: For quickly and accurately mining community structure the community discovery algorithm SPCDA(Shortest Path feature community discovery algorithm) based on the shortest path feature is proposed. This algorithm, based on the enlightenment of shortest path feature and the number of shortest path, calculates the intermidiary coefficient of each node and captures the community center, and in accordance with the shortest path calculates the similarity of between the nodes, then taking the average similarity of all nodes as the threshold value for dividing social community,constructs a model similar to clustering, and finally the community centers with the similarity value greater than the threshold value of the node are classified, and the algorithm continues this iterative process until the node set becomes empty. The algorithm is applied to the artificially synthetic networks and two classic real social networks. Comparison with GN algorithm and LPA algorithm, indicates that SPCDA algorithm could more accurately and quickly mine the hidden community structure. Key words: community structure; shortest path; intermediary coefficient; similarity
i j k

q ijk p jk
(1)
式中,pjk 表示节点 j 和节点 k 之间的最短路径 数目,pijk 表示节点 j 到节点 k 之间的 pjk 条最短路 径中经过节点 i 的最短路径数目, 最短路径数目, Cn1
2
i j k

q ijk
p jk 表示网络
节点集内每对节点的最短路径中实际经过节点 i 的
www.txjszz.com
通信技术
2016 年
络中每一个节点的中介系数, 并由大到小进行排序。 通过比较网络中任意两个节点到另外某一个节点的 最短路径长度差值,来判断这两个节点的相似度。 按照聚类的思想,计算节点对的平均相似度值进行 社团结构的划分。 2.2 算法主要步骤
3.1.1
标准化互信息 NMI 标准化互信息 NMI[21] 定义如下:
NMI A, B 2 I A, B H A H B
(4)
(1)由式(1)计算网络中每个节点的中介系 数值 Bi,并降序排列存储于一维数组 B[] 中。 (2)根据式(2)获取网络中所有节点对的相 似度值 S( j,k),并存入相似度矩阵 S 中。 (3)按照式(3)求出社团结构的划分阈值 λ。 (4)取一维数组 B[] 中最大元素所对应的节点 作为社团中心。 (5)取网络中所有与该社团中心的相似度值 大于阈值 λ 的节点并加入到该社团,最后在网络节 点集中删除这些节点。 (6)判断网络节点集是否为空,如果为空, 则算法结束;否则重复步骤(4)至步骤(6)。 2.3 算法时间复杂度分析
2.College of Mathematic Physics and Information Engineering, Jiaxing University, Jiaxing Zhejiang 314000,China)
0
引 言
随着经济的高速发展,信息技术日新月异,网 络使用更加广泛,信息交流渠道变得多样化,社交 环境也愈加复杂化。因此,从复杂网络 [1] 中挖掘隐
式中,A、B 分别表示真实的社团集合和通过 算法划分得到的社团结果,I(A,B) 是 A、B 两个向 量的交互信息,H(A) 和 H(B) 分别表示 A 向量和 B 向量的标准熵。 3.1.2 模块度函数 模块度 [22] 函数定义如下:
Nc
Q I i / m Di / 2m
i 1

S
j k
j ,k
n n 1 / 2
(3)
n n 1 为网络 2
式中,( j,k) 为网络节点对, Cn2 中所有节点对的数目。
2
2.1
算法描述
基本思想
1
基本概念
为了研究复杂网络的结构属性,定义了最短路 径特征、相似度和划分阈值等概念,并提出了中介
通过网络中某个节点的最短路径数目来刻画节 点在网络拓扑结构中的重要性和影响力,计算出网 ·1035·
相关文档
最新文档