一种基于派系过滤的社区进化发现研究

合集下载

基于改进小生境粒子群的社区发现算法

基于改进小生境粒子群的社区发现算法

基于改进小生境粒子群的社区发现算法近年来,粒子群算法(Particle Swarm Optimization, PSO)在社区发现问题上取得了一定的应用成果。

然而,传统的PSO算法在解决社区发现问题时存在一些不足之处,如易陷入局部最优、收敛速度慢等。

因此,改进小生境粒子群算法成为了一种有效的社区发现方法。

改进小生境粒子群算法(Improved Niching Particle Swarm Optimization, INPSO)是在传统PSO算法的基础上引入了小生境技术,并结合了改进的邻域策略。

INPSO通过设置合适的惯性权重、社会学习因子和认知学习因子,提高了个体的探索能力和传递信息的能力,从而增强了算法的全局能力。

具体来说,INPSO的社区发现算法可以分为以下步骤:2.初始化种群:根据网络的节点数目初始化一定数量的粒子,每个粒子代表一个可能的社区划分。

3.适应度计算:对每个粒子进行适应度的评估,评估标准可以是划分后的模块度、模块性、连通性等。

4.更新速度和位置:根据惯性权重、社会学习因子和认知学习因子,更新每个粒子的速度和位置。

5.小生境处理:通过引入小生境技术,对最优个体进行保护,防止被其他个体所替代。

6.判断停止条件:设定适当的停止条件,如迭代次数达到上限或适应度到达一定阈值。

7.输出结果:输出最优的社区划分结果。

通过上述步骤,INPSO算法能够较好地解决社区发现问题。

相比于传统的PSO算法,INPSO在探索解空间和克服局部最优方面具有一定的优势。

同时,INPSO还利用邻域策略,增强了算法的全局能力,提高了社区发现的准确性和效率。

最后,需要指出的是,社区发现是一个复杂且开放的研究领域,目前还存在很多挑战和待解决的问题。

虽然INPSO在社区发现上取得了一定的成果,并且在一些实际应用中表现出了良好的性能,但还需要更多的研究和改进,以满足不同场景下的需求。

基于图神经网络的社区发现方法研究

基于图神经网络的社区发现方法研究

基于图神经网络的社区发现方法研究社区发现是复杂网络分析中的一个重要问题,它旨在识别网络中具有紧密连接的节点子集,这些子集在网络中相互连接紧密,而在网络之外连接较松散。

社区发现方法在社交网络分析、生物信息学和推荐系统等领域具有广泛的应用。

近年来,随着图神经网络的发展,基于图神经网络的社区发现方法成为研究的热点。

图神经网络是一种能够学习节点表示的深度学习模型,它能够将节点的结构信息和属性信息进行融合,从而更好地表征网络的拓扑结构。

在基于图神经网络的社区发现方法中,首先需要构建图模型,将网络中的节点和边转换为图中的节点和边。

然后,通过图神经网络模型学习节点的表示,将节点的结构信息和属性信息进行融合。

最后,利用学习到的节点表示,通过聚类算法将节点划分到不同的社区中。

基于图神经网络的社区发现方法相比传统的基于模块度的方法具有以下优势。

首先,图神经网络能够更好地学习节点的表示,能够捕捉到节点之间的复杂关系,而传统方法只能基于节点的度量进行划分。

其次,图神经网络能够利用节点的属性信息,对网络进行更准确的划分。

传统方法只能基于节点的拓扑结构进行划分,无法利用节点的属性信息。

最后,基于图神经网络的方法能够处理大规模网络,具有较好的可扩展性。

然而,基于图神经网络的社区发现方法仍然存在一些挑战。

首先,图神经网络的训练时间较长,需要大量的计算资源。

其次,图神经网络的模型参数较多,容易过拟合。

此外,图神经网络的结果解释性较差,难以解释社区划分的原因。

综上所述,基于图神经网络的社区发现方法在复杂网络分析中具有广泛的应用前景。

未来的研究可以进一步改进图神经网络的训练效率和模型参数,提高方法的可解释性,以应对不同领域中的社区发现问题。

基于分层聚类算法的社区检测和发现技术研究

基于分层聚类算法的社区检测和发现技术研究

基于分层聚类算法的社区检测和发现技术研究社区检测是网络科学中一种重要的技术,它可用于分析和理解各类网络结构,如社交网络、物流网络和互联网等。

社区检测的目的是将网络中的节点分组,让同一组内的节点密切相关,而组与组之间的相关性较小。

这样,社区内部可以形成相对独立的子网络,社区之间可以形成相对疏离的网络结构。

目前,基于分层聚类算法的社区检测技术正在成为社区发现领域中的一颗新星。

分层聚类算法是一种基于相似度的聚类算法,它的基本思想是如下:首先把样本集中的每个样本视为一个初始聚类,然后通过不断合并距离最近的两个聚类,逐步地形成一颗聚类树,最后通过截断聚类树来确定最终的聚类结果。

其中,距离的计算是分层聚类算法中一个关键的问题,常见的距离度量包括欧几里得距离、曼哈顿距离和马氏距离等。

在社区检测中,分层聚类算法的基本流程大致如下:首先定义相似度度量,通常使用余弦相似度或皮尔逊相关系数等;然后使用分层聚类算法得到聚类树,通常使用UPGMA算法或WPGMA算法等;最后根据聚类树的划分结果选择合适的聚类水平,即截断聚类树,形成最终的社区结果。

在实际应用中,分层聚类算法还可以结合其他算法来提高社区检测的准确率和效率。

例如,可以使用布谷鸟算法优化聚类树的形态;可以使用模拟退火算法寻找最优的截断位置;可以使用BFS算法加速网络的遍历和社区划分等。

基于分层聚类算法的社区检测技术在实际应用中有着广泛的应用。

例如,在社交网络中,可以根据用户之间的关注关系、粉丝关系和共同兴趣等信息来发现用户之间的社区;在物流网络中,可以根据物品之间的运输关系和位置关系来发现物品之间的流动规律和瓶颈点;在互联网中,可以根据网页之间的链接关系来发现不同主题之间的联系和依赖关系等。

此外,基于分层聚类算法的社区检测技术还可以应用于社区发现、推荐系统、媒体传播等领域。

然而,基于分层聚类算法的社区检测技术也存在一些问题和挑战。

首先,分层聚类算法对于大规模网络的处理效率较低,需要通过优化算法和并行计算等方式来提高效率。

基于Node2Vec的重叠社区发现算法

基于Node2Vec的重叠社区发现算法

基于Node2Vec 的重叠社区发现算法①陈 卓, 姜 鹏, 袁玺明(青岛科技大学 信息科学技术学院, 青岛 266061)通讯作者: 姜 鹏摘 要: 针对目前基于种子节点选择的社区发现算法在准确性和复杂度等方面存在的不足, 提出了一种基于Node2Vec 的重叠社区发现算法. 首先, 使用Node2Vec 算法学习到网络中每个节点的向量表示, 用以计算节点间的相似度, 其次, 利用节点影响力函数计算节点影响力并找出种子节点, 然后基于每个种子节点进行社区的扩展优化,最终挖掘出高质量的重叠社区结构. 本文选取多个真实网络进行了对比实验, 结果表明, 本文所提出的算法能够在保证良好稳定性的前提下发现高质量的社区结构.关键词: Node2Vec; 重叠社区发现; 节点影响力; 种子节点; 社区扩展引用格式: 陈卓,姜鹏,袁玺明.基于Node2Vec 的重叠社区发现算法.计算机系统应用,2020,29(11):163–167. /1003-3254/7658.htmlOverlapping Community Discovery Algorithm Based on Node2VecCHEN Zhuo, JIANG Peng, YUAN Xi-Ming(College of Information Science and Technology, Qingdao University of Science and Technology, Qingdao 266061, China)Abstract : In view of the shortcomings in accuracy and complexity of community discovery algorithm based on seed node selection, a Node2Vec overlapping community discovery algorithm is proposed. First, the vector representation of each node in the network is learned by using Node2Vec algorithm to calculate the similarity between nodes. Second, the node influence function is used to calculate the node influence and find out the seed node. Then the community extension optimization is carried out based on each seed node. Finally the high quality overlapping community structure is excavated. In this study, several real networks are selected for comparative experiments, and the results show that the proposed algorithm can find high quality community structures under the premise of ensuring sound stability.Key words : Node2Vec; overlapping community discovery; node influence; seed node; community expansion现实世界中的很多系统都可以被抽象为复杂网络,如社交网络、技术网络、生物网络, 这些网络都具有一种普遍的特性——社区结构. 在不同类型的网络中,社区有着不同的含义, 但是所有社区内部节点间的联系总是比不同社区节点间的联系密切, 准确地发现社区结构是在中观层面上理解复杂网络进而研究复杂系统的有效途径.社区发现的研究历史可以追溯到1927年, Rice 等基于投票模式的相似性发现小的政治团体中的社区[1]. 早期的研究工作大部分都围绕非重叠社区发现展开, 此类算法将复杂网络划分成若干个互不相连的社区结构且一个节点只能隶属于一个社区[2]. 然而, 现实中网络社区之间往往是相互重叠的, 硬划分的社区发现算法无法满足需求, 例如, 在社交网络中, 如果每个社区代表拥有共同兴趣爱好的用户所组成的群体, 则一个用户可以拥有诸多兴趣爱好而隶属于多个社区,计算机系统应用 ISSN 1003-3254, CODEN CSAOBNE-mail: Computer Systems & Applications,2020,29(11):163−167 [doi: 10.15888/ki.csa.007658] ©中国科学院软件研究所版权所有.Tel: +86-10-62661041① 基金项目: 国家自然科学基金(F030810); 山东省重点研发计划(2018GGX101052)Foundation item: National Natural Science Foundation of China (F030810); Key Research and Development Program of Shandong Province (2018GGX101052)收稿时间: 2020-03-12; 修改时间: 2020-04-12, 2020-04-29; 采用时间: 2020-05-10; csa 在线出版时间: 2020-10-29163显然, 重叠的社区结构更能体现出复杂网络的特性, 进而帮助我们从中观层面对复杂系统进行分析.对复杂网络中重叠社区的发现与研究也因此成为近年来新的研究热点, 而社区发现作为社区分析相关工作的前提, 对于其他领域的研究有着重要影响. 目前,重叠社区的发现结果可以被应用于情感分析、个性化推荐、实体消歧和链接预测等领域的研究.1 相关工作近年来, 学者们相继提出大量能够识别重叠社区的算法. Palla等提出一种基于最大团的派系过滤算法CPM来分析重叠的社区结构[3], 该算法易受k值影响,且以最大团为种子的方式计算复杂度较高. COPRA算法[4]对基于标签传播的非重叠社区发现算法进行改进,在标签后面附上节点对该标签的归属系数, 以便衡量该节点包含多个社区的信息比重, 在迭代更新节点标签的过程中允许一个节点同时拥有多个标签, 以发现网络中的重叠社区, 该算法每次迭代的时间复杂度接近线性但稳定度较差. 基于链路的重叠社区发现算法首先对网络的边进行聚类, 然后通过收集链路社区内的所有连接的节点进行社区划分, 代表算法为LINK 算法[5]. 在此基础上, Li等[6]提出一种基因表示模型,通过将链路社区映射成节点社区的方式, 实现对重叠节点的发现. 基于局部社区优化和扩展的方法则从局部社区出发, 基于优化函数进行扩张, 社区间的交叉部分则为重叠节点, 代表算法为LFM算法[7], 除此之外, Su等[8]提出利用随机游走策略扩展优化的方法. 文献[9]在此基础上提出基于种子节点选择的重叠社区发现算法, 首先通过定义的影响力函数选取种子节点, 然后通过吸引力函数以种子节点为核心进行扩展, 发现种子所在的局部社区结构. 其中, 基于种子节点选择和扩展的算法由于稳定性好、效率高而成为主流的社区发现算法. Wang等[10]提出一种基于结构中心性的种子选择算法, 实现了一个高覆盖率的朴实算法, 提高了社区发现质量, 但算法不能很好地适用于大规模数据集. 於志勇等提出的i-SEOCD算法能够高效地从种子节点出发进行局部扩展, 最终发现稳定的重叠社区[11], 但是该算法在计算节点相似度时只考虑了局部网络, 提高算法执行效率的同时也牺牲了算法准确性.现有基于种子节点扩展的重叠社区发现算法虽然在稳定性方面表现较好, 但在衡量两节点间关系时, 往往将两节点间是否有连边作为唯一判别标准, 而只考虑狭小作用域范围内的局部信息的做法, 虽然提升了社区发现的效率, 但忽略了网络中更大范围内节点和边因素对社区发现过程的影响, 使得算法在提升效率的同时往往以牺牲部分准确性为代价. 同时, 现有算法在基于种子节点进行社区扩展的过程中, 往往需要不断地迭代计算现有社区与未划分节点间的相似性关系,计算量大, 不适合进行大规模网络的社区发现.为了更好地解决以上问题, 本文利用Node2Vec[12]算法对网络结构进行学习, 通过控制在游走产生节点序列过程中对深度优先和广度优先的趋向, 将更大范围内的拓扑结构信息体现到节点因素中, 提出了基于Node2Vec的重叠社区发现算法, 该算法能够解决现有算法存在的以牺牲准确性来提高效率和不适合大规模数据集的问题.2 基于Node2Vec的重叠社区发现算法针对以Jaccard相似度为指标衡量节点间距离的方法所存在的局限性, 本文采用网络表示学习算法学习到网络中每个节点的向量表示, 针对传统种子节点选择方法稳定性和鲁棒性差的缺点, 提出了新的种子节点选择算法, 并以此为基础进行社区扩张和优化. 2.1 Node2Vec算法Perozzi等[13]提出了将Word2Vec的思想用于图节点表示学习的Deepwalk算法, Node2Vec在此的基础上改变了随机游走的序列生成方式, 通过半监督的方式学习p, q两个超参数的值, 控制游走对深度和广度的趋向, 其中p控制跳向前节点邻居的概率, q控制跳向前节点非邻居的概率, 如图1所示.x1x3x2tVα=1α=1/qα=1/qα=1/q图1 随机游走过程图q>1x1p>1x2x3图1中, 时, 趋向于遍历临近t节点的节点,即趋向于BFS; 时, 趋向于遍历临近t节点的或节点, 即趋向于DFS. 在确定要遍历的邻居节点之后,采用skip-gram模型进行训练进而获得节点的向量表示.u v在进行种子节点发现前, 首先利用Node2Vec算法对网络结构进行学习, 在学习到网络中每个节点的向量表示后, 对于任意节点和, 可利用算法内置的相似计算机系统应用2020 年 第 29 卷 第 11 期164sim (u ,v )A n ×n A uv u v 1−sim (u ,v )度计算工具计算其在高维空间中的相似度, 其取值范围为0~1, 通过该方式进一步计算网络中任意节点之间的相似度, 并用相似度矩阵表示整个网络中节点间的相似度信息, 其中表示节点和之间的相似度, 进而可以用来表示节点间的相异度.2.2 种子节点选择算法G =(V ,E )通常, 一个网络可以用无向图表示, 其中V 表示图中n 个节点的集合, E 表示图中m 条边的集合.在网络中, 节点u 的邻居集合N(u)定义如下:N (u )={u :v ∈V ,(u ,v )∈E }(1)节点u 对节点v 的影响力用F(u,v)表示如下:F (u ,v )=D (u )D (v )(1−sim (u ,v ))2(2)sim (u ,v )1−sim (u ,v )其中, D (u )和D (v )分别表示节点u 和v 的度, 表示u , v 节点的相似度, 可通过Node2Vec 生成的节点向量计算得到, 表示为两节点间的距离, 距离越远, u 对v 的影响力越小.节点u 的影响力值通过以下公式计算得到:F (u )=∑v ∈N (u )D (u )D (v )(1−sim (u ,v ))2(3)节点影响力的大小与其邻居节点的数量、度数以及相异度有关, 影响力越大, 节点越有机会成为种子节点.在种子节点选择算法中, 首先根据节点的向量计算所有节点的影响力值, 如果某节点的影响力值比其所有邻居节点的影响力值都大, 则将该节点加入到种子节点的集合中. 算法1中列出了种子节点选择算法的伪代码, 其中2–4行利用定义的节点影响力计算公式计算出每个几点的影响力值, 5–9行将每个节点的影响力值与其所有邻居的影响力值进行比较, 若邻居节点中没有比当前节点影响力值大的节点, 则将该节点加入到种子节点集合中.算法1. 种子节点选择算法G =(V ,E )A n ×n 输入: 无向图; 相似度矩阵.输出: 种子节点集合S.S ←∅1. u ∈V2. for do3. 利用式(3)计算F(u)4. end for ∈5. for u V do∀v ∈N (u )F (u )≥F (v )6. if and S ←S ∪u 7. 8. end if 9. end for 10. return S2.3 社区扩展算法ε针对现有算法在社区扩张过程中重复计算量大的问题, 本文在得到分布均匀、影响力大的种子节点之后, 充分利用前一阶段计算所得的节点相似度矩阵, 从每个种子节点出发进行社区扩展, 首先, 以集合中的每个种子节点为核心构建社区, 若节点与种子节点的相似度大于阈值, 则将该节点划入该种子节点所属的社区, 然后, 对于尚未被划分的节点, 比较其与各个种子节点的相似度, 选取与之最相似的种子节点, 加入其所在社区, 最终完成社区的划分.εε算法2中列出了社区扩展算法的伪代码, 2–4行首先将所有节点标记为false, 5–13行分别以每个种子节点为核心进行社区扩展, 并将被划分的节点标记为true,此过程中以各节点为核心的社区独立进行扩展, 能够很好地根据阈值的大小控制重叠节点的规模, 阈值越小, 发现重叠节点的几率越大, 14–19行将一轮划分结束后没有归属的节点分离出来, 20–25行则对标记为false 的节点进行处理, 选择与之相似度最高的种子节点所在的社区作为其社区归属, 最终经过两个阶段的处理, 得到最终的社区.算法2. 社区扩展算法G =(V ,E )A n ×n 输入: 无向图; 相似度矩阵; 种子集合S.输出: 社区结构C.C ←∅1. u ∈V2. for doLabel (u )=false 3. 4. end for5. for seed in S doCS ←∅,CS ←CS ∪{seed }6. u ∈V u S 7. for and A [seed ][u ]≥ε8. if CS ←CS ∪{U }Label (u )=true 9. ,10. end if 11. end for C ←C ∪CS 12. 13. end for R ←∅14. 15. for node in VLabel (node )=false16. if R ←R ∪{node }17. 18. end if 19. end for R20. for v in 21. for seed in SA [seed ][v ]22. CS_num = argmax 23. end forCS ←CS ∪{v }Label (v )=true 24. , 2.5 end for 26. return C2020 年 第 29 卷 第 11 期计算机系统应用165εεk ×n 2×k ×n k n k <<n O (n )O (n log n )通常情况下, 选择合适的阈值能够使得大部分节点经过第一阶段的处理能够划入相应的社区, 阈值越小, 需要进行第二阶段处理的节点越少, 但也会导致社区之间重叠度很高. 本文在基于种子节点进行社区扩展的过程中, 充分利用前阶段的计算结果, 将迭代更新的过程简化成了寻址过程, 完美状态下, 只需进行次计算即可完成社区检测, 最坏情况下, 则需进行次计算, 其中表示种子节点个数, 表示网络中节点的个数, 且二者间满足, 总体复杂度为,优于现有的时间复杂度为的社区扩展算法.综上, 基于Node2Vec 的重叠社区发现算法整体流程大致分为以下3个步骤:n ×n 首先, 利用NodeVec 算法对网络结构进行学习, 得到包含丰富拓扑结构信息的节点的向量表示, 基于节点向量值计算每对节点间的相似度, 用一个阶矩阵来表示网络结构中所有n 个节点间的相似度值.然后, 利用前一阶段计算得到的节点相似度, 根据定义的节点影响力公式筛选出能够独立领导社区的种子节点集合.最后, 以种子节点为核心, 分阶段进行社区扩展,首先通过比较每个种子节点与所有非种子节点间相似度与给定阈值的大小关系初步扩展社区, 然后对于未被划分的节点, 选择与之相似度最大的种子节点, 划入其所属社区, 直至所有节点都有至少一个社区归属, 重叠社区检测完毕.3 实验为验证算法的相关性能, 在多个不同规模的真实数据集上与其他经典重叠社区发现算法进行对比实验, 待比较的算法分别是CPM 、LINK 、COPRA 和LFM 算法.3.1 实验数据集分别选取不同类型不同数量级的5个真实网络数据集, 具体包括美国空手道俱乐部网络Karate [14]、海豚关系网Dolphins [15]、大学生足球联赛网络Football [16]、欧洲研究机构电子邮件网络Email-EU [17]和高能物理范畴论文引用关系网Ca-HepPh [18], 各网络规模如表1.3.2 评价指标由于社区划分没有标准的结果, 对于真实数据集,Newman 提出的模块度函数[19]被广泛认可, 但该评价标准并不能很好地适用于重叠社区, Shen 等在此基础上提出了能衡量重叠社区划分结果的重叠模块度函数[20],定义如下:EQ =12m ∑i ∑u ∈c i,v ∈c i1Q u Q v [A uv −k u k v2m](4)m A k u u Q u u 其中, 表示网络中的总边数, 为网络的邻接矩阵,为节点的度数, 表示节点所属的社区数量.表1 真实数据情况表数据集节点边Karate 3478Dolphins 62159Football 115616Email-EU 100525 571Ca-HepPh12 008118 5213.3 实验结果εεεh =0.1ε本文提出的算法在基于种子节点进行社区扩展时,社区划分结果易受阈值大小的影响, 故首先在不同数据集上在不同阈值的指引下进行社区划分, 通常情况下阈值的取值范围为0.3~0.7, 取步长进行实验,社区划分结果随阈值大小改变而变化的情况如图20.550.500.450.400.350.300.300.350.400.450.500.550.600.650.70E Q 值Karate Dolphins Football Email-EU Ca-HepPh阈值图2 重叠模块度随阈值变化图ε=0.5ε从图2可以看出, 在不同数据集上, 模块度总是在左右的位置取到峰值, 这也说明阈值对划分结果的影响趋势在所有数据值上是大致相当的.ε=0.5将本文算法与其他4个经典的重叠社区发现算法在不同规模不同类型的数据集上进行对比实验(阈值取), 结果如表2所示.在大多数数据集上, 本文算法均取得了最高的模块度值, 尤其是在Emai-EU 和Ca-HepPh 两个大规模的数据集上, 分别取得了接近0.5和0.4重叠模块度值,所发现的社区质量明显优于其他算法, 实验证明, 使用Node2Vec 算法将更大作用域范围内的网络信息映射到节点向量中的方式, 能够有效地避免范围限制所带来的准确率方面的牺牲, 提升社区发现质量, 在规模大、结构复杂的网络上, 提升效果格外显著.计算机系统应用2020 年 第 29 卷 第 11 期166表2 真实数据集对比结果表算法Karate Dolphins Football Email-EU Ca-HepPh CPM 0.1870.3620.5600.3750.292Link 0.1590.0030.0100.1130.132COPRA 0.3420.4820.4850.4030.328LFM 0.3170.3450.5720.4310.363本文算法0.4150.4840.5630.4940.3924 结论与展望本文提出了一种基于Node2Vec 的重叠社区发现算法, 首先获得网络结构的向量表示并计算节点之间的相似度值, 利用定义的影响力函数选择出种子节点,然后以每个种子节点为核心进行社区扩张. 本文选取了不同类型不同规模的真实网络数据集, 并在这些数据集上将本文算法与其他类经典重叠社区发现算法进行对比性实验, 实验结果表明, 本文算法在大部分数据集尤其是大规模数据集上表现出了明显的优势. 后续工作将提高算法的性能, 降低算法复杂度, 并将算法应用到动态社区发现研究中.参考文献Rice SA. The identification of blocs in small political bodies.American Political Science Review, 1927, 21(3): 619–627.[doi: 10.2307/1945514]1骆志刚, 丁凡, 蒋晓舟, 等. 复杂网络社团发现算法研究新进展. 国防科技大学学报, 2011, 33(1): 47–52. [doi: 10.3969/j.issn.1001-2486.2011.01.011]2Palla G, Derényi I, Farkas I, et al . Uncovering the overlapping community structure of complex networks in nature and society. Nature, 2005, 435(7043): 814–818. [doi:10.1038/nature03607]3Gregory S. Finding overlapping communities in networks by label propagation. New Journal of Physics, 2010, 12(10):103018. [doi: 10.1088/1367-2630/12/10/103018]4Ahn YY, Bagrow JP, Lehmann S. Link communities reveal multiscale complexity in networks. Nature, 2010, 466(7307):761–764. [doi: 10.1038/nature09182]5Li MM, Liu J. A link clustering based memetic algorithm for overlapping community detection. Physica A: Statistical Mechanics and its Applications, 2018, 503: 410–423. [doi:10.1016/j.physa.2018.02.133]6Lancichinetti A, Fortunato S, Kertész J. Detecting the overlapping and hierarchical community structure in complex networks. New Journal of Physics, 2009, 11(3): 033015.[doi: 10.1088/1367-2630/11/3/033015]7Su YS, Wang BJ, Zhang XY. A seed-expanding method based on random walks for community detection in networks8with ambiguous community structures. Scientific Reports,2017, 7: 41830. [doi: 10.1038/srep41830]齐金山, 梁循, 王怡. 基于种子节点选择的重叠社区发现算法. 计算机应用研究, 2017, 34(12): 3534–3537, 3568. [doi:10.3969/j.issn.1001-3695.2017.12.003]9Wang XF, Liu GS, Li JH. Overlapping community detectionbased on structural centrality in complex networks. IEEEAccess, 2017, 5: 25258–25269. [doi: 10.1109/ACCESS.2017.2769484]10於志勇, 陈基杰, 郭昆, 等. 基于影响力与种子扩展的重叠社区发现. 电子学报, 2019, 47(1): 153–160. [doi: 10.3969/j.issn.0372-2112.2019.01.020]11Grover A, Leskovec J. Node2Vec: Scalable feature learningfor networks. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, CA, USA. 2016. 855–864.12Perozzi B, Al-Rfou R, Skiena S. DeepWalk: Online learningof social representations. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA. 2014. 701–710.13Zachary WW. An information flow model for conflict andfission in small groups. Journal of Anthropological Research,1977, 33(4): 452–473. [doi: 10.1086/jar.33.4.3629752]14Lusseau D, Schneider K, Boisseau OJ, et al . The bottlenosedolphin community of doubtful sound features a large proportion of long-lasting associations. Behavioral Ecology and Sociobiology, 2003, 54(4): 396–405. [doi: 10.1007/s00265-003-0651-y ]15Girvan M, Newman MEJ Newman. Community structure insocial and biological networks. Proceedings of the National Academy of Sciences of the United States of America, 2002,99(12): 7821–7826. [doi: 10.1073/pnas.122653799]16Yin H, Benson AR, Leskovec J, et al . Local higher-ordergraph clustering. Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax, Nova Scotia, Canada. 2017. 555–564.17Leskovec J, Kleinberg J, Faloutsos C. Graph evolution:Densification and shrinking diameters. ACM Transactions on Knowledge Discovery from Data, 2007, 1(1): 2. [doi:10.1145/1217299.1217301]18Newman MEJ, Girvan M. Finding and evaluating communitystructure in networks. Physical Review E, 2004, 69(2):026113. [doi: 10.1103/PhysRevE.69.026113]19Shen HW, Cheng XQ, Cai K, et al . Detect overlapping andhierarchical community structure in networks. Physica A:Statistical Mechanics and its Applications, 2009, 388(8):1706–1712. [doi: 10.1016/j.physa.2008.12.021]202020 年 第 29 卷 第 11 期计算机系统应用167。

社交网络中的社区发现算法优化

社交网络中的社区发现算法优化

社交网络中的社区发现算法优化社交网络已经成为人们日常生活中不可或缺的一部分,越来越多的人通过社交网络来交流、分享和获取信息。

社交网络中的用户形成了各种社区,这些社区由共同兴趣、活动或其他因素联系在一起。

社区发现算法可以帮助我们找到这些社区,帮助用户更好地拓展社交网络。

然而,现有的社区发现算法还存在一些问题,需要进行优化。

一、社交网络中的社区发现算法社交网络中的社区发现算法在许多领域都有应用,例如科学研究、社交媒体、电子商务等等。

目前常见的社区发现算法包括:1. 基于模块度的算法模块度是一个网络中社区结构的一种量化指标,代表了社区内部联系的紧密程度和社区之间联系的松散程度。

基于模块度的算法通过最大化网络的模块度来划分社区。

2. 基于谱聚类的算法谱聚类是一种经典的聚类方法,可以将数据集划分为若干个子集。

在社交网络中,谱聚类算法被用来将社区内的节点聚类。

3. 基于复杂网络的算法复杂网络是指由许多相互连接的节点组成的网络。

基于复杂网络的社区发现算法主要是将网络转化为图形模型,然后通过计算图形中的某些统计量来划分社区。

二、社区发现算法的问题然而,现有的社区发现算法还存在一些问题。

这些问题包括:1. 社区大小问题现有的社区发现算法往往难以精确地确定社区的大小。

例如,在基于模块度的算法中,社区的大小取决于模块度的阈值,但是选取合适的阈值并非易事。

2. 社区重叠问题在实际社交网络中,许多社区存在重叠,即部分节点同时属于多个社区。

目前的社区发现算法很难处理这种重叠社区。

3. 网络动态性问题现实生活中的社交网络极其动态,网络中的节点和社区都在不断变化。

然而,现有算法很难应对这种动态性,很多算法只适用于静态网络。

三、社区发现算法的优化为了解决目前存在的问题,需要对社区发现算法进行优化。

以下是几种可行的优化方案:1. 基于密度的社区发现算法基于密度的社区发现算法旨在解决社区大小的问题。

该算法根据节点在社区内部的密度来判断节点是否属于该社区。

基于形式概念分析的社区发现算法

基于形式概念分析的社区发现算法


社区发现算法
为解 决复杂网络的社区发现问题通 常将 网络 映射成 图的形式 。 假设
已知 网பைடு நூலகம் G_ ( V, E ) 有 m 个节 点 ,n 条边 ,其 中 V= { Vl , V2 …, V ml ,
E = { E l I = V × , i : 1 , . } . 。 我 们 只 考 虑 简 单网 络, 即 无 向, 无 权
值取 1 , 否则取 0 。 设 A是对 象集合 G的一个子集 , B 是 属性集 合 M的

个 子集 , 如果 A , B 满 足条件 f ( A ) = B且 f ( B ) = A,则称序对 ( A , B) 为形
的社 区发现测试数据集 ,该网络包括 3 4 个节点用 了代表俱乐部成员 ,
En d Re t u r n<c . d >
B e g i n
s e t d 啪= O
s umd =s u md 一1
本文针 对现今 的社 区发现算 法较 多地 依赖于 实现给定 的社区个数 进行社 区发现 的缺点 , 提出了基 于形式概念分析 的社 区发现算法 。 形 式 概念分析是德 国的 Wi l l e 教授 于 2 0 世纪 8 0 年代提 出的。目前 , 形式 概 念 已经在软件工程及数据挖掘等领域得到 了广泛的应用 。 形式概念分析
的网络。
三 、 总 结
本 文所 提 出的基 于形 式概念分析 的算法能够克 服以往需要提前输
我们将形式概念 中的形式背景 ( G , M , I ) 理解 成一个 网络图 ,G 和 M都是点 的集合 , I 是点与点之间边的集合 。 在这里 , G和 M都是点 的
集合 ,这点与传统的形式背景 中 G是对象的集合 ,M 是属性 的集合有

基于谱聚类的社团发现算法

基于谱聚类的社团发现算法

值 。模块度用于判定从 网络 的拓扑结构 中得 出的社 团是否具有 实际 网络的社 团结构 。模块度 定义表述 为 : 假 定把 整个 网络 划分成 g个社 团 , 构建一个 g× g维 的矩阵 b =[ 6 ] , 其 中元素 6 表示 两个 顶点 i 、 之间的边数 占总边数 中的比例 , 令n :∑b
分裂方法( D i v i s i v e Me t h o d ) 。图分 割主要 包括 两个 算法 : 基于 L a p l a e i a n图特征 值 的谱平 分 法 ( S p e c t r a l B i s e c t i o n Me t h o d ) 和
K e mi g h a n—L i n算 法 o
G i r v a n和 N e w m a n提出了一类优化模块度 Q的算法 , 其 中主要有极值 优化算法 以及模拟退 火算法等 , 优化模 块度算 法的
时 间复 杂 度 较 高 。N e w m a n还 利 用 网络 中一 个 新 的 特 征 矩 阵 的 特 征 向量 来 重 新 定 义 了 模 块 度 Q, 我 们 称 这 个 特 征 矩 阵 为 模 块
2 0 1 3年 7月
潍 坊 工 程 职 业 学 院 学 报
J OURNAL 0F W EI F ANG ENGI NEERI NG V0CAT 1 0NAL C0L L EGE
V0 1 . 2 6 No . 4
J u 1 .2 01 3
D o i : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 9— 2 0 8 0 . 2 0 1 3 . 0 4 . 0 2 3
效地衡量社 团划分结果 。本文提 出了一种基于谱聚类 的社 团发现算法 。实验结果 表明 , 通 过与现有 的社 团发现算法 比较 , 本 文提 出的算法效率更高 , 而且 在处 理结 构未 知的大型网络 时 , 得到的结果令人满意。 2 基于谱 聚类的社 团发现算法

复杂网络中的社区发现算法研究

复杂网络中的社区发现算法研究

复杂网络中的社区发现算法研究一、引言社交网络成为了人们日常交流中不可或缺的一部分,复杂网络中的推荐系统、广告分发、用户画像等问题也得到了广泛的研究。

而复杂网络中的社区结构发现的研究则是在社交网络中最为基础的问题之一。

随着复杂网络的不断发展和壮大,社区发现问题变得越来越复杂和具有挑战性。

社区发现的研究不仅能够揭示社交网络的本质结构,还能够为推荐、广告等应用提供重要的基础数据支持。

二、社区发现算法综述社区发现算法是指在一个无向或有向的、加权或不加权的复杂网络中,找到一些具有内部相似度高、外部相似度低的子集,这些子集被称为社区。

常见的社区发现算法包括基于图划分的方法、基于谱分析的方法、基于模块度的方法以及基于聚类的方法等。

在社区发现研究中,基于模块度的方法是最常用的一种方法。

基于图划分的方法将图中节点划分为若干个子区域,每个子区域即为一个社区。

基于谱分析的方法是基于图的拉普拉斯算子,通过计算图的特征向量来发现社区。

基于模块度的方法是通过定义模块度来测算一个社区的好坏程度,然后将模块度最大的社区作为整个网络的社区结构。

基于聚类的方法是将节点分组成互相影响或接近的部分,以揭示网络数据的内部结构和性质。

三、社区发现算法优化社区发现算法有许多经典的算法,如Louvain算法、GN算法、Leida算法等。

然而随着网络规模的不断扩大,这些经典算法面临着计算复杂度过高、精度不高等问题。

针对这些问题,研究人员提出了许多社区发现算法的优化方案。

1. 分层社区发现优化分层社区发现算法是一种通过把网络划分成多个层级来处理网络的算法。

这种算法不仅能够处理大规模网络的社区发现问题,还能避免算法计算过程中的过度优化问题。

2. 基于采样的算法优化采样是一种常用的算法优化方法。

基于采样的优化方法可以将网络简化为一个小规模的子图,进而提高算法的计算效率。

例如,有些算法可以将网络中的度数较高的节点集合选择为采样的节点,这样可以保证算法的计算效率和准确性。

复杂网络中的社区发现与分析

复杂网络中的社区发现与分析

复杂网络中的社区发现与分析人们在日常生活中经常会听到“社区”这个词,指的是一群共同具有某些特性、彼此有相互交往并且相对孤立于其他群体的人或组织。

而在复杂网络中,社区也有着类似的定义:指的是网络中由一些紧密相连的节点组成的一个子图,与其他子图相对孤立。

社区也被称为群组(clique)、簇(cluster)等。

在现实中,社区的发现对很多领域都有着重要的应用价值。

例如,在生命科学中可以通过社区发现来解析蛋白质复合物、基因调控网络等;在社会网络分析中,可以通过社区发现来分析朋友圈、领导小组、商业竞争等。

因此,如何有效地发现复杂网络中的社区,一直是研究的热点和难点。

社区发现的方法目前,社区发现的方法主要有以下几类:1. 基于聚类的方法基于聚类的方法是将网络中的节点划分到不同的簇中。

其中,最简单的方法是K-means,它将节点按照相似性分到不同的组中。

这种方法的优点是速度快,适用于规模较小的网络。

但是,缺点也很明显,随着网络规模增大,聚类结果会受到噪声的干扰,导致分类不准确。

2. 基于谱聚类的方法基于谱聚类的方法将节点之间的相似性表示为矩阵,并使用谱分解来找到最优的社区划分,它不仅适用于规模较小的网络,而且对噪声有很好的抗干扰能力。

但是,它也有缺点,例如当网络具有较多的噪声时会使得谱聚类的效果变差。

3. 基于模块度优化的方法基于模块度优化的方法是划分社区的一种常用方法,其基本思路是通过最大化社区内部的联系和最小化社区与社区之间的联系,来得到最优的社区划分。

其中,例如Newman的模块度最大化法、GN算法等,都是基于模块度优化的方法。

这种方法的优势在于时间效率高,但是对于社区分布不均匀或社区重叠等情况,会降低其准确性。

4. 基于深度学习的方法近年来,深度学习在社区发现中的应用越来越广泛。

基于深度学习的方法通过训练神经网络,来预测节点所属的社区。

例如CN-Ke-GAE、SDNE等方法,都是基于深度学习的方法。

相对于其他方法,它在对规模较大、社区之间重叠等问题有着更好的应对能力。

基于改进小生境粒子群的社区发现算法★

基于改进小生境粒子群的社区发现算法★

2022年 2月 February 2022Digital Technology &Application 第40卷 第2期Vol.40 No.2数字技术与应用102中图分类号:TP393 文献标识码:A 文章编号:1007-9416(2022)02-0102-03DOI:10.19695/12-1369.2022.02.34基于改进小生境粒子群的社区发现算法*广东茂名幼儿师范专科学校教育技术与网络中心 张金霜 黄旭彬社区发现对增加教育虚拟社区用户粘性,提高学习者学习成效具有积极作用。

为解决传统社区发现算法在复杂网络结构不清晰时划分效果不佳的问题,提出一种基于小生境的二进制粒子群优化算法NIBPSO。

算法将每个粒子编码作为社区发现的一种解,以模块度作为优化函数。

在粒子迭代过程中,选取粒子的邻域最优替代全局最优,同时根据粒子各维度的速度,采用轮盘赌算法确定粒子中各节点的社区归属。

通过控制粒子信息传播速度和范围,能有效解决粒子陷入局部最优,提高了社区发现效果。

实验表明,该算法获得较好的社区发现结果。

教育虚拟社区为学习者提供了一个开放的网络学习空间,学习者在这里交流信息、探讨问题、扩展思路、创新观念、达成共识,充分发挥集体智慧。

随着人工智能和大数据技术的发展,精准教育逐步变成现实,教育虚拟社区作为精准教育的载体,在教学过程中发挥了重要作用。

提升教育虚拟社区发现的效率和质量,有助于学习资源精准推送,促进学习者找到兴趣相投的学习伙伴,增加学习者对教育虚拟社区的粘性。

现实生活中,许多复杂系统都被抽象成复杂网络形式,如社交网络、论文引文网络、生物网络等。

复杂网络内部可划分为多个社区,社区内部的节点联系更加紧密,而社区间关系较为稀疏。

社区发现仍是目前复杂网络研究热点之一,社区划分的好坏影响社区价值的挖掘。

在研究初期,有学者将社区发现理解为图分割问题、聚类问题等,提出了各种社区发现算法,比较有代表性的包括GN分裂算法[1]、LPA标签传播算法[2-3]、随机游走算法、层次聚类算法、Fast Unfolding算法等。

基于社区发现的个性化推荐技术研究

基于社区发现的个性化推荐技术研究

基于社区发现的个性化推荐技术研究作者:闵磊来源:《科技资讯》2020年第30期摘要:随着互联网的发展,网络上各平台的数据规模日益增大,由此产生了信息过载问题,个性化推荐技术是解决该问题的一种有效手段。

该文利用社区发现技术“物以类聚、人以群分”的特点,将可能使人们产生相似兴趣的物品进行聚类,并在此基础上研究了基于社区结构的个性化推荐算法。

该算法可对推荐物品的新颖性进行调节,并可以缓解冷启动问题。

关键词:社区结构社区发现个性化推荐聚类算法中图分类号:TP391 文献标识码:A文章编号:1672-3791(2020)10(c)-0217-03Abstract: With the development of the Internet, the data scale of platforms on the network is increasing, which leads to the problem of information overload. In this paper, we take advantage of the aggregation for similar objects in community, in which clustering items may arouse similar interests of people, and propose a personalized recommendation algorithm based on community structure. The algorithm is effective for regulating novelty and relieving cold-start problem of recommendation.Key Words: Community structure; Community detection; Personalized recommendation; Clustering algorithm在互联网高速发展的背景下,众多行业迎来了前所未有的发展机遇,“互联网+X”正逐渐成为促进社会经济前进的重要因素。

基于局部扩展的社区发现研究现状

基于局部扩展的社区发现研究现状

类。与全局优化相比,局部优化不需要整个网络的 信息,主要基于局部网络结构信息发现局部或整个 网络的社区。因此,局部优化更适用于大规模社交 网络的社区发现。李建华等[1]根据不同的局部优化 策略,将现有的局部优化社区发现方法大致分为局 部扩展优化、派系过滤、标签传播以及局部边聚类 优化四类。其中,基于局部扩展优化的社区发现方 法的思想是根据定义的局部度量,从给定的初始节 点逐步合并近邻节点,从而进行局部扩展优化,该 方法包括 2 个步骤:种子的选择和将种子扩展为社
Abstract: Community detection can effectively mine the characteristics of the network as well as the hidden information. Local expansion is a commonly used method of community detection, and it can be divided into two steps: the selection of seeds and the local expansion. Therefore, in order to analyze the advantages and disadvantages of the existing methods and their application, these methods about the selection of seeds, local expansion and evaluation were summarized, compared and analyzed. Then, the application and the research difficulties of community detection based on local extension were summarized. Finally, the research directions of community detection based on local expansion were given. Key words: social network, community detection, selection of seeds, local expansion

基于粒子群优化的复杂网络社区挖掘

基于粒子群优化的复杂网络社区挖掘

基于粒子群优化的复杂网络社区挖掘白云;任国霞【摘要】为解决复杂网络社区结构挖掘的优化问题,根据复杂网络拓扑结构的先验知识,提出一种基于离散粒子群优化的社区结构挖掘算法。

将粒子的位置和速度定义在离散环境下,设计粒子的更新规则,在不需要事先指定社区个数的前提下自动判断网络的最佳社区个数,给出局部搜索算子,该算子可以帮助算法跳出局部最优解,提高算法的收敛速度和全局寻优能力。

实验结果表明,与iMeme-net算法相比,该算法能够准确地挖掘出复杂网络中隐藏的社区结构,且执行速度较快。

%In order to solve the problem of community mining optimization from complex network, according to the prior knowledge of the topology structure of complex network,a complex network community mining algorithm based on Particle Swarm Optimization( PSO) is proposed. In the proposed algorithm,particle’ s position and velocity are redefined in discrete case,particle’ s update principles is redesigned,the proposed algorithm can automatically determine the best community numbers without knowing it in advance. In order to improve the global search ability of the proposed algorithm,a local search operator is designed,and this operator can help the algorithm to jump out of local optimum and improves the convergence speed. Experimental results demonstrate that the proposed algorithm can efficiently dig out the community structures hidden behind complex networks,and the execution speed is much faster than that of iMeme-net algorithm.【期刊名称】《计算机工程》【年(卷),期】2015(000)003【总页数】5页(P177-181)【关键词】粒子群优化;复杂网络;社区结构;社区挖掘;局部搜索;模块密度【作者】白云;任国霞【作者单位】西北农林科技大学信息工程学院,西安712100;西北农林科技大学信息工程学院,西安712100【正文语种】中文【中图分类】TP18网络存在于人们生活中的每一个角落,如社交网络、通信网络、金融网络、生物网络等。

基于LFM算法的改进社区发现算法

基于LFM算法的改进社区发现算法

基于LFM算法的改进社区发现算法肖永嘉;朱征宇【摘要】由于能够反映网络内部结构,重叠社区划分在各领域有着越来越重要的作用.LFM算法是其中较为流行的一种社区划分方法.但其存在一些缺点,例如在网络变得庞大和复杂的时候,时间消耗会变得巨大.为了解决这一问题,提出核心区域的概念,并藉此对LMF算法进行改进.最后通过实验验证,发现该算法能够减小时间消耗,同时能够得到更为可靠的社区划分.【期刊名称】《现代计算机(专业版)》【年(卷),期】2017(000)014【总页数】6页(P21-25,48)【关键词】重叠社区划分;LFM;核心区域【作者】肖永嘉;朱征宇【作者单位】重庆大学计算机学院,重庆 400000;重庆大学计算机学院,重庆400000【正文语种】中文由于能够反映网络内部结构,重叠社区划分在各领域有着越来越重要的作用。

LFM算法是其中较为流行的一种社区划分方法。

但其存在一些缺点,例如在网络变得庞大和复杂的时候,时间消耗会变得巨大。

为了解决这一问题,提出核心区域的概念,并藉此对LMF算法进行改进。

最后通过实验验证,发现该算法能够减小时间消耗,同时能够得到更为可靠的社区划分。

重叠社区划分;LFM;核心区域现实世界的很多复杂的相互作用的系统往往被抽象成网络来表示,用来让人们更好地理解复杂系统的全部特性,更好地应对现实的变化。

例如互联网环境下的社交网络、电子商务;流行病传播学中的疾病预防控制过程,生物学网络中蛋白质组织构造等。

随着人们对复杂网络的研究日益深入,社区结构作为复杂网络存在的普遍特征,由于能有效地揭示网络系统中群体的共性规律,是解决复杂系统的基础,又能推进相关应用的发展,已经成为网络研究的一个重要分支。

而重叠社区的发现可以更为准确地理解网络内部的拓扑结构信息,在近些年的研究中得到了越来越多的关注。

社区并没有一个严格意义上的定义,较为广泛接受的是Newman和Gievan提出的“同一社区内的点与点之间的链接更紧密,不同社区之间的点的链接更稀疏[1,2]。

k派系过滤算法matlab -回复

k派系过滤算法matlab -回复

k派系过滤算法matlab -回复派系分析是一种常见的社会网络分析方法,它旨在揭示一个网络中不同组织、机构或个体之间的权力和影响力关系。

在许多实际应用场景中,特别是在社会学、政治学和商业分析领域,派系分析可以帮助研究人员更好地理解组织内部的权力结构和关系网络。

在本文中,我们将介绍一种常用的派系过滤算法——K派系过滤算法,并使用Matlab实现和演示该算法的工作原理。

首先,让我们先了解一下什么是派系。

在社会网络中,派系是由一群相互合作并相互影响的个体或组织组成的小团体。

这些个体或组织往往共享相似的利益、价值观或目标,并通过互相支持和合作来实现这些目标。

派系内部通常有一个或多个领导者,他们对派系的决策和行动具有重要影响力。

在K派系过滤算法中,K代表着结果中派系的数量。

该算法旨在通过过滤网络中的边缘连接以确定最相关的派系。

下面是该算法的主要步骤:1. 构建社交网络模型:首先,我们需要构建一个社交网络模型,其中节点代表个体或组织,边代表他们之间的关系或联系。

2. 计算节点影响力:为了确定每个节点的影响力,我们可以使用一些常见的社交网络指标,如度中心性(节点的邻居数量)、接近中心性(节点与其他节点之间的距离)和介数中心性(节点在网络中的中介作用)等。

3. 进行边缘连接过滤:根据节点的影响力,我们可以设置一个阈值,过滤掉那些弱连接或权重较低的边。

这将有助于我们聚焦于更具影响力和关联性的派系。

4. 派系检测:根据过滤后的网络结构,我们可以使用一些常见的社群检测算法,如Girvan-Newman算法、Louvain算法或谱聚类算法等,来检测并划分派系。

5. 派系评估:一旦派系被检测出来,我们可以使用一些评估指标来衡量每个派系的重要性和质量。

常见的评估指标包括模块度(网络内部连边数量的期望值与实际值之间的差距)和Silhouette系数(用于衡量聚类的紧密度和分离度)等。

在Matlab中,我们可以使用图论和网络分析工具箱(Graph Theory and Network Analysis Toolbox)来实现K派系过滤算法。

复杂网络社区挖掘——改进的层次聚类算法

复杂网络社区挖掘——改进的层次聚类算法

复杂网络社区挖掘——改进的层次聚类算法郑浩原;黄战【期刊名称】《微型机与应用》【年(卷),期】2011(030)016【摘要】Community detection has been a hot topic in the analysis of complex networks. Traditional hierarchical clustering algorithm has to compute each pair of vertices in the process of community detecting.To address this weakness,after the description of normal%社区挖掘算法研究是复杂网络分析领域的热点问题。

传统层次聚类算法在复杂网络社区挖掘过程中,需要计算所有顶点对之间的相似度。

针对这一缺点,在详述了常见相似度计算方法和顶点重要性度量方法的基础上,将ego角色的探测过程引入层次聚类算法,而后只计算其他顶点与ego顶点之间的相似度,提高了社区挖掘效率。

最后在不同类型的现实网络中验证了算法的有效性。

【总页数】4页(P85-88)【作者】郑浩原;黄战【作者单位】暨南大学信息科学技术学院计算机科学系,广东广州510632;暨南大学信息科学技术学院计算机科学系,广东广州510632【正文语种】中文【中图分类】TP399【相关文献】1.GFN:基于“群”思想对Fast-Newman算法改进的复杂网络聚类算法 [J], 牛建伟;戴彬;童超;彭井2.基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用 [J], 金晓民;张丽萍3.FCM聚类算法与改进层次聚类算法的结合 [J], 陈亚平;吴陈4.基于层次聚类算法的WEB文本挖掘技术探索 [J], 吕岚5.复杂网络中的层次结构挖掘 [J], 余成进;赵姝;陈洁;张燕平;段震因版权原因,仅展示原文概要,查看原文内容请购买。

一种基于差分进化的社团检测算法

一种基于差分进化的社团检测算法

一种基于差分进化的社团检测算法
孙韩林;马素刚;王忠民
【期刊名称】《软件工程师》
【年(卷),期】2018(021)001
【摘要】复杂网络的社团结构分析可抽象为一个优化问题,用进化算法求解.进化类算法的一个基本问题是如何把问题的候选解编码到进化个体中.本文将索引局部邻接表示法用于社团检测进化算法的个体表示,把社团结构分析转化为一个整数优化问题.在该个体表示方法的基础上,提出了一种基于差分进化的社团检测算法.在一组合成网络和真实网络上验证了算法性能,并与两种基于遗传算法的典型社团检测进化算法进行了对比.实验结果表明,当网络社团结构较为清晰时,基于差分进化的算法检测到的社团结构具有更好的质量.
【总页数】6页(P1-6)
【作者】孙韩林;马素刚;王忠民
【作者单位】西安邮电大学计算机学院,陕西西安 710121;西安邮电大学陕西省网络数据智能处理重点实验室,陕西西安 710121;西安邮电大学计算机学院,陕西西安 710121;西安邮电大学陕西省网络数据智能处理重点实验室,陕西西安 710121;西安邮电大学计算机学院,陕西西安 710121;西安邮电大学陕西省网络数据智能处理重点实验室,陕西西安 710121
【正文语种】中文
【中图分类】TP311
【相关文献】
1.一种基于差分进化的社团检测算法 [J], 孙韩林;马素刚;王忠民;;;;
2.一种基于熵的超网络重叠社团检测算法 [J], 李阳
3.一种基于标签传播的社团检测算法 [J], 谭玉玲
4.基于kNN发现社团主干的社团检测算法 [J], 李明;陈梅;张梅
5.一种基于标签传播的社团检测算法 [J], 谭玉玲
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5<4?-. ( /4,4<@) 9 +,:7-:? 4<@@7,0-1 4<@,?,( ? 4<@@7,0-1 -3.. <A ’H04H -H. 3<<- 0/ /4 9 >7-:7-:? /.- <A 3.5?-.( 4<@@7,0-1 9 5 D{} ; 9 0A 9 ( /4" 4<@@7,0-1,4<@)M -H3!,-H., 3.-73, 5; 9 0A # ( /4" 4<@@7,0-1,4<@)N -H3!,-H., 5 D 5 K 3<<-; 9 A<3 .?4H 0 ’H04H 0/ ? 4H05( <A 3<<-{ 9 9 5 D 5 K 5<4?-. ( 0,4<@) ; 9 } 9 3.-73, 5;
O 实验与分析
数据集选择 #EEE —#EEP 年 2QR% 文献目录数
第 $ 期% % % % % % % % % % % % % % 阎% 艳, 等: 一种基于派系过滤的社区进化发现研究
*
据集。对数据集中的文献标题完成分词、 删除冠词 和介词、 大小写转换、 消除后缀、 清除非英文单词等 预处理工作。基于单词在标题中的同现关系, 根据 文献发表的年份分别构建单词关联网络
$8 ( ,.-) 9 +,:7-:;.-’<3= ,.9 >7-:7-:? 4<@@7,0-1 -3.. <A ,.9 43.?-. ? B.3-.C 3<<-; 9 /.- 3<<-" 4<@@7,0-1 D ,.-’<3=, 3<<-" :?3?@.-.3 D {! D E , ) D !} ;
( 西南大学 计算机与信息科相关原理进行研究基础上, 分析了该方法在社区进化发现中存在的参数依赖问题, 提 出了一种基于派系过滤的社区进化发现方法: 通过生成社区树, 综合多组参数的社区发现结果, 可获取网络中不同 耦合度的社区的层次结构, 从而发现网络中社区的进化过程。本文将该方法应用在单词关联网络中, 实验结果表 明, 该方法能够发现各社区在进化过程中的规模、 成员以及耦合度方面的变化, 在一定程度上, 克服了传统派系过滤 方法对参数的依赖性。 关键词: 派系过滤; 社区进化; 社区树 中图分类号: EFCGC 文献标识码: &! ! ! 文章编号: C*B"H **$I ( "##$ ) #"H ##$#H #%
# 基于派系过滤的社区进化发现
从派系过滤方法的原理不难看出: 相同参数发 现的社区之间交集大小是有限的, 即小于 )+! ; 如果 一个社区在某参数取值下被发现, 那么在参数值更 小时, 必然能发现某个社区包含该社区; 通过增大参 数取值, 可以发现社区内部耦合度较高的子社区。 由 此, 可以利用社区树对多组参数值的结果进行综合, 从而分析社区的进化过程。 #" ! 派系过滤生成社区树 社区树是社区集合的树型结构, 它清晰地表示 了不同规模、 不同耦合度的社区之间的层次关系。 社 区树可用一个四元组 ( ,,- ,. ,# )表示。 其中, ,是 一个有穷的节点集, - 是一个有穷边集, . 为参数组 集, # 为一个有穷社区集, 它包含所有利用 . 中参数 发现的社区; , 中每个节点 / 都用一个社区 0 及其对 应的最大参数 1 唯一标记 ( 0 # # ,1 # . ) ; 对于任意 的两个节点 / % ,/ & # ,, 如果存在边 2 %& # - ,2 %& : /% $ / & ,即 / % 是 / & 的 父 节 点, 那 么 0& 是 0% 的 真 子 集 且 1 & 3 1( 1& , 1 % # .)。 % 社区树生成算法如下。
[ !"## ]
成, 如常用词 -;;60-1/ ,<6-=35067,>?>43=,-;;@A1-" 4A02, -61/A4314B63, =34/0.,及 术 语 -C324, <BDD?, 5-E3@34,60F04, .-4-F->3, 6346A3E-@, =B@4A=3.A- .A>" 46AFB43 等。和大社区不同, 相当一部分小社区是静 止不变的, 如{506@. 5A.3 53F } 、 {E31406 >B;;064 =-" 1/A23 } 、 {->>01A-43 6B@3 =A23 } 等。此外, 有少数小社 区 找 不 到 它 的 前 趋, 如{;-64A1@3 >5-6= 0;4A=AD-" 4A02} {-24 10@02? 0;4A=AD-4A02} $++) , $++, 等。
等认为一个社区从某种意义上可以看作是一些相互 连通的派系的集合。派系是一个全连通网络。由 ! 个节点构成的派系叫做 !"派系 ( !H@065-; ) 。如果两 个 !"派系有 !"C 个公共节点, 则称它们相邻。若一 个 !"派系可以通过若干相邻的 !"派系到达另一个 !" 派系则称这两个 !"派系连通。网络中的 !"派系社区 可以看成由所有相互连通的 !"派系构成的集合。例 " "派系可以看作网络中的边, " "派系社区即表示 如, I "派系是网络中 网络中所有连通的子图。类似的, 的三角形, I "派系社区是由若干个有公共边的三角 形构成的子图。由于一个节点可能属于多个不相邻 的 !"派系, 2FM 能够得到相重叠的社区。例如, 图C 中有两个 IH派系社区分别用黑色节点和灰色节点表 示, 两个社区有一个节点是重叠的。
表 #% 社区{-. /01 2345067} 的进化过程
时间 $+++ $++# $++$ $++* !! " )+ )+ )+ ,) * J ) 社区 G. H01 I345067 G. H01 (0FA@3 I345067 K0B43 G. H01 (0FA@3 I345067 LA63@3>>
! ! 现实 世 界 中 的 许 多 系 统 都 可 用 网 络 表 示, 如 JJJ、 K.=;(.;=、 引文关系、 社会关系等。这些网络 都具有社区结构性质, 即整个网络由若干个社区构 成, 社区内部的节点之间连接较为紧密, 而社区之间 [ C] 的连接相对稀疏 。随着网络的发展, 网络中的社 区也会发生相应变化。发现网络中的社区并分析其 进化过程, 对了解动态网络的结构和特性具有重要 意义。 2FM ) 派系过滤方法 ( 2065-; ’;(@,0/=6,. 8;=3,L, 是一种基于边密度的社区发现方法, 它可以发现相 互重叠的社区, 因而常用于分析大型网络的社区结 构。派系过滤方法的结果受参数值的影响。参数的 取值必须恰到好处, 才可能得到理想的结果。这往 往需要人工对多组参数取值的计算结果进行比较和 选取。随着网络的不断发展, 社区在进化过程中其 对应的参数条件也会发生变化。如何有效地发现动 态网络中的社区及其进化过程, 是派系过滤方法的 一个难点。 本文提出一种基于派系过滤的社区进化发现方 法, 并将该方法应用在单词关联网络中。实验表明, 通过建立社区树, 综合多组参数的社区发现结果, 可 获取网络中不同耦合度的社区的层次结构, 从而有 效地发现网络中社区的进化过程。
#" # 基于派系过滤的社区进化发现 要发现其进化 对于一个 6 时刻存在的社区 # 6 , 过程, 关键在于找到 # 6 的前趋 # 6 J ! 和后继 # 6 K ! 。社 区的查找会用到两个系数, 即相对重叠度 ( L.5?-0B. [ *] <B.35?: ) 和覆盖率。社区 7 和社区 8 的相对重叠 7%8 度定义为 # ( 7 K 8 )D 。当 # ( 7,8 ) 大于阈 7&8 值 -H3 ! 时, 称社区 7 和社区 8 具有相关性。社区 7 7%8 对社区 8 的覆盖率定义为 9 ( 7, 8 )D 。通 8 过对相邻时刻的社区树进行搜索, 可以获取指定社 区相关状态的集合, 算法如下。
网络时, 另一个重要的参数是 ! ! 。! ! 为边的阈值, 权值小于 ! ! 的边将会被忽略。随着 ! ! 的增大, 节 点间连接变得松散, 社区亦随之缩小甚至分解。因 此, 必须选择合适的参数取值, 才能有效发现网络的 社区结构。 !" # $%&’ 与 $%&(
[ )] [ *] $%&’ 与 $%&( 是 $%& 的 两 种 变 型。
$%&’ 用于处理带权重的网络。与 $%& 设置边的 权重阈值 ! 不同, $%& 对派系的强度 ( +,-.,/0-1 ) 权
!
重设置阈值, 社区由强度高于该阈值的社区构成。
#( ( ( ) ) *!) ) 社区强度计算为 ( " # ) $ ( " %, 。 可 &# # , & ’ & ! %& )
。所得
的网络是一个带权重的无向网络, 顶点代表一个单 词, 边的权值表示两个单词同现的次数。如图 $ 所 示, 单词关联网络中节点的度分布满足幂率分 布
[ #$ ]

! G. H01 (0FA@3 I345067 ’604010@ K0B43 LA63@3>> , G. H01 (0FA@3 I345067 ’604010@ K0B43 LA63@3>>
!
收稿日期: "##$H #CH "# 资助项目: 国家重点基础研究发展计划 ( $BI ) ( 7,) "##I2NICB##G ) 作者简介: 阎艳, 女, 硕士研究生, 研究方向为语义网环境下的资源管理与发现; 通讯作者: 邱玉辉, OH8/60: >356-P <Q-) @.。
相关文档
最新文档