复杂网络社区发现若干问题研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复杂网络社区发现若干问题研究
近年来,复杂网络逐渐成为信息科学、社会学、物理学、乃至生命科学等学科研究的热点。所谓复杂网络,是指将自然界中的各个实体抽象为网络中的节点,实体与实体之间的关系抽象为网络中的边。
这使得自然界中的很多系统都可以表示为复杂网络的形式,例如社会关系网、科学家合作网、通信网、互联网、人类疾病基因网等等。研究发现,复杂网络具有复杂的内部结构和多样的结构特征,其中,模块性(即社区结构)是复杂网络的
一个重要特征,它表现出网络中的节点具有聚集化的特性,即社区内部节点之间
连接稠密、社区之间的节点连接稀疏。
此外,社区结构在现实世界中往往是“重叠”的。复杂网络(重叠)社区结构的发现对于分析复杂网络的拓扑结构、理解复杂网络的功能、发现复杂网络中的隐藏规律以及预测复杂网络的行为具有十分重要的意义。
目前,研究者提出了众多网络(重叠)社区发现方法,并将之成功应用于现实
系统的分析中,然而社区发现方法存在的问题还有很多,如复杂网络社区发现问
题与聚类分析问题两者之间的关系还有待研究;网络社区发现算法尤其是重叠社区发现算法的精度和效率还有待提高;传统的划分评价函数模块化Q函数存在分辨率的限制等等。鉴于复杂网络社区发现问题与传统机器学习中的聚类分析问题都是对数据进行划分,并且机器学习中的聚类分析研究日趋成熟,本文结合机器
学习相关的技术和方法,改进并提出了若干发现网络(重叠)社区的算法,主要贡
献如下:(1)揭示了社区发现问题和聚类分析问题之间的区别和联系,利用聚类分析中定义的相似度概念对GN (Girvan and Newman)算法进行改进,给出了快速的SGN (GN based on similarity)算法。
通过比较和分析,我们发现,在构造了网络节点的相似度矩阵以后,社区发现问题就转化为了聚类问题,并利用任意一种可靠的聚类方法对网络进行社区划分;接着,本文分析和比较了不同的网络节点相似度构造方法和不同的聚类算法在发现社区时的性能差异,并将相似度计算引入到传统的GN算法中,取代GN算法中计算非常耗时的介数计算,得到改进的GN算法SGN,从而降低了GN算法的时间复杂度。(2)提出了一种基于类原型的复杂网络重叠社区发现的一般框架,并结合实际的聚类算法进行应用。
通过研究,我们发现,网络中的重叠节点往往位于各个社区的边界地区,即不同社区的交汇部分。基于这样的特征,我们利用类原型聚类算法的思想和概念,
通过定义和计算网络中节点的类原型归属度信息,设计了一个基于类原型的复杂网络重叠社区发现方法的框架,并将该框架应用于几种常见的聚类算法,例如
K-means算法、AP (Affinity Propagation)算法、层次聚类算法AL (Average Linkage)和NJW (Ng, Jordan and Weiss)谱聚类算法。
基于我们框架的方法不仅能发现网络中的非重叠社区,而且能够有效地发现网络中的重叠社区。(3)提出了基于排序中心度的K-rank算法。
类似K-means算法,K-rank:算法通过不断迭代更新各个社区的中心节点从
而达到收敛。同时,K-rank算法通过计算各个节点的中心度准则(rank centrality)找到社区的中心节点,避免了K-means算法在迭代过程中容易产生
空类的情形。
然后对K-rank算法进行扩展,使之能够应用于有向网、加权网以及重叠社区网络。(4)提出了一个基于贪婪优化surprise函数的社区发现方法AGSO (Algorithm based on Greedy Surprise Optimization)以及它的加速算法FAGSO
(Fast-AGSO)。
相关文献指出,相比传统的社区划分评价标准-模块化Q函数,新的社区发现评价准则-surprise函数不存在分辨率的问题,因此在评价存在社区大小不均的网络时,surprise函数的优势明显。但是,目前缺乏相关的直接对surprise函数进行优化的社区发现方法。
因此,我们采用贪婪思想,借助surprise函数的特性,提出了贪婪优化surprise函数的AGSO算法以及它的加速算法FAGSO算法,实验结果证明了贪婪优化Surprise函数方法的有效性。