网络社区划分方法及评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网络社区划分方法及评价
【摘要】网络社区结构是社会网络最普遍和最重要的拓扑属性之一,其特点是,同一社区内的节点连接密集,不同社区间的节点连接稀疏。揭示网络社区结构对分析复杂网络拓扑结构、理解其功能、发现其隐含模式、预测其行为都具有十分重要的理论意义,在社会网、生物网和万维网中具有广泛应用。本文主要从网络社区划分的起源、常见的社区划分方法及社区评价准则等三个方面介绍网络社区划分研究的相关工作。
【关键词】复杂网络;网络社区;社区划分;社会网络分析;社区的评价;局部社区划分
0.引言
网络科学将系统内部的各个元素作为节点,元素之间的关系视为连接,那么系统就构成了一个具有复杂连接关系的网络。然而,近几年的实证研究表明,这些看似毫不相干的且形态各异的真实系统的拓扑抽象都具有某些共同的拓扑性质,如小世界与无标度特性等等。由于它们所表现出来的拓扑性质与随机网络、规则网络等有着天壤之别,且节点众多,因此被称为复杂网络。目前,复杂网络成为技术、生物乃至社会各类复杂系统的非常一般的抽象方法与描述骨架,相关研究成为重要的学科交叉研究前沿。
所谓社区(community)即指网络的内聚子图,其基本特征表现为子图内部链接丰富,不同子图之间连接相对稀少。
1.常见网络社区划分方法
1.1基于优化思想的算法
基于优化思想的算法将复杂网络社区划分转化为优化问题,通过最优化预定义的目标函数来计算复杂网络的社区结构。比如K-L算法、谱平分法、随机游走(Random Walks)算法和派系过滤(CMP)算法等。这些算法的突出优点是速度比较快,效率显著。但是缺点也很突出,这一类算法都需要知道网络社区的数目,甚至KL算法还需要知道每个社区中各有多少节点,才能正确划分。这显然不适于网络未知社区的探索。
1.2社会网络分析方法
源于社会网络分析中寻找社区结构的传统算法,主要基于分级聚类思想,按照各个节点之间连接的相似性或者强度,把网络自然地划分为各个子群。其具体实现方式又有两种:其一是往网络中添加边,即凝聚方法(agglomerative method);其二是又从网络中移除边,即分裂方法(divisive method)。凝聚方法的基本思想是基于网络中节点某种相似性分层进行聚类的。初始时,每个节点为一个社区,然
后从相似性最高的节点对开始,往一个节点数为n而边的数目为0的原始空网络中添加边。这个过程可以中止于任何一点,此时这个网络的组成就认为是若干个社团。节点间的相似度,由网络拓扑结构决定,如快速FN算法中采用基于模块度的相似度;还有基于随机行走相似度;基于结构等价性的相似度,;基于边独立路径数的相似度;基于节点聚类中心度(clustering centrality)的相似度。相反地,在分裂算法中,一般是从所关注的整个网络着手,试图找到已连接的相似性最低的节点对,然后删除它们的连接。重复这个过程,就逐步把整个网络分成越来越小的各个部分,直到每个节点均为一个独立的社区。同样地,可以在任何情况下中止,并且把此状态下的网络看作若干网络社团的集合。最著名的GN算法就是以不断删除网络中边介数最大的连接,来逐步划分社区的。GN算法准确度比以往的算法要高,但是,由于要不断计算边介数,其效率比较低。因此,出现了一些改进型的GN算法和新算法,比如:Tyler等提出的采用节点集的GN算法;Radicchi等人提出的自包含GN算法(self-contained GN algorithm)和基于边聚类系数的快速分裂算法;基于相异性指数(dissimilarity index)的算法;基于信息中心度(information centrality)的算法;以及多种极值优化(extremal optimization, EO)算法。
2.网络社区社区发现方法的评价
如此众多的社区发现算法,如何评价算法的性能就成为一个问题。这里涉及三个方面。
第一个方面是网络社区的定义。最初,Newman等人对于网络社区,都只是给出一个定性的解释,并没有做出一个精确的定义。直到Radicchi等在00年首次明确量化定义了强社区(strong community)结构和弱社区(weak community)结构。
第二个方面是网络社区结构的评价标准,比如,分多少个社区比较合适?那种社区划分方案更合理?对此,Newman等给出了一个模块度(modularity)评价指标;此后,Aaron Clauset等针对局部社区挖掘问题,又进一步给出了局部模块度(local modularity)概念;针对权重网络,00年Fan等人定义了含权模块度。
最后一个方面就是测试基准网络。不同算法的性能只有在相同的条件下才有可比性,因此选择合适的基准网络,就显得十分重要了。其中最有代表性的就是Girvan和Newman于00年提出的GN基准网络,模型有四个参数RN(C,N,k,pin),其中C为社区数目,N为每个社区的节点数目,k为节点的平均度,pin为社区内部链接比例;在此基础上,Fan等人设计了一个加权的GN基准网络;真实网络中的社区规模往往是不相等的,因此,Brandes等人提出了一个社区规模服从高斯分布的基准网络模型;进一步来说,真实世界网络的社区规模一般服从幂律分布,,因此,00年Bagrow基于BA模型生成的初始网络,随机分为几个社区,在不同两个社区间选择一对边,引入重连接机制,从而可以生成一个新的基准网络,该方法随着重连接次数的增大,社区结构愈加显著。同年,Andrea Lancichinetti 等进一步设计了一个社区数目和社区规模都呈幂律分布的LFR基准网络模型,00年有进一步扩展到具有重叠社区的有向加权网络。
3.结论与展望
复杂网络的核心研究内容是揭示复杂网络功能和结构之间的内在联系。目前主要的一些社区发现算法如谱分析方法, 、著名的GN算法及其改进、MFC(maximum flow community)算法、HITS(hyperlink induced topic search)算法和派系过滤(CPM, clique percolation method)算法等大都是基于网络全局信息进行社区划分的。尽管KL(Kernighan-Lin)算法,、FN(Fast Newman)算法和GA(Guimera-Amaral)算法等是基于局部搜索的方法实现的,但是仍需要在不同分簇间进行节点交换或分解合并,所以,其依赖的仍是网络全局信息。一方面,随着信息技术的迅速发展,映射和探索大规模社会和通信网络的结构,揭示与理解人类社会通信模式与演化规律,已经成为社会网研究的一个重要内容,借助高性能计算机,构建0规模以上的网络模型已不足为奇。因此随着网络规模的日益扩大,依赖全局信息进行网络社区的探索和划分无疑是一个巨大的挑战。另一方面,社区结构本身所体现的是网络的一种局域化特征,理论上应该可以利用局部信息进行社区的划分和提取。因此,利用局部信息进行社区划分和搜索局部网络社区将是一个值得进一步探索的研究方向。■