复杂网络社区结构问题综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2・4)
复杂网络社区问题评价指标
模块度函数Q
社区结构的几种定义都无法直接应用于复杂网络社区
虿=;。。导=÷;羔
D;=占。/8。。。
结构的探测中,无法评价算法求得社区结构的好坏.因此,
Girvan和Newman给出了模块度Q函数¨1,定量地描述社区 结构划分的优劣。 考虑网络的某种划分形式,即将网络划分为K个社区 5。,s:,…,S。定义一个K
Kernighan—Lin算法
Kernighan—Lin算法是一种试探优化算法,它基于贪婪
量.因此,通过计算最小截集可以识别社区间连接,经过反复 识别并删除社区间连接,网络社区能够被逐渐分离开来.该 算法的效率取决于计算最小截集的时间按,目前最快的最小 截集计算方法需要O(mnlog(n2/m))时间…1
x
其中n:为社区i的结点数,rt为网络中的结点总数,d;为社区 i结点的度之和,D。如下:
K阶的矩阵(e。),其中元素e。表示
占√i)=玎南/
占。=e:“/d。
(2.5) (2.6) (2.7)
凡。L n:一l,z
网络中连接社区i和社区J中的节点的边在所有边中所占得
32
万方数据
Q值越大说明社区结构越明显. 现存的多种社区结构衡量的标准都各有优劣,目前还没
弱社区的概念进行了改进.
概念,主要有以下几种。 1.1
基于连接频数的定义
Newman提出的社区(Community)的概念就是指网络中
(1)强社区结构:设G’是图G的子图,强社区是指G 7中 任意一个结点与G’中结点连接的边数大于与c’以外的结点
连接的边数.
结点的集合,社区内的结点连接较紧密,而社区之间结点连
算法原理的二分法 该算法将网络划分为两个已知大小的社区.它的基本思
想是引进一个增益函数Q,定义为两个社区内部的变数减去
链接两个社团之间的变数,然后寻找最优方法使Q值达到最
大.
3.2.3其他的启发式算法
除了上述的几种启发式算法外,还有HITS算法,Wu— Huberman算法,CPM算法等.这些启发式算法在求解大部分 复杂网络时都能快速的找到最优或者近似最优的社区结构, 然而无法严格保证对任意网络都能找到较为合理的解.
综述。对现有的几种对社区的定义进行了较详细的阐述,介绍了几种比较有代表性的评价指标,并对复杂网 络社区发现算法进行了分类总结,最后对复杂网络社区结构的发展做出展望。 关键词:复杂网络;社区结构;评价函数;算法 中图分类号:0242.21文献标识码:A文章编号:1004—1869(2011)03—0031一04
2011年9月
阴山学刊
YINSHAN ACADEMIC JOURNAL
Sep.2011 V01.25 No.3
第25卷第3期
复杂网络社区结构问题综述
智 源,行
飞
(内蒙古大学数学科学学院,内蒙古呼和浩特010021)
摘
要:本文从社区的定义,社区结构评价指标,社区发现算法几个方面对复杂网络社区结构问题进行了
有一个被大家认可的统一的衡量社区结构的标准.
大的边.首先计算网络中所有边的介数,找到介数最高的边 并将其移除,直到每个结点都是一个退化的社区为止.这一 算法弥补了传统算法的不足,但是仍然存在不知道分解该在 哪一步终止的问题.为解决这一问题,Newman等人引进了模 块度的概念,来衡量社区划分质量的标准.模块度的定义将 在本文第四部分中进行详细阐述.
(2)弱社区结构:G’中所有结点与G’内部顶点的边数 之和大于G’中所有顶点与G’所有外部结点的边数之和.
比例.设矩阵中对角线上各元素之和为Tre=∑e。(e。表示
网络中连接社区i内部各节点的边在所有边的数目中所占比
IE“’
∑七:“>∑∥
‘E“’
(1.5)
例),定义每行(或者列)中各元素之和为。.=∑eF它表
最近刘晋霞等人在文献[7]中结合了社区簇内密度、簇 间密度和平均密度,对模块度函数Q存在的缺陷进行改进,
提出了社区度的概念.社区度指标定义为:
C:上÷
C:.
C。。,
m鲁
(2.3)
题是很有研究价值的.
此外,还有关于社区的许多其他定义方式,在文献[3]
上式中m为社区的个数,n为整个网络的结点数,n, 为社区i 的结点个数,C。为社区i内部边的数量,C。为社区 i中的结 点与社区外的结点连边的数量. 2.4
man提出了复杂网络的社区结构(Cmmunity Structure)的概 念,社区(Community)就是网络中结点的集合。社区中的结 点之间具有紧密的连接,而社区之间则为松散的连接。例 如,在社会网络中,社区可能表现为根据兴趣或背景而形成 的社会团体。在万维网中,社区可能就是讨论相关主题的一 些网站。 本文将从以下几个方面来对复杂网络社区划分问题进 行综述:一、社区的定义。二、社区结构划分的评价指标。 三、现有社区发现算法概述。四、总结和展望。
社区结构是复杂网络的一种重要的特性,已经成为复杂 网络研究的一个热点。经过科学家们的大量科研工作,目前 对于复杂网络社区结构的研究取得了很大的成果,本文将对 这些新的思想进行综述。 自然界和人类社会中很多复杂系统可以抽象为复杂网 络,如食物链网络、新陈代谢网、神经网络、万维网、科学家合 作网、社会关系网等。对于这些复杂系统,我们可以用网络 中的顶点表示系统中的个体,用边来表示个体之间存在的关
方法每一次分割都把网络分为两个社区,由于不能判断整个 网络应该分解为多少个社区,算法很难应用到实际的问题中
去. 3.1.3
该算法设计了交叉算子,用交叉个体一的一个社区传递 给交叉个体二来完成交叉操作.
其他基于优化的算法
由于这一算法在交叉过程中对父代个体破坏性较大,没 有考虑到结点之间的连接关系,因此算法设计了结点CV 值,对种群中的每个个体进行纠错计算. 近几年,科研工作者们在Tasgin遗传算法的基础上进行 了改进,这些改进主要针对该算法对结点间的连接关系考虑 较少的缺陷.例如陈盈晖等人在文献[9]中提出的算法,增 加了邻域搜索算子,根据网络的邻接矩阵将有连接关系的结 点调整到同一个社区.何东晓等人在文献[10]中提出的算 法中,采用了随机游走的初始化算法和基于聚类融合的多个 体交叉算子,更好的保存了上一代个体的优良性状.类似的
系,这样就可以用顶点和边来刻画复杂系统。2002年,New—
最大的连接数为n;(n。一1)/2,子图外部最大连接数为n。(凡 一ni).定义子图S。的内部链接率:
蹦小志/7,ni/
。L
—l,二
其中S。。为子图S内部连边的数量. 外部连接率:
允√s)2而尚
其中s。为子图外部边数. 网络的平均连接率:
(1・2)
接较为稀疏.
">ko“,Vi∈G’
(1.4)
设图G的子图G。,其结点个数分别/7,和/7,;,那么子图内
其中,F和七●(i∈c’)分别是G’内各个结点的连接数和c’
收稿日期:2011一05—18 作者简介:智
源(1985一),女,内蒙古巴彦淖弥人,硕士研究生,研究方向:算法分析与设计。
3l
万方数据
内的结点和G’外的结点相连接的连接数.
J
示与第i个社区中的节点相连的边在所有边中所占的比例. 在一个网络中,如果不考虑结点属于哪个社区而在结点对之 间增加边,则有e。=口.aI在此基础上,用下式来定义模块性
的衡量标准:
(3)最弱社区结构¨3:设c。,c:,…,c。是图G的社区,若 有
V
i∈c‘,F≥k。.(J≠k,J=1,2…m)
(1.6)
这种方法也存在一定的局限性,当网络恰好被分解为两 个社区时,算法的执行效果非常好,并且运算也很快.但是该
遗传算法
目前存在的求解这一问题的遗传算法大多采用模块度 函数Q作为算法的适应度函数.
Tasgin将遗传算法运用于社区结构的划分,提出了一 种社区ID号的符号编码方法,随机给每个结点分配一个社 区ID号.
ห้องสมุดไป่ตู้
其中F为结点i在社区c。内部的连接,^。.是结点i与社区c,
之间的连接.
Q=∑(elI_口:)=m一憎o
其中№【|表示矩阵z中所有的元素之和.
(2.1)
(4)改进的弱社区结构¨1:结合最弱社区的概念,对弱 社区作如下的改进,设c。,c:,…,c。是图G的社区,若有
V
模块度是现今被广泛认可的评价社区结构强弱的指标. 最近,一些科研工作者提出了模块度函数的一些缺陷,指出
模块度函数只适用于结点数较多的社区探测,不能检测出复 杂网络中的小社区结构∞1.
i∈c々,F≥k。.(J≠k,J=l,2…m)
(1.7)
并且
∑州c。)>∑七:“(c。) …}
‘fit‘‘
(1.8)
2.2
模块密度D
针上述模块度函数的这一缺陷,李珍平提出模块密度D
即在满足最弱社区的基础上,如果满足社区内的所有结点在 社区内的度值之和大于所有结点在社区外的度值之和,则认 为这样的社区具有弱社区结构.如此定义的,弱社区结构满 足如下包含关系:若社区是一个强社区,那么该社区同时也 是一个弱社区和最弱社区.若社区是一个弱社区,那么该社
MFC算法
MFC算法基于图论中的最大流一最小截定理.该算法 假设网络中最大流量由网络“瓶颈”的容量决定,而在具有
社区结构的网络中,网络“瓶颈”由社区间连接构成,由最大 流一最小截定理可知,网络中的最大流等于最小截集的容
通过优化目标函数来得出复杂网络的社区结构.下面介绍几 种较为典型的优化算法.
3.1.1
LS集
Ls集是比强社区定义还要严格的一种定义,一个Ls集
是一个结点构成的集合,它的任何真子集与该集合内部的连
边都比与该集和外部的连边多. 1.4
派系
派系的定义是基于社区的连通性,一个派系是由3个或
3个以上顶点组成的全连通子图,即任意两点问都有直接相
连的边.由派系的定义产生了n一派系的概念,这是对派系 定义的弱化,n一派系只图中任意两个顶点不必直接连接,最 多可以通过凡一1个中介点连通.n一派系的定义允许社团的 重叠,在实际复杂网络中,存在很多社区重叠的问题,这一问
1.2
占(c)2而等沥
其中m为网络中总的边数.
(1.3)
一个网络的合理社区分割要满足社区内的连接率要大 于网络的平均连接率,而社区间的连接率要小于平均连接 室.
强社区和弱社区的定义
lqadieehi等人给出了强社区和弱社区的定义,引文[2]
1
社区定义
一些科研工作中们又从不同的角度提出了一些社区的
中,又在强社区和弱社区的基础上定义了最弱社区,并且对
对于一个有n个结点的无向图G的Laplace矩阵是一个
n×n维的对称矩阵,记为L.其中£的对角线上的元素L。表 示结点i的度,非对角线上元素£。表示结点i和结点,的连接
心度方法等等,本文采用单亲遗传算法来求解这一问题,下 面主要阐述目前存在的几种主要的进化算法. 近年来,基于智能计算也提出了一些复杂网络社区划分 的方法,如遗传算法的运用,还有一些将遗传算法与其他方
3.3
这种划分的方法的缺陷是只能用于划分存在两个社团
结构的网络,并且必须事先知道该网络的两个社区的大小.
这些局限使得该算法很难应用于实际问题.
3.1.2
谱方法
其他复杂网络社区结构发现方法
除了上述两类方法外,还存在这些方法,例如:进化算
该方法通过分析网络的Laplace算子的特征向量完成分
割.
法,基于相似度的层次聚类算法,随机游走算法,结点聚类中
区同时是一个最弱社区.反之不成立. 1.3
的概念∞1
上式中,m为社区个数,G。为社区i中的结点组成的整个网络
。=砉郴卜薹盟铲∽2,
社区度C
c的子图,£(一,一)为社区i内部连边的数量,L(一,y。)为社
区i中的结点与社区外部结点连边的数量.I—l为社区i的 结点个数. 模块密度D表示社区内部边与社区间的边之差与社区 结点总数之比.模块度密度这一衡量标准考虑到了社区总的 结点数,克服了模块度Q无法探测小社区的缺陷. 2.3
该算法的缺点是时间复杂度较大,为O(n3),因此无法
3
社区结构发现的算法
在这一部分将对复杂网络社区化问题的一些经典算法
进行简单介绍.目前存在的复杂网络社区划分方法大体上可 以分为两类…:基于优化的方法,启发式方法.
3.1
将其用于规模较大的复杂网路.
3.2.2
基于优化的算法
这一类方法将复杂网络社区划分问题看作是优化问题,
法进行结合来求解这一问题.
3.3.1
关系.如果这两个结点之间有边相连接,则L。=I,否则 L。=一1,该矩阵总有一个特征值为0,其对应的特征向量为 z=(I,1,…,1).可以证明,不为零的特征值所对应的的特 征向量的各元素中,同一个社区内的结点对应的元素是近似 相等的,这就是谱平分方法的理论基础.
中有较为详细的讨论.本文中不考虑社区重叠的问题,主要 采用Newman提出的结点集合的定义方式. 虽然人们从不同角度提出了多种关于网络社区结构的 定义,但目前还没有一个被人们广泛认可的统一的的定义. 2
2.1
一种改进的模块度函数Q
Newman等人给出的模块度函数Q存在一定缺陷,因此.
许多人都致力于Q函数的改善,文献[8]中结合社区结构的 最初定义,给出一种改进的模块度函数,我们称其为Q.
复杂网络社区问题评价指标
模块度函数Q
社区结构的几种定义都无法直接应用于复杂网络社区
虿=;。。导=÷;羔
D;=占。/8。。。
结构的探测中,无法评价算法求得社区结构的好坏.因此,
Girvan和Newman给出了模块度Q函数¨1,定量地描述社区 结构划分的优劣。 考虑网络的某种划分形式,即将网络划分为K个社区 5。,s:,…,S。定义一个K
Kernighan—Lin算法
Kernighan—Lin算法是一种试探优化算法,它基于贪婪
量.因此,通过计算最小截集可以识别社区间连接,经过反复 识别并删除社区间连接,网络社区能够被逐渐分离开来.该 算法的效率取决于计算最小截集的时间按,目前最快的最小 截集计算方法需要O(mnlog(n2/m))时间…1
x
其中n:为社区i的结点数,rt为网络中的结点总数,d;为社区 i结点的度之和,D。如下:
K阶的矩阵(e。),其中元素e。表示
占√i)=玎南/
占。=e:“/d。
(2.5) (2.6) (2.7)
凡。L n:一l,z
网络中连接社区i和社区J中的节点的边在所有边中所占得
32
万方数据
Q值越大说明社区结构越明显. 现存的多种社区结构衡量的标准都各有优劣,目前还没
弱社区的概念进行了改进.
概念,主要有以下几种。 1.1
基于连接频数的定义
Newman提出的社区(Community)的概念就是指网络中
(1)强社区结构:设G’是图G的子图,强社区是指G 7中 任意一个结点与G’中结点连接的边数大于与c’以外的结点
连接的边数.
结点的集合,社区内的结点连接较紧密,而社区之间结点连
算法原理的二分法 该算法将网络划分为两个已知大小的社区.它的基本思
想是引进一个增益函数Q,定义为两个社区内部的变数减去
链接两个社团之间的变数,然后寻找最优方法使Q值达到最
大.
3.2.3其他的启发式算法
除了上述的几种启发式算法外,还有HITS算法,Wu— Huberman算法,CPM算法等.这些启发式算法在求解大部分 复杂网络时都能快速的找到最优或者近似最优的社区结构, 然而无法严格保证对任意网络都能找到较为合理的解.
综述。对现有的几种对社区的定义进行了较详细的阐述,介绍了几种比较有代表性的评价指标,并对复杂网 络社区发现算法进行了分类总结,最后对复杂网络社区结构的发展做出展望。 关键词:复杂网络;社区结构;评价函数;算法 中图分类号:0242.21文献标识码:A文章编号:1004—1869(2011)03—0031一04
2011年9月
阴山学刊
YINSHAN ACADEMIC JOURNAL
Sep.2011 V01.25 No.3
第25卷第3期
复杂网络社区结构问题综述
智 源,行
飞
(内蒙古大学数学科学学院,内蒙古呼和浩特010021)
摘
要:本文从社区的定义,社区结构评价指标,社区发现算法几个方面对复杂网络社区结构问题进行了
有一个被大家认可的统一的衡量社区结构的标准.
大的边.首先计算网络中所有边的介数,找到介数最高的边 并将其移除,直到每个结点都是一个退化的社区为止.这一 算法弥补了传统算法的不足,但是仍然存在不知道分解该在 哪一步终止的问题.为解决这一问题,Newman等人引进了模 块度的概念,来衡量社区划分质量的标准.模块度的定义将 在本文第四部分中进行详细阐述.
(2)弱社区结构:G’中所有结点与G’内部顶点的边数 之和大于G’中所有顶点与G’所有外部结点的边数之和.
比例.设矩阵中对角线上各元素之和为Tre=∑e。(e。表示
网络中连接社区i内部各节点的边在所有边的数目中所占比
IE“’
∑七:“>∑∥
‘E“’
(1.5)
例),定义每行(或者列)中各元素之和为。.=∑eF它表
最近刘晋霞等人在文献[7]中结合了社区簇内密度、簇 间密度和平均密度,对模块度函数Q存在的缺陷进行改进,
提出了社区度的概念.社区度指标定义为:
C:上÷
C:.
C。。,
m鲁
(2.3)
题是很有研究价值的.
此外,还有关于社区的许多其他定义方式,在文献[3]
上式中m为社区的个数,n为整个网络的结点数,n, 为社区i 的结点个数,C。为社区i内部边的数量,C。为社区 i中的结 点与社区外的结点连边的数量. 2.4
man提出了复杂网络的社区结构(Cmmunity Structure)的概 念,社区(Community)就是网络中结点的集合。社区中的结 点之间具有紧密的连接,而社区之间则为松散的连接。例 如,在社会网络中,社区可能表现为根据兴趣或背景而形成 的社会团体。在万维网中,社区可能就是讨论相关主题的一 些网站。 本文将从以下几个方面来对复杂网络社区划分问题进 行综述:一、社区的定义。二、社区结构划分的评价指标。 三、现有社区发现算法概述。四、总结和展望。
社区结构是复杂网络的一种重要的特性,已经成为复杂 网络研究的一个热点。经过科学家们的大量科研工作,目前 对于复杂网络社区结构的研究取得了很大的成果,本文将对 这些新的思想进行综述。 自然界和人类社会中很多复杂系统可以抽象为复杂网 络,如食物链网络、新陈代谢网、神经网络、万维网、科学家合 作网、社会关系网等。对于这些复杂系统,我们可以用网络 中的顶点表示系统中的个体,用边来表示个体之间存在的关
方法每一次分割都把网络分为两个社区,由于不能判断整个 网络应该分解为多少个社区,算法很难应用到实际的问题中
去. 3.1.3
该算法设计了交叉算子,用交叉个体一的一个社区传递 给交叉个体二来完成交叉操作.
其他基于优化的算法
由于这一算法在交叉过程中对父代个体破坏性较大,没 有考虑到结点之间的连接关系,因此算法设计了结点CV 值,对种群中的每个个体进行纠错计算. 近几年,科研工作者们在Tasgin遗传算法的基础上进行 了改进,这些改进主要针对该算法对结点间的连接关系考虑 较少的缺陷.例如陈盈晖等人在文献[9]中提出的算法,增 加了邻域搜索算子,根据网络的邻接矩阵将有连接关系的结 点调整到同一个社区.何东晓等人在文献[10]中提出的算 法中,采用了随机游走的初始化算法和基于聚类融合的多个 体交叉算子,更好的保存了上一代个体的优良性状.类似的
系,这样就可以用顶点和边来刻画复杂系统。2002年,New—
最大的连接数为n;(n。一1)/2,子图外部最大连接数为n。(凡 一ni).定义子图S。的内部链接率:
蹦小志/7,ni/
。L
—l,二
其中S。。为子图S内部连边的数量. 外部连接率:
允√s)2而尚
其中s。为子图外部边数. 网络的平均连接率:
(1・2)
接较为稀疏.
">ko“,Vi∈G’
(1.4)
设图G的子图G。,其结点个数分别/7,和/7,;,那么子图内
其中,F和七●(i∈c’)分别是G’内各个结点的连接数和c’
收稿日期:2011一05—18 作者简介:智
源(1985一),女,内蒙古巴彦淖弥人,硕士研究生,研究方向:算法分析与设计。
3l
万方数据
内的结点和G’外的结点相连接的连接数.
J
示与第i个社区中的节点相连的边在所有边中所占的比例. 在一个网络中,如果不考虑结点属于哪个社区而在结点对之 间增加边,则有e。=口.aI在此基础上,用下式来定义模块性
的衡量标准:
(3)最弱社区结构¨3:设c。,c:,…,c。是图G的社区,若 有
V
i∈c‘,F≥k。.(J≠k,J=1,2…m)
(1.6)
这种方法也存在一定的局限性,当网络恰好被分解为两 个社区时,算法的执行效果非常好,并且运算也很快.但是该
遗传算法
目前存在的求解这一问题的遗传算法大多采用模块度 函数Q作为算法的适应度函数.
Tasgin将遗传算法运用于社区结构的划分,提出了一 种社区ID号的符号编码方法,随机给每个结点分配一个社 区ID号.
ห้องสมุดไป่ตู้
其中F为结点i在社区c。内部的连接,^。.是结点i与社区c,
之间的连接.
Q=∑(elI_口:)=m一憎o
其中№【|表示矩阵z中所有的元素之和.
(2.1)
(4)改进的弱社区结构¨1:结合最弱社区的概念,对弱 社区作如下的改进,设c。,c:,…,c。是图G的社区,若有
V
模块度是现今被广泛认可的评价社区结构强弱的指标. 最近,一些科研工作者提出了模块度函数的一些缺陷,指出
模块度函数只适用于结点数较多的社区探测,不能检测出复 杂网络中的小社区结构∞1.
i∈c々,F≥k。.(J≠k,J=l,2…m)
(1.7)
并且
∑州c。)>∑七:“(c。) …}
‘fit‘‘
(1.8)
2.2
模块密度D
针上述模块度函数的这一缺陷,李珍平提出模块密度D
即在满足最弱社区的基础上,如果满足社区内的所有结点在 社区内的度值之和大于所有结点在社区外的度值之和,则认 为这样的社区具有弱社区结构.如此定义的,弱社区结构满 足如下包含关系:若社区是一个强社区,那么该社区同时也 是一个弱社区和最弱社区.若社区是一个弱社区,那么该社
MFC算法
MFC算法基于图论中的最大流一最小截定理.该算法 假设网络中最大流量由网络“瓶颈”的容量决定,而在具有
社区结构的网络中,网络“瓶颈”由社区间连接构成,由最大 流一最小截定理可知,网络中的最大流等于最小截集的容
通过优化目标函数来得出复杂网络的社区结构.下面介绍几 种较为典型的优化算法.
3.1.1
LS集
Ls集是比强社区定义还要严格的一种定义,一个Ls集
是一个结点构成的集合,它的任何真子集与该集合内部的连
边都比与该集和外部的连边多. 1.4
派系
派系的定义是基于社区的连通性,一个派系是由3个或
3个以上顶点组成的全连通子图,即任意两点问都有直接相
连的边.由派系的定义产生了n一派系的概念,这是对派系 定义的弱化,n一派系只图中任意两个顶点不必直接连接,最 多可以通过凡一1个中介点连通.n一派系的定义允许社团的 重叠,在实际复杂网络中,存在很多社区重叠的问题,这一问
1.2
占(c)2而等沥
其中m为网络中总的边数.
(1.3)
一个网络的合理社区分割要满足社区内的连接率要大 于网络的平均连接率,而社区间的连接率要小于平均连接 室.
强社区和弱社区的定义
lqadieehi等人给出了强社区和弱社区的定义,引文[2]
1
社区定义
一些科研工作中们又从不同的角度提出了一些社区的
中,又在强社区和弱社区的基础上定义了最弱社区,并且对
对于一个有n个结点的无向图G的Laplace矩阵是一个
n×n维的对称矩阵,记为L.其中£的对角线上的元素L。表 示结点i的度,非对角线上元素£。表示结点i和结点,的连接
心度方法等等,本文采用单亲遗传算法来求解这一问题,下 面主要阐述目前存在的几种主要的进化算法. 近年来,基于智能计算也提出了一些复杂网络社区划分 的方法,如遗传算法的运用,还有一些将遗传算法与其他方
3.3
这种划分的方法的缺陷是只能用于划分存在两个社团
结构的网络,并且必须事先知道该网络的两个社区的大小.
这些局限使得该算法很难应用于实际问题.
3.1.2
谱方法
其他复杂网络社区结构发现方法
除了上述两类方法外,还存在这些方法,例如:进化算
该方法通过分析网络的Laplace算子的特征向量完成分
割.
法,基于相似度的层次聚类算法,随机游走算法,结点聚类中
区同时是一个最弱社区.反之不成立. 1.3
的概念∞1
上式中,m为社区个数,G。为社区i中的结点组成的整个网络
。=砉郴卜薹盟铲∽2,
社区度C
c的子图,£(一,一)为社区i内部连边的数量,L(一,y。)为社
区i中的结点与社区外部结点连边的数量.I—l为社区i的 结点个数. 模块密度D表示社区内部边与社区间的边之差与社区 结点总数之比.模块度密度这一衡量标准考虑到了社区总的 结点数,克服了模块度Q无法探测小社区的缺陷. 2.3
该算法的缺点是时间复杂度较大,为O(n3),因此无法
3
社区结构发现的算法
在这一部分将对复杂网络社区化问题的一些经典算法
进行简单介绍.目前存在的复杂网络社区划分方法大体上可 以分为两类…:基于优化的方法,启发式方法.
3.1
将其用于规模较大的复杂网路.
3.2.2
基于优化的算法
这一类方法将复杂网络社区划分问题看作是优化问题,
法进行结合来求解这一问题.
3.3.1
关系.如果这两个结点之间有边相连接,则L。=I,否则 L。=一1,该矩阵总有一个特征值为0,其对应的特征向量为 z=(I,1,…,1).可以证明,不为零的特征值所对应的的特 征向量的各元素中,同一个社区内的结点对应的元素是近似 相等的,这就是谱平分方法的理论基础.
中有较为详细的讨论.本文中不考虑社区重叠的问题,主要 采用Newman提出的结点集合的定义方式. 虽然人们从不同角度提出了多种关于网络社区结构的 定义,但目前还没有一个被人们广泛认可的统一的的定义. 2
2.1
一种改进的模块度函数Q
Newman等人给出的模块度函数Q存在一定缺陷,因此.
许多人都致力于Q函数的改善,文献[8]中结合社区结构的 最初定义,给出一种改进的模块度函数,我们称其为Q.