一种基于局部相似性的社区发现算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于局部相似性的社区发现算法
吴钟刚;吕钊
【摘要】现有社区发现算法大多仅考虑图的拓扑结构或节点的属性信息,其中结合两者的属性图聚类算法挖掘效果不理想,而基于共享邻居的局部相似性算法却未充分度量节点间相似度.针对上述问题,提出一种新的基于局部相似性的节点相似度社区发现算法.该算法包括基于局部相似性的节点相似度计算和节点聚类2个模块.利用Pagerank算法计算基于图链接结构的节点重要性,衡量节点间的链接强度并结合节点的属性得到节点对相似性.为避免基于共享邻居的节点相似度计算的低估倾向,引入邻居节点集之间的相似度作为节点局部相似性.采用K-Medoids聚类算法将节点与分组中心节点的局部相似性值作为节点类别归属的判断,得到社区划分的结果.实验结果表明,与经典SA-Cluster与k-SNAP等算法相比,该算法能挖掘出质量更高的社区,具有较好的社区划分效果.%Many existing community detection algorithms focus on topological structure or node attributes.Some attribut graph clustering algorithms consider both of them but the quality of community is not good.Shared neighbors based local similarity algorithms underestimate pairwise of node similarity.Hence,this paper proposes a new Local Similarity based Community Detection(LS-CD)algorithm.The proposed algorithm contains two main components:node local similarity calculation and node clustering.It evaluates the vertex importance using the Pagerank algorithm and calculates the similarity of pairwise vertexes by combining connetion strength and node attribute.To avoid underestimating node similarity based on shared neighbors,the similarity of vertexes is calculated by the similarity of their local neighborhoods.The
K-Medoids clusteringalgorithmisusedtoidentifycommunitybymeasuringthelocalsimilari tyofnodeandclustercentroid.Experimentalresultsshowthat,comparedwithtra ditionalSA-Clusterandk-
SNAPalgorithms,thisalgorithmcanminehighqualitycommunityandhasgoodc ommunityidentificationeffect.
【期刊名称】《计算机工程》
【年(卷),期】2016(042)012
【总页数】8页(P196-203)
【关键词】社区发现;图聚类;属性图;节点重要性;局部相似性;节点相似度
【作者】吴钟刚;吕钊
【作者单位】华东师范大学计算机科学技术系,上海 200241;华东师范大学计算机科学技术系,上海 200241
【正文语种】中文
【中图分类】TP311
近年来社会网络得到广泛应用,如科学家合作网、博客网络、电子邮件网络等。
社会网络中的社区定义为网络中的节点集合以及节点之间产生的联系,使得社区内部节点的链接比较紧密,而社区之间的节点链接相对稀疏[1]。
社会网络具有2个重要特征:一个是社区结构,即网络的结构性质;另一个是网络中节点属性信息,能促进更好地理解网络。
例如,在科学家合作网络中节点表示对应的论文作者,边则表示论文作者之间的论文合著关系,论文作者的研究主题可作为节点的属性信息,表明了论文
作者的研究兴趣。
社区发现作为社会网络研究的重要问题之一,受到了广泛的关注。
研究者将社会网
络描述为社会网络关系图,通过图聚类算法将节点划分到分组中[2-3]。
在传统的图
聚类方法中,通过分析图的拓扑结构后进行图聚类,有基于图划分[4-5]、基于密度[6-7]、基于层级聚类[8-9]等。
这些方法划分得到的子图的节点属性信息混杂,同质性较低。
基于属性相似的k-SNAP算法[10]得到的每个子图内的属性相同,但图结
构松散。
为充分考虑图结构与节点属性信息,文献[11]采用类似Newman[12]的模块度的定
义方法,通过权重因子调节结构模块度和属性模块度。
该方法在节点分组判定时,通
过移动节点到某个分组中,并计算混合模块度的增量正负变化以确定节点是否归属
到新的分组。
文献[13]结合图结构与节点属性生成扩展属性图。
其假设同一个分组的结构边的链接方式和节点的属性遵从相同的概率分布,采用概率推理模型衡量属
性图的同质性。
文献[14]提出基于随机游走模型的算法SA-Cluster,通过把属性作
为节点加入到原有图中形成扩展属性图。
该方法需要计算2种类型的边的权重:原
结构节点与原结构节点,原结构节点与属性节点。
该方法首先构建概率转换矩阵,然
后利用随机游走算法计算节点之间的距离(即节点间的相似度),最后采用K-Medoids聚类算法实现图的聚类。
相关文献中采用了基于共同邻居的节点相似度计算方法,文献[7]通过构造最近邻子图,计算基于共同近邻的节点相似度值,然后采用密度聚类算法。
文献[15]列出了常
见的基于共同邻居的节点相似度计算方法,如共同邻居数算法、Jaccard相似度等。
基于共同邻居的节点相似度计算方法存在以下不足:1)节点间无共同邻居时,得到相
似度值为0;2)需要计算相似度的2个节点本身并没有参与计算,而是依赖于两者的
共同邻居;3)未考虑到其他非共同邻居对相似度计算。
针对上述算法的不足,本文提出一种新的基于局部相似性的社区发现算法。
社会网络可形式化描述为属性图,类似文献[3,14,16]的定义方法,属性图表示为
G=(V,E,X,F),其中,顶点集V={v1,v2,…,vN}对应网络中N个节点;边集合中M条边;X={a1,a2,…,aT}描述网络节点的属性,权重为表示节点的属性及属性值映射关系。
图的邻接矩阵A,存在从节点vi到节点vj的有向边时,则Aij=1,否则Aij=0。
节点vi 入边邻居集为NI(vi),出边邻居集为NO(vi),节点vi的出入边邻居集为NIO(vi),定义vi的局部邻居集为NL(vi)=NIO(vi)∪vi。
属性信息可以分为3种类型:离散型,连续性和文本型,本文仅考虑离散型的属性。
本文方法用于发现非重叠的社区,根据社区的定义[1],文中将社区发现转化为属性图的节点聚类问题,满足以下条件:
1)Ci≠Φ,i =1,2,…,K。
,∀Ci⊆V。
3)Ci∩Cj=Φ,i,j=1,2,…,K,且i≠j。
其中,每个节点都仅属于其中一个分组Ci。
在图1中,顶点表示论文作者,边表示作者之间的论文合作关系,每个作者都有对应的研究内容作为其属性信息。
v1的局部邻居集为NL(v1)={v1,v3,v4,v5},v2的局部邻居集为NL(v2)={v2,v5,v6,v7,v8},其中,节点v5为两者的共同邻居。
v3和v6虽无
直接的论文合作关系且不是v1和v2的共同邻居,但都与v1和v2有相同的研究内容。
根据节点聚类目标,转化为衡量节点v1和v2的相似度,需要考虑以下2个问题:
1)相似度计算过程中需要考虑哪些邻居节点;
2)不同邻居节点对相似度计算的影响程度。
本文通过计算v1的邻居集NL(v1)与v2的邻居集NL(v2)的相似度SN(v1,v2)作为节点v1和v2的局部相似性。
以往基于共同邻居的节点相似度计算方法,忽略了非
共同邻居对节点的影响。
实际上,节点和它的邻居节点会有某种程度上的相似性,即
节点的邻居节点都一定程度影响着节点之间的相似度计算,因此,在计算vi和vj的局部相似性时考虑所有直接邻居。
为了完成社区发现任务,本文从以下2个方面进行:1)结合节点的结构相似性
ST(vi,vj)和属性相似性SA(vi,vj),计算节点对的相似性STA(vi,vj),再计算基于局部邻居相似度作为节点相似度SN(vi,vj);2)采用K-Medoids聚类算法对基于局部相似性的节点进行聚类。
本文提出的LS-CD算法框架如图2所示,该算法包括2个部分:局部相似性度量和节点聚类。
该方法的基本步骤如下:首先计算节点的重要性,并衡量节点的链接强度,结合节点的属性相似度,得到节点对相似性。
其次在聚类过程中,利用重要性高的节点作为分组初始的中心节点。
再计算待分类节点与分组中心节点的局部相似性,判别节点的分组归属。
最后更新中心节点以及属性权值调节并进行循环迭代。
2.1 局部相似性度量
节点的局部相似性的度量由节点对相似性计算和节点局部相似性计算2个部分组成。
2.1.1 节点对相似性计算
节点对相似性计算方法如下:
1)节点链接强度。
节点在图中的重要程度是不同的,节点之间的链接关系强度也是不同的。
文献[17]利用Pagerank算法分析论文引用网络中科学论文的重要性,文献[18]采用PageRank分析网页质量。
本文通过Pagerank算法计算每个节点vi 基于整个图G的重要性,计算如下:
其中,d表示一个节点通过链接达到其他节点的概率值。
d的取值范围为0~1,根据文献[19]的实验,d=0.85时效果较好,因而本文d设置为0.85。
计算得到节点vi的重要性φi后,重新计算节点之间的链接强度。
类似节点重要性的计算方式,节点的每条出边权重表示为φi/|NO(vi)|,节点vi到vj的链接强度表示
为vi的出边权重与被指向节点vj的重要性φj的比值。
定义如下:
其中,如果节点vi的出边权重在vj节点的重要度中比值越高,则相应从节点vi到vj 具有更大的链接强度。
vi和vj节点间的链接强度ST(vi,vj)计算如下:
ST(vi,vj)=Sl(vi,vj)+Sl(vj,vi)
计算节点间的链接强度,本文考虑到边的有向性,即vi到vj的链接强度与vj到vi的链接强度之和。
2)节点属性相似度。
节点属性信息是另一个重要的信息,本文考虑的是离散型的节点属性。
对于某个属性ai,属性相似度计算如下:
即如果2个节点的某个属性对应的属性值相同,则该属性的相似度为1,否则为0。
在满足,且wm≥0条件下,节点间的属性相似度为:
其中,SA(vi,vj)的取值范围为[0,1]。
聚类过程中对属性的权重进行调节[14],使得有利于聚类的属性有更高的权重。
3)节点对相似性。
节点对的相似性结合节点间链接强度和节点属性相似度,计算如下:
STA(vi,vj)=(1-λ)·ST(vi,vj)+λ·SA(vi,vj)
其中,λ的取值范围为[0,1]。
当λ=0时,只计算节点之间的链接强度而忽略节点的属性相似度;当λ=1时,只考虑节点的属性相似度而忽略节点间的链接强度。
2.1.2 节点局部相似性计算
本文考虑不同的邻居节点对局部相似度计算的影响程度不同,定义了影响函数,距离越远的节点对局部相似性计算的影响越小。
对于vi′∈NL(vi),vj′∈NL(vj),节点vi′和vj′对vi和vj相似度计算的距离因子d(vi′,vj′),定义如下规则:
规则1 若节点vi′为vi,节点vj′为vj,则d(vi′,vj′)为1。
规则2 若节点vi′为节点vi的邻居节点且vj′为节点vj,或者vi′为节点vj′为节点vj 的邻居节点,则d(vi′,vj′)为2。
规则3 若节点vi′为vi的邻居节点,且节点vj′为vj的邻居节点,vi′和vj′为同一个节点,则d(vi′,vj′)为2,否则d(vi′,vj′)为3。
类似文献[20],距离影响函数D(vi′,vj′)定义如下:
D(vi′,vj′)=e-2
对于给定的2点vi和vj,在聚类的过程中,基于局部邻居信息的相似度SN(vi,vj)由vi邻居集NL(vi)与vj邻居集NL(vj)的相似度计算得到,如式(8)所示。
式(8)中除以分母基于2个方面考虑:1)消除了由于邻居数多,导致的节点局部相似性过大的不合理因素;2)对分母取对数,考虑到分子计算出来的值较小,防止拥有较多的邻居集反而得到较低的局部相似度值。
当节点vi′和vj′为同一个节点时,此时节点对相似性STA(vi′,vi′)为1,因而当节点vi 和vj共享邻居数越多时,得到的局部相似度值越大。
计算基于局部邻居信息的相似度时考虑了节点之间的距离,当距离越大时,距离影响函数D取值越小,表明对相似度计算的影响越小。
2.2 节点聚类
在计算节点相似度后,通过聚类算法将节点进行聚类分组,文献[7]采用了密度聚类的方法,文献[9]采用了层次树聚类的方法,文献[14]采用了K-Medoids图聚类算法。
本文在式(1)中计算了节点的重要性,重要性高的节点作为分组的初始中心节点能更快地得到聚类结果,因而采用K-Medoids[21]聚类算法较为合适,主要分为3个步骤:分组中心初始化,节点分组归属的判定,分组中心节点的更新。
1)分组中心初始化。
考虑到随机初始分组的中心节点存在2个不足:(1)若选中的节点是孤立节点,即与图中其他节点无连接,则聚类过程中,其他节点几乎不会分配到此分组。
(2)若初始化的中心节点不是孤立节点,此时需要更多的迭代次数,才能达到收敛。
为避免上述不合理的现象,本文利用式(1)中计算得到的重要性φi高的节点作为分
组的初始中心节点。
该重要性越高,表明其他节点有更多的联系,更有可能成为分组的中心,加快收敛。
2)节点分组归属判定。
首先需要计算节点vi的邻居节点NL(vi)与分组中节点的邻居节点相似度值,该值作为节点vi与的相似度。
然后选择相似度值最大的所对应的分组Ck作为节点vi的分组归属,即:
3)分组中心节点更新。
首先求得每个分组Ck的平均值点并得到对应的平均值: 对于(n+1)次循环中,节点vi′被选定为中心节点,如下:
为了使得选择出来的分组中心节点与分组中其他节点具有更紧密的链接关系,上述中心节点的选取满足,其中,为分组Ck的平均度数,计算:
根据图聚类目标划分图使得各分组内部的相似度值越大,而分组之间的相似度值越小,设计目标函数Fobj,各分组内部的相似度计算如下:
聚类的目标是计算各分组的相似度之和Fobj:
目标函数的收敛条件前后2次迭代变化小于阈值。
综上,本文提出的LS-CD算法总结如下:
算法1 LS-CD算法
输入属性图G,分组数K,权重因子λ,距离影响参数σ
输出 K个分组集合{C1,C2,…,CK}
1: Calculate vertex importance φi;
2: Measure edge strength ST(vi,vj);
3: Calculate attribute similarity SA(vi,vj);
4: Calculate pair vertex similarity STA(vi,vj);
5: Initialize K cluster centroids;
6: while not converges do
10: Do attribute weight self-adjustment;
11: Re-calculate pair vertex similarity;
12: end while
13: Return K clusters;
算法复杂度分析:LS-CD算法的时间复杂度主要分为分组中心节点的初始化、节点的分组归属判定、节点分组中心节点更新3个部分。
第1部分聚类中心初始化采用了PageRank算法,时间复杂度O(NM),中心节点选择需要O(NlbK),因而第1部分的时间复杂度为O(NM)。
第2部分节点分组归属判定,首先计算节点对相似性,时间复杂度为O(N2);然后计算待分类节点与分组中心节点的局部相似性,时间复杂度为O(NK|NL|2),属性图中每个节点的平均邻居集大小为M/N,因而第2部分的时间复杂度为O(N2+N·(M/N)2)。
第3部分主要时间在更新分组的中心节点,时间复杂度为O(N2)。
综上分析LS-CD算法时间复杂度为O(NM+N2+M2/N)。
SA-Cluster算法对属性图进行了扩展,在原有的属性图的基础上增加了属性节点,因而扩展后的节点数目为,时间复杂度为
3.1 实验数据集
为了验证LS-CD算法的可行性,实验在2个真实的数据集Political Blogs数据集[22]以及DBLP数据集[14]上进行。
1)Political Blogs数据集是政治倾向的博客数据,其中节点表示博文,边表示博文页面之间的超链接关系,每个节点有一个政治倾向的属性表示民主或者保守。
2)DBLP数据集是科研合作网络数据,选取其中4个研究领域(数据库、数据挖掘、信息检索以及人工智能)的论文贡献量前5 000名的作者,每个作者拥有2个属性:论文产量以及科研兴趣组号。
关于DBLP数据集的具体信息及在该实验数据集上的SA-Cluster,k-SNAP实验结果见文献[14]。
3.2 聚类评价函数
本文采用2个聚类评价函数[3,14],即聚类密度和聚类熵值,定义如下:
其中,表示类Ck中在属性at上取值为atτ的概率。
聚类密度从结构上评价聚类质量的好坏,值越大,表示聚类效果越好。
聚类熵值越低表示分组同质性越高,聚类效果越好。
3.3 实验设计
为了验证本文所提算法的有效性,与经典的算法进行了比较,实验设置如下:
1)SA-Cluster算法,计算采用随机游走算法计算节点相似度的属性图聚类算法。
2)k-SNAP算法,基于属性相似度的聚类的方法。
3)LS-CDT算法,作为基准算法,在式(6)中λ=0,即仅考虑拓扑结构信息的节点局部相似性的方法。
4)LS-CD算法,本文提出结合拓扑结构和节点属性信息的基于节点局部相似性的方法。
实验中设置SA-Cluster算法和k-SNAP算法作为对比算法,主要基于以下考虑: 1)近期的算法与本文研究对象(结合结构信息和节点离散型属性信息)或者研究的方法类别不同,文献[7-9]仅考虑节点的结构信息。
结合两者信息的方法:基于全局模块度优化[11],基于贝叶斯概率模型[13],与本文基于节点相似度的聚类算法属于属性图里不同的研究方法,难以做出较好的对比。
2)SA-Cluster作为属性图聚类的经典方法,其研究对象与研究方法的类别,均和本文较接近,具有较高的可比性。
在近期研究中,仅考虑属性相似的聚类算法较少,k-SNAP算法作为这一类别的经典算法,常被研究者作为属性图挖掘中基于属性相似的基准算法。
3.4 聚类实验
3.4.1 聚类质量评估
在2个数据集上对聚类质量进行评价,实验中2个数据集上的邻居节点的距离影响参数设置均为σ=2。
如图3所示,在Political Blogs数据集中,聚类数目设置为
K=3,5,7,9,权重因子λ=0.005,图4中对于DBLP数据集,聚类数目设置为
K=10,30,50,70,权重因子λ=0.008。
如图3所示,LS-CD算法的聚类密度较LS-CDT,SA-Cluster算法高,在K=3时,达到0.9,LS-CD的聚类熵值均维持在0.20~0.23。
如图4所示,LS-CD的聚类密度和聚类熵值比其他2个方法都更优,在不同的聚类数目下,聚类密度维持在0.5以上,而聚类熵值维持在1.5以下。
k-SNAP算法只考虑节点的属性信息进行聚类,所以在每个分组中的属性相同,即每个分组同质,对应的聚类熵值接近0。
2个数据集上的LS-CDT的聚类熵值都较高,主要是LS-CDT聚类过程中仅考虑结构信息而忽略了节点的属性信息,使得在同一个分组中的属性不一致性程度较LS-CD和SA-Cluster算法要大。
随着聚类数目的增加,聚类密度具有下降的趋势,主要是因为分组之间的联系增多,分组内部的连接相对减少,而聚类熵值具有下降趋势,主要是因为分组变多时,各个分组的属性不一致性程度下降,使得整体聚类熵值下降。
3.4.2 聚类效率
表1、表2展示了不同的LS-CD在2个数据集上的聚类效率,分别统计了聚类密度(D)、聚类熵值(E)。
在数据集Political Blogs上的迭代次数整体上较在DBLP数据集上少,主要是与数据集的规模有关。
随着聚类数目K增加,需要更多的迭代次数,整体上随着迭代次数的增加,聚类密度呈增大趋势,而聚类熵值呈减少趋势,意味着聚类分组的质量越来越高。
3.4.3 属性权重分析
DBLP数据集有2个属性信息,分别为论文产量和论文作者的科研兴趣组号。
其中第1个属性值有3种,即高、中、低。
第2个属性值有100种,分别为0~99的兴趣组id号。
图5显示了在DBLP数据集上的属性权重自动调节后论文产量属性的权重变化。
初始时论文产量和科研兴趣组号属性权重分别为0.5。
随着聚类迭代次数的增加,论文产量属性的权重逐渐提升,而科研兴趣组号属性的权重逐渐下降。
主要是因为科研兴趣组号属性值较多,而聚类过程目标是让每个分组的属性尽量一致,过多的属性值会使分组的属性值相异性增强。
为了保持同质性,自动调节权重算法,将科研兴趣组号属性的权值调低,使得有利于得到聚类结果好的论文产量属性的权重被提升。
3.4.4 参数分析
本文的结构相似和属性相似权重调节参数λ,距离影响参数σ,聚类数目K。
在实验中σ设置为2,而聚类参数K可以配置具体的聚类数目,在此主要研究λ的变化对聚类密度和聚类熵值的影响。
如图6、图7给出了随着权重调节参数λ在2个数据集上的聚类密度和聚类熵值的变化。
其中,2个数据集上调节因子λ都具有较低的值,主要是节点基于结构的链接强度值较节点间的属性相似度值小很多,因此通过调低参数λ来平衡两者。
如图6所示,在λ<0.005时,聚类密度有上升趋势,聚类密度有下降趋势;而当
λ>0.005时,聚类密度整体上看有下降趋势,而聚类熵值有上升趋势,因而选取
λ=0.005作为参数值较好。
同理对于图7中得到较好的参数λ=0.008。
本文提出一种新的基于节点相似度的聚类算法LS-CD,主要贡献如下:
1)基于Pagerank链接分析算法,得到节点的重要性,衡量结构链接强度并结合属性相似性得到节点对相似性,在此基础上,计算节点的邻居集之间的相似性作为节点之间的局部相似性。
2)采用K-Medoids聚类算法,根据节点的重要性初始化分组中心节点,计算待分类节点与分组中心节点的局部相似性作为节点分组判定的依据。
为了验证LS-CD算法的有效性和可用性,在2个真实的数据集上实验,并与经典的属性图聚类算法比较,实验结果表明,本文算法取得了更高的聚类效果。
本文针对共享邻居对节点对相似度具有低估倾向的问题,提出基于局部相似性的节点相似度的社区发现算法,即衡量2个节点的邻居集之间的相似度作为节点的局部相似性。
通过K-Medoids聚类算法,计算节点与分组中心节点的局部相似性作为节点分组判定的依据。
在真实网络数据集上的实验结果表明,相比较于经典的SA-Cluster算法,本文算法能挖掘出质量更高的社区。
但该算法存在一定的局限性,仅考虑了离散属性信息或者将文本信息转化为离散的属性信息,多种类型的属性聚类有待进一步的研究与探讨。
英文引用格式:Wu Zhonggang,Lü Zhao.A Community Detection Algorithm Based on Local Similarity[J].Computer Engineering,2016,42(12):196-203.【相关文献】
[1] Lancichinetti A,Fortunato munity Detection Algorithms:A Comparative Analysis[J].Physical Review E,2009,80(5).
[2] Pang T,Steinbach M,Kumar V.Introduction to Data Mining[M].[S.1.]:Pearson Education Limited,2006.
[3] 吴烨,钟志农,熊伟,等.一种高效的属性图聚类方法[J].计算机学报,2013,36(8):1704-1713.
[4] Newman M E J.Finding Community Structure in Networks Using the Eigenvectors of Matrices[J].Physical Review E,2006,74(3).
[5] Newman M E munity Detection and Graph Partitioning[J].Europhysics Letters,2013,103(2).
[6] Chen J,Saad Y.Dense Subgraph Extraction with Application to Community
Detection[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(7):1216-1230.
[7] Singh S,Awekar A.Incremental Shared Nearest Neighbor Density-based
Clustering[C]//Proceedings of the 22nd ACM International Conference on Information & Knowledge Management.New York,USA:ACM Press,2013:1533-1536.
[8] Dev H.A User Interaction Based Community Detection Algorithm for Online Social Networks[C]//Proceedings of ACM SIGMOD International Conference on Management of Data.New York,USA:ACM Press,2014:1607-1608.
[9] Weng W,Zhu S,Xu H.Hierarchical Community Detection Algorithm Based on Local Similarity[J].Journal of Digital Information Management,2014,12(4):275-286.
[10] Tian Y,Hankins R A,Patel J M.Efficient Aggregation for Graph
Summarization[C]//Proceedings of ACM SIGMOD International Conference on Management of Data.New York,USA:ACM Press,2008:567-580.
[11] Dang T A,Viennet munity Detection Based on Structural and Attribute Similarities[C]//Proceedings of International Conference on Digital Society.New
York,USA:ACM Press,2012:7-12.
[12] Clauset A,Newman M E J,Moore C.Finding Com-munity Structure in Very Large Networks[J].Physical Review E,2004,70(6).
[13] Xu Z,Ke Y,Wang Y,et al.A Model-based Approach to Attributed Graph
Clustering[C]//Proceedings of ACM SIGMOD International Conference on Management of Data.New York,USA:ACM Press,2012:505-516.
[14] Zhou Y,Cheng H,Yu J X.Graph Clustering Based on Structural/Attribute
Similarities[J].Proceedings of the VLDB Endowment,2009,2(1):718-729.
[15] Lü L,Zhou T.Link Prediction in Complex Networks:A Survey[J].Physica A:Statistical Mechanics and Its Applications,2011,390(6):1150-1170.
[16] 张春英.基于属性图的社交网络建模与态势分析理论研究[D].秦皇岛:燕山大学,2013.
[17] Ma N,Guan J,Zhao Y.Bringing PageRank to the Citation Analysis[J].Information Processing & Manage-ment,2008,44(2):800-810.
[18] Arasu A,Cho J,Garcia-Molina H,et al.Searching the Web[J].ACM Transactions on Internet Technology,2001,1(1):2-43.
[19] Yan E,Ding Y.Discovering Author Impact:A Page Rank Perspective[J].Information Processing & Manage-ment,2011,47(1):125-134.
[20] Yu X,Yang J,Xie Z Q.A Semantic Overlapping Com-munity Detection Algorithm Based on Field Sampling[J].Expert Systems with Applications,2015,42(1):366-375.
[21] Kaufman L,Rousseeuw P.Clustering by Means of Medoids[M].[S.1.]:North-Holland Press,1987.
[22] Adamic L A,Glance N.The Political Blogosphere and the 2004 US Election:Divided They Blog[C]//Pro-ceedings of the 3rd International Workshop on Link Discovery.New York,USA:ACM Press,2005:36-43.。