万维网链接结构的复杂性分析

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

万维网链接结构的复杂性分析

郭阳;刘展威;赵正旭

【摘要】The World Wide Web(WWW) constitutes a massive complex network that is far beyond for a traditional random network model to describe its structure and behaviors. By analyzing the network link data, the relevant parameters and factors are established and computed by comparing theory with practice implication. It concludes that the WWW has the small world effect, the average shortest path of the WWW is about 15 hops, clusters are groupings of Web pages devoted to the same topic and then form scale-free networks.%对于凭借网页间链接结构所构成的超大规模复杂网络,万维网的链接结构并不符合传统的随机网络模型.为此,通过对万维网真实链接数据的提取及分析,计算并对比节点的度分布、平均路径长度及集群系数等相关网络指标.分析结果表明,万维网具有小世界效应,整个网络的平均路径长度约为15跳,具有相似主题的网页组成若干个集群,进而构成无标度网络.

【期刊名称】《计算机工程》

【年(卷),期】2011(037)023

【总页数】3页(P105-106,109)

【关键词】小世界效应;无标度网络;超链接分析;度分布;幂律

【作者】郭阳;刘展威;赵正旭

【作者单位】石家庄铁道大学信息科学与技术学院,石家庄050043;石家庄铁道大学信息科学与技术学院,石家庄050043;石家庄铁道大学信息科学与技术学院,石家庄050043

【正文语种】中文

【中图分类】TP393

1 概述

文献[1]揭示了复杂网络的小世界特性,文献[2]揭示了复杂网络的无标度性质。这2篇文章所揭示的小世界特性和无标度性质,以及这些特性的产生机理和相应模型的建立,开创了复杂网络研究的新纪元。

万维网(World Wide Web, WWW)作为当今人类社会信息化的标志,其规模正以指数速度高速增长。网络链接作为基本构成要素和最显著的特征,一直是国内外专家学者所广泛关注的对象。本文就是以万维网的链接结构为研究对象,探讨万维网的小世界效应及无标度性质。

2 真实网络的统计特征

最近几年,科学家们发现真实的网络既不是规则网络,也不是随机网络,而是具有与前两者都不同的统计特征的网络。

关于复杂网络拓扑结构性质的研究进展有很多,其诸多的统计特征中最重要的就是小世界特性和无标度特性。

2.1 小世界特性

绝大部分复杂网络系统都具有小世界特性。1999年的万维网大约包含10亿个网页,研究人员曾经通过设计一种软件对网页进行数据采集分析,结果发现万维网网页间的平均距离大约是19。这就意味着在万维网上随机选取2个网页,不断点击

网页上的超链接,最多点击 19次鼠标就能够链接到达目标网页,这就是万维网的小世界特性的一个体现。

2.2 无标度特性

在随机网络中,任意2个节点都是随机连接的,其度分布函数是一个中间大两边

小的泊松函数,峰值位于节点度 k的平均值处。研究人员通过研究真实复杂网络

后发现,度分布并不像预料的那样服从泊松分布,而是遵循某种幂律形式,这种幂律形式与泊松分布相比,随着节点度k的增大,分布函数P的衰减变得更为缓慢,大k值的节点数目明显增多。这就说明真实网络节点的度服从幂律分布[3-4]。这

种节点度分布呈现幂律形式的特征称为无标度特性。

3 网络分析的统计性质

度分布、平均路径长度和集群系数是网络分析的主要统计性质。文献[1]提出的小

世界网络模型就是企图建立一个既具有类似于随机图的较小的平均路径长度,又具有类似于规则网络的较大的集群系数的网络模型。文献[2]提出的无标度网络模型

则是基于许多实际网络的度分布具有幂律形式的事实。下面对网络的统计性质给予说明[5-6]。

3.1 度与度分布

网络中节点的度分布表示为k的分布函数P(k),代表任意选择的节点的度值正好

等于k的概率,同时也可表示为网络中度值为k的节点数所占总节点数的比例。

针对一个网络模型,可以绘制出其度分布图形。然而对于那些度值较大的节点体现出较强的波动性,难以计算其统计性质,因此度分布图一般绘制在对数标度上。3.2 平均路径长度

网络中连接节点i和j的最短路径上的边数称为这2个节点之间的距离,表示为Lij。网络的平均路径长度L又称为特征路径长度,定义为Lij的平均值,也就是任意两节点间距离的平均值。对于一个具有N个节点的网络系统而言,若其平均距离L

不大于lnN的值,就有理由认为该网络系统具有小世界效应。

3.3 集群系数

在社会关系网络中,一个人的2个朋友之间可能也互为朋友,这种现象充分体现

了社会网络的集群特性。假如网络中的节点i与该网络中的其他ki个节点相连,

显然这些节点之间最多可能有ki (ki−1)/2条连线。如果它们之间实际只存在Ei条连线,那么这ki个节点之间连线数Ei与最多可能存在的连线数之比就定义为节点

i的集群系数Ci。

4 链接网络分析

对所有网站甚至是所有特定类型的网站进行研究和分析是一个庞大的平行计算问题。但为了有效地分析万维网的链接结构,本项研究利用 Pajek软件,结合万维网的

真实链接数据,绘制出了一个拥有793个节点和4 878条边的万维网链接网络图,如图1所示。

图1 万维网的链接网络

“小世界效应”是指一个网络同时具有较小的平均路径长度和较大的集群系数。即:与相同规模的随机网络相比,小世界网络具有平均路径长度较小且集群系数较大的特性。“无标度”分布也称为幂律分布,是指网络的度分布具有适当幂指数(通常

为2≤γ≤3)的幂律形式。该网络中绝大部分节点的度相对很低,但存在少量的度相对很高的节点。为此,本项研究同时绘制了相同规模的基于ER模型以及 BA无标度模型的网络图以作对比,限于篇幅,网络图不再罗列。

4.1 相关指标的计算

表1分别给出了3种网络的相关参数值,通过对比不难发现,从平均路径长度和

直径角度来看,ER随机网络最大,BA无标度网络最小,而本文的研究对象万维

网居于两者之间;从集群系数的角度来看,ER随机网络最小,BA无标度网络最大,万维网仍居于两者之间,较接近于BA模型。上述结果与预期理论值十分相符,

相关文档
最新文档