复杂网络上的传播行为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
复杂网络上的传播行为
周涛蒋品群汪秉宏
自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述。
一个典型的网络是由许多节点与连接两个节点之间的一些边组成的,其中节点用来代表真实系统中不同的个体,而边则用来表示个体间的关系,往往是两个节点之间具有某种特定的关系则连一条边,反之则不连边,有边相连的两个节点被看作是相邻的。
例如,神经系统可以看作大量神经细胞通过神经纤维相互连接形成的网络;计算机网络可以看作是自主工作的计算机通过通信介质如光缆、双绞线、同轴电缆等相互连接形成的网络。
类似的还有电力网络、社会关系网络、食物链网络等等[1]。
计算机病毒在计算机网络上的蔓延、传染病在人群中的流行、谣言在社会中的扩散等等,都可以看作是服从某种规律的网络传播行为。
如何去描述这种传播行为,揭示它的特性,寻找出对该行为进行有效控制的方法,一直是数学家、物理学家和计算机学家共同关注的焦点。
2003年的春夏,正是SARS肆虐之际,如果我们把每一个人看作网络中的一个节点,在经常接触从而有可能相互传染的人之间连一条边,那么SARS的流行就可以看作是在上述人群关系网络上的一种特殊的传播行为,对其加以研究既有利于我们更好地认识SARS传播的特点,又有助于我们利用有限的资源最大限度地遏制SARS的传播。
如何进行研究呢?首先我们需要了解代表真实系统的网络到底具有哪些统计上的性质。
复杂网络及其统计特性
数学家和物理学家在考虑网络的时候,往往只关心节点之间有没有边相连,至于节点到底在什么位置,边是长还是短,是弯曲还是平直,有没有相交等等都是他们不在意的。
在这里,我们把网络不依赖于节点的具体位置和边的具体形态就能表现出来的性质叫做网络的拓扑性质,相应的结构叫做网络的拓扑结构。
那么,什么样的拓扑结构比较适合用来描述真实的系统呢?两百多年来,对这个问题的研究经历了三个阶段。
在最初的一百多年里,科学家们认为真实系统各因素之间的关系可以用一些规则的结构表示,例如二维平面上的欧拉格子,它看起来像是格子体恤衫上的花纹;又或者最近邻环网,它总是会让你想到一群手牵着手围着篝火跳圆圈舞的姑娘。
到了十九世纪五十年代末,数学家们想出了一种新的构造网络的方法,在这种方法下,两个节点之间连边与否不再是确定的事情,而是根据一个概率决定。
数学家把这样生成的网络叫做随机网络,它在接下来的四十年里一直被认为是描述真实系统最好的网络。
直到最近几年,由于计算机数据处理和计算能力的飞速发展,科学家们发现大量的真实网络既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特征的网络。
这样的一些网络被科学家们叫做复杂网络,对于他们的研究标志着第三阶段的到来。
遗憾的是,就目前而言,科学家们还没有给出复杂网络精确严格的定义,从这几年的研究来看,之所以称其为复杂网络,大致上包含以下几层意思:首先,它是大量真实复杂系统的抽象;其次,它至少在感觉上比规则网络和随机网络复杂,因为我们可以很容易地生成规则和随机网络,但就目前而言,还没有一种能够生成完全符合真实网络统计特征的简单方法;最后,它还被认为是有希望解决“复杂系统之所以复杂”这一至关重要问题的有力武器。
周涛,硕士研究生;蒋品群,博士研究生;汪秉宏,教授:中国科学技术大学近代物理系,合肥 230026
在复杂网络的诸多统计特征中最重要的是小世界效应和无标度特性。
如果网络中的两个节点可以通过一些首尾相连的边连接起来,我们就说这两个点是可达的,并把连接他们所需要的最少的边的数目叫做他们之间的距离,显然,这两个点之间的距离总是比网络拥有的节点总数要小。
如果两个节点是不可达的,我们就令它们之间的距离等于网络的节点总数。
把所有节点对的距离求平均,就得到了网络的平均距离。
另外一个叫做簇系数的参数,专门用来衡量节点集聚成团的情况。
对于某个节点,它的簇系数被定义为它所有相邻节点之间连边的数目占可能的最大连边数目的比例。
类似的,网络的簇系数则是所有节点簇系数的平均值。
研究表明,规则网络具有大的簇系数和大的平均距离,随机网络则具有小的簇系数和小的平均距离。
1998年,物理学家通过以某个很小的概率改变规则网络中边的连接方式构造出了一种介于规则网络和随机网络之间的网络,它同时具有大的簇系数和小的平均距离,因此既不能当作规则网络处理,也不能被看作是随机网络。
后来物理学家把大的簇系数和小的平均距离两个统计特征合在一起称为小世界效应,具有这种效应的网络就是小世界网络[2]。
小世界网络拓扑结构示意图左边的网络是规则的,右边的网络是随机的,中间的网络是在规则网络上加上一点随机的因素而形成的小世界网络,它同时具
有大的簇系数和小的平均距离。
科学家们对大量的真实网络,比如电力网络、计算机互联网、食物链网络、演员关系网、科学家合作网络等等做了大量实证性的研究,发现它们几乎都是小世界网络,同时,他们还发现了真实网络的另一重要统计特征,即节点度服从幂律分布。
节点度是指一个节点拥有相邻节点的数目,节点度服从幂律分布就是说具有某个特定度的节点数目与这个特定的度之间的关系可以用一个幂函数近似地表示。
幂函数曲线是一条下降相对缓慢的曲线,这使得我们不仅能在网络中发现大量度很小的节点,还能找到一些度很大的节点。
上面那幅图中的规则网络,随机网络和小世界网络的节点度分布都不是幂律的,它们的分布区间非常狭窄,几乎找不到偏离节点度均值较大的点。
对于这样的网络,上述均值就可以被看作衡量其节点度的一个特征标度,在这个意义上,我们把节点度服从幂律分布的网络叫做无标度网络,并称这种节点度的幂律分布为无标度特性。
无标度网络的拓扑结构1999年,物理学家给出了生成无标度网络的一种简单方法[3],本图例有130个节点,节点度服从幂指数为-3的幂律分布。
由于以前的网络传播模型大都是基于规则网络的,因此,复杂网络不同统计特征的发现使科学家面临更改既有结论的危险。
当然,如果理论研究和实验结果都说明复杂网络上的传播行为与规则网络别无二致,那么我们至少暂时还可以心安理得地使用以前的结论。
但是,不幸的是,复杂网络上的传播行为与规则网络相比确实存在根本上的不同。
为了清楚地了解这种不同及其意义,我们先来回顾一下传统的传播模型和在这个模型下得到的主要结论。
经典的传播模型及其主要结论
和某个具体领域的工程学家不同,数理学家在研究传播行为时,往往并不区别他所研究的对象到底是计算机病毒在互联网上的传播还是疾病在人群中的传播。
他们总是把这种可以在网络中传播开来的东西叫做疾病,哪怕它其实是一个谣言或是某种恐慌情绪,然后用节点代表可能通过传染或感染影响疾病传播行为的个体,如果两个个体之间可以通过某种方式直接的发生传染与被传染的关系,就在它们之间连一条边。
这样,数理学家就得到了传播网络的拓扑结构,如果再制定好疾病传播扩散的规则,给出初始条件,这个模型就基本建好了。
如上所述,一个完整的网络传播模型至少应该包括两个方面,一是传播规则的制定,二是网络拓扑结构的选择。
但是,在以前的研究中,科学家把几乎全部的精力放在对传播规则的讨论上,却没有给予网络拓扑结构应有的关注。
翻看以前的文献,我们可以发现,网络拓扑结构在他们的模型中只扮演了一种无足轻重的辅助角色,科学家们似乎并无根据地认为网络拓扑结构完全或者至少基本上不会影响疾病传播的特征。
在这种假设下,规则网络既便于理论分析,又易于进行实验,自然成为研究的首选。
科学家们设计了形形色色的网络传播模型,其中最为著名的是SIS模型和SIR模型。
在SIS模型中,每一个节点只能处于两种离散状态中的一种,一是健康易感的,二是已被感染从而具有传染性的。
而在SIR模型中,节点还可以处于一种叫做免疫的状态,在这种状态下,节点既不会被感染,也不会感染其它节点,相当于已经从传播网络中被清除了。
限于篇幅的原因,我们在本文中只介绍SIS模型,SIR模型是类似的,感兴趣的读者可以通过阅读相关文献了解有关SIR模型的知识。
在SIS模型下,初始时随机选择网络中一个或若干节点为染病节点,其余为健康节点。
在每一个时间步,如果一个健康节点与一个或多个染病节点相邻,则它依某个事先设定的概率变成染病节点,这一概率叫做染病概率,同时每一个染病节点都依某个事先设定的痊愈概率变成健康节点。
在每个时间步,这些演化规则在整个网络中被并行地执行。
显然,染病概率越大,痊愈概率越小,疾病就越有可能感染更多的人,这里,定义染病概率和痊愈概率的比值为传染强度,并用这个参数综合地衡量疾病自身的特征。
假设刚开始的时候,网络中只
有一个节点染病,我们可以先直观地想象一下疾病传播可能的结果。
当传染强度非常小的时候,经过了一段有限长的时间后,所有节点都会变成健康节点,这种情况下我们就认为疾病没有在网络上传播开来,并记该疾病的波及范围为零。
反之,当传染强度足够大的时候,疾病将一直在网络中存在而不会完全消失,只是染病节点的数目有时多有时少,这种情况下我们让系统运行相当长的一段时间,并把这种情况下染病节点数占节点总数的比例在这段时间内的平均值称为该疾病的波及范围。
对于每一个传染强度,总可以通过大量相互独立但初始条件相同的实验求得其对应的波及范围的平均值。
当波及范围为零时,疾病的危害是较小的,反之则非常可怕。
把平均波及范围从零向正实数变化的那个点所对应的传染强度称作传播阈值,它是衡量网络上的传播行为最重要的参量之一。
科学家们通过大量的实验和一些理论上的分析发现在规则网络中疾病的传播阈值是一个不算很小的值。
这个结论是令人欣慰的,因为它使得人们有理由相信随着健康意识、保障体制和医疗手段的进步,我们总可以让疾病的传染强度降到阈值以下,从而有效地遏制疾病的传播,例如我们可以通过戴口罩和采用消毒措施降低染病概率,通过更先进的治疗方法增加痊愈概率。
然而,事实真的如此吗?
复杂网络上传播行为的新特性
科学家们在研究复杂网络上传播行为的时候,主要关心的问题是网络拓扑结构是否会对网络传播行为产生明显的影响,因此他们并没有修改SIS模型的传播规则。
为了使实验具有可比性,研究者总是选用具有相同节点数目和相同边数的规则网络和复杂网络进行对比性研究。
科学家们首先研究了小世界效应对网络传播行为的影响。
他们发现,在小世界网络中,疾病的传播阈值明显比在规则网络中小,在同样的传染强度下,疾病在小世界网络中的波及范围明显大于其在规则网络中的波及范围,换句话说,小世界网络比规则网络更适合疾病在上面传播[4]。
由于很多真实网络都具有小世界效应,因此这样的研究结果,对于从事传播控制的实际工作者而言实在不是一个乐观的结果,它意味着我们必须要做出大得多的努力,才有可能实现对疾病的控制。
平均波及范围与传染强度关系的示意图1图中实线表示疾病在规则网络中传播的情况,虚线表示疾病在小世界网络中传播的情况。
可以看到,在同样
的传染强度下,疾病在小世界网络中的波及范围明显大于其在规则网络中的波
及范围。
注意,图中的曲线只是为了帮助我们定性地理解,并不是精确地数值
模拟得到的定量的曲线。
同样,下面一幅图的曲线也只是定性曲线,并不代表
具体的量上的关系。
如果说,从规则网络到小世界网络,传播行为还只是量上的不同,那么,无标度网络上的传播行为则表现出了和前两者迥异的性质。
如下图所示,在无标度网络上,科学家们不断地减小传染强度,然而疾病的平均波及范围却总是一个大于零的数。
这就意味着在无标度网络上,要么没有正的传播阈值,要么传播阈值非常接近零[5]。
由于大量的实证研究表明真实世界的复杂网络往往既具有小世界效应,又具有无标度特性,因此上面的结论是令人沮丧的。
直观地讲,如果上述结论是普遍适用的,那么我们在原则上没有办法通过降低传染强度来遏制疾病的传播,除非采用隔离保护某些节点或切断某些传播途径等方法改变传播网络的拓扑结构。
平均波及范围与传染强度关系的示意图2图中实线表示疾病在小世界网络中传播的情况,虚线表示疾病在无标度网络中传播的情。
可以看到,疾病在
无标度网络中传播阈值非常小,以至于有些科学家怀疑是否有正的阈值存在。
还有哪些问题值得进一步研究?我们到底应该怎么做才能有效地控制疾病的传播呢?
物理学家目前关心的问题
目前,就复杂网络上的传播行为而言,物理学家关心的问题主要包括以下几个方面。
首先是新的传播模型的建立。
因为传统的SIS模型和SIR模型只是真实情况简单的抽象,存在一些与实际情况不符的地方。
比如健康节点的染病概率与相邻的染病节点数目无关,缺少与实际传染病学或计算机病毒学对应的一些参数等等,因此可以尝试建立更符合真实情况的模型,并在此基础上研究其在复杂网络上的传播行为。
其次是对复杂网络上的传播行为进行理论分析,其终极目标是从理论上找到网络拓扑结构的某个或某些几何不变量,这些不变量能够完全或相当精确地刻画疾病在网络中的传播行为,从而我们可以把阈值和其它的参量写成这些几何不变量的函数。
最后是对如何有效控制疾病传播的研究。
科学家们已经获得了很多非常有价值的结论,比如在资源有限的情况下,优先保护节点度比较大的节点比随机选择节点进行保护效果要好得多,而优先保护一种叫做“远边”的端点,还可以获得更好的效果。
当然,科学家们还在继续努力,希望找到更好的控制策略。
对于复杂网络上传播行为的研究,是一个方兴未艾的方向,不仅有很大的理论趣味,而且有非常重要的实际价值。
国外的科学家从2000年起就已经开始了相关的研究,现在我国的科学家正在加入这个队伍。
我们可以期待,在不久的将来,科学家们会找到更有效的办法来应付可怕的疾病和可恶的计算机病毒。
参考文献
[1] X. -F. Wang, Int. J. Bifurcation & Chaos, 12, 885(2002).
[2] D. J. Watts and S. H. Strogatz, Nature, 393, 440(1998).
[3] A-L. Barabasi and R. Albert, Science, 286, 509(1999).
[4] C. Moore and M. F. J. Newman, Phys. Rev. E, 61, 5678(2000).
[5] R. Pastor-Satorras and A. Vespignani, Phys. Rev, Lett., 86, 3200(2001)
关键词:复杂网络传播行为传播阈值控制。