利用链路预测推断网络演化机制
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Ranking Score
H U ET 为未知边的集合(包括测试集中的边)
ri
表示未知边 i E P在排序中的排名
这条未知边的Ranking Score值为 RankSi ri / | H |
ri 1 1 系统 RankS P RankSi P | E | iE P | E | iE P | H |
主流建模方法的基本思路
对基于某些因素构建出的生成网络分析其统 计特征,如果具有和真实网络接近的统计性质, 那么就认为这些因素对网络的结构影响显著, 也即这些因素是网络演化的重要机制,否则认 为这些因素对网络结构的影响不显著。
主要结论
人口和距离对中国城市航空网络航 线连接的影响都不显著。以城市的
利用链路预测推断网络演化机制
刘宏鲲①,吕琳媛②,周涛③
① 西南财经大学统计学院, 成都 610074; ② 弗里堡大学物理系, 瑞士弗里堡, CH-1700; ③ 电子科技大学计算机学院, 成都 610054;
2011年10月23日
Outline
1 2 3 4 推测网络演化机制的常用方法
链路预测的方法与评价指标
网络总的节点数为N(N = |V |),边数为M(M =
|E|)。该网络共有N(N-1)/2个节点对,即全集U。
给定一种链路预测的方法,对每对没有连边的节点对x,
y(
U)赋予一个分数值 \E 。
sxy syx
将所有未连接的节点对按照该分数值从大到小排序,
排在最前面的节点对出现连边的概率最大。
中国航空网络的链路预测 结论
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
推测网络演化机制的常用方法
优先连接机制
P(k) ~k-3
其他演化机制
BA模型的度分布图*
*Barabá si A-L, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512.
一种链路预测的算法
思路
在网络中根据节点的属性或已经存在的边(结构特征), 选 取某一因素或混合因素作为基础, 通过计算各种预测方法
的准确性, 找到适合某一网络的最佳预测方法, 从而预测
网络中未知的边和未来可能产生的边。
方法
考虑无向的简单网络G(V, E),V是节点集合,
E是边的集合,不考虑多重边和自连边。
λ最优值
RankS 0.07844 0.09381 0.07693 0.07216
预测提高幅度 (与CN比较) 23% 8% 24% 29%
预测提高幅度 (与属性因素比较) 74% 63% 47% 40%
0.997 0.8 0.4 0.2
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
第三产业产值为驱动因素生成
的航空网络与真实网络非常类似。
分别由不同因素驱动的演化模型,衡量模拟网 络与真实网络相似度有众多的结构量化指标 结构量化指标表现一致时……
谁更漂亮?
结构量化指标表现不一致时……
谁更漂亮?
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
共同邻居(Common
Neighbors,简称CN)
sxy ( x) ( y)
( x) 为节点x的邻点集合
考虑几何因素或节点的属性(或称外部因素)
几何因素或节点的属性
基于距离的接近性
sxy
Dis
1 Dis( x, y )
Popu s P( x) P( y) 基于人口数量的接近性 xy
算法准确性测试
已知边的集合E 随机地分为两部分:
训练集ET,作为已知信息用来计算分数值;
测试集EP,用来进行测试。
E ET
EP
ET
EP
衡量链路预测算法精确度的指标:
AUC(area under the receiver operating characteristic curve):从整体上衡量算法的精确度
量化结果对各种因素进行辨别,因此,链路 预测在分析网络演化机制上比传统方法更为 有效。
Thank You!
基于城市GDP的接近性
sxyGDP GDP( x) GDP( y)
基于第三产业产值的接近性 sxyTI TI ( x) TI ( y)
计算结果
五种接近性算法的预测准确度
算法名称 共同邻居(CN) RankS 0.10185
距离(Dis) 人口(Popu) 国内生产总值(GDP) 第三产业产值 (TI)
链路预测的方法与评价指标
中国航空网络的链路预测 结论
中国城市航空网络
以通航城市为节点,两个城市间的直飞航线为边(不包括 有经停的航线),共包含121个节点和1466条边。统计数据 涵盖了国内8家主要航空公司在2006年提供的所有航班。
基本假设
两个节点之间接近性(Proximity)越大,它们之间存在链接 的可能性就越大。 如何定义接近性? 如果两个节点拥有许多共同的特征,就认为这两个节点 是接近的。
定义
网络中的链路预测是指通过已知的网络结构信息预测网 络中尚未产生连边的两个节点之间产生链接的可能性 。 这种预测既包含了对未知链接(exist yet unknown links) 的预测,也包含了对未来链接(future links)的预测。
用链路预测推断网络演化机制
链路预测的本质:挖掘导致连边产生的原因 一来自百度文库演化模型
0.30081 0.25475 0.14588 0.11954
耦合算法
s s
s
s
CN
CN
(1 ) s
Attr
表示基于结构的方法
Attr
表示基于几何因素和节点属性的方法
[0,1]
耦合算法精确度随参数λ变化情况
耦合算法的预测准确度与比较
耦合算法 CN+Dis CN+Pop CN+GDP CN+TI
中国航空网络的链路预测 结论
结论
如果只考虑一种驱动因素,以共同邻居为
驱动的模型可以得到最佳的结果;而在所有
的外部影响因素的比较中,以第三产业为驱
动的模型能够产生最佳的结果。
利用链路预测方法分析网络演化机制是 一种有效的途径。更为重要的是,与直接建 立网络演化模型相比,由于链路预测能够计
算预测方法的准确度,能够清晰直观地利用
Precision:只考虑排在前L位的连边
Ranking Score:考虑所预测的边的排序
-Liben-Nowell D, Kleinberg J. The link prediction problem for social networks. J Am Soc Inform Sci & Technol, 2007, 58, 1019
,
RankS值越小表示排在越前面,也就意味着被 成功预测的概率越大,算法精确度越高。
Leave-one-out
—适用于小网络的数据集划分方法
每次从网络中选取一条边作为测试边,预测这条边出现
的可能性,然后应用Ranking Score对这条边的预测效果
进行评价。
1 2 3 4
推测网络演化机制的常用方法