利用链路预测推断网络演化机制
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
λ最优值
RankS 0.07844 0.09381 0.07693 0.07216
预测提高幅度 (与CN比较) 23% 8% 24% 29%
预测提高幅度 (与属性因素比较) 74% 63% 47% 40%
0.997 0.8 0.4 0.2
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
利用链路预测推断网络演化机制
刘宏鲲①,吕琳媛②,周涛③
① 西南财经大学统计学院, 成都 610074; ② 弗里堡大学物理系, 瑞士弗里堡, CH-1700; ③ 电子科技大学计算机学院, 成都 610054;
2011年10月23日
Outline
1 2 3 4 推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
推测网络演化机制的常用方法
优先连接机制
P(k) ~k-3
其他演化机制
BA模型的度分布图*
*Barabá si A-L, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512.
网络总的节点数为N(N = |V |),边数为M(M =
|E|)。该网络共有N(N-1)/2个节点对,即全集U。
给定一种链路预测的方法,对每对没有连边的节点对x,
y(
U)赋予一个分数值 \E 。
sxy syx
将所有未连接的节点对按照该分数值从大到小排序,
排在最前面的节点对出现连边的概率最大。
主流建模方法的基本思路
对基于某些因素构建出的生成网络分析其统 计特征,如果具有和真实网络接近的统计性质, 那么就认为这些因素对网络的结构影响显著, 也即这些因素是网络演化的重要机制,否则认 为这些因素对网络结构的影响不显著。
主要结论
人口和距离对中国城市航空网络航 线连接的影响都不显著。以城市的
链路预测的方法与评价指标
中国航空网络的链路预测 结论
中国城市航空网络
以通航城市为节点,两个城市间的直飞航线为边(不包括 有经停的航线),共包含121个节点和1466条边。统计数据 涵盖了国内8家主要航空公司在2006年提供的所有航班。
基本假设
两个节点之间接近性(Proximity)越大,它们之间存在链接 的可能性就越大。 如何定义接近性? 如果两个节点拥有许多共同的特征,就认为这两个节点 是接近的。
量化结果对各种因素进行辨别,因此,链路 预测在分析网络演化机制上比传统方法更为 有效。
Thank You!
,
RankS值越小表示排在越前面,也就意味着被 成功预测的概率越大,算法精确度越高。
Leave-one-out
—适用于小网络的数据集划分方法
每次从网络中选取一条边作为测试边,预测这条边出现
的可能性,然后应用Ranking Score对这条边的预测效果
进行评价。
1 2 3 4
推测网络演化机制的常用方法
中国航空网络的链路预测 结论
结论
如果只考虑一种驱动因素,以共同邻居为
驱动的模型可以得到最佳的结果;而在所有
的外部影响因素的比较中,以第三产业为驱
动的模型能够产生最佳的结果。
利用链路预测方法分析网络演化机制是 一种有效的途径。更为重要的是,与直接建 立网络演化模型相比,由于链路预测能够计
算预测方法的准确度,能够清晰直观地利用
0.30081 0.25475 0.14588 0.11954
耦合算法
s s
s
s
CN
CN
(1 ) s
Attr
表示基于结构的方法
Attr
表示基于几何因素λ变化情况
耦合算法的预测准确度与比较
耦合算法 CN+Dis CN+Pop CN+GDP CN+TI
定义
网络中的链路预测是指通过已知的网络结构信息预测网 络中尚未产生连边的两个节点之间产生链接的可能性 。 这种预测既包含了对未知链接(exist yet unknown links) 的预测,也包含了对未来链接(future links)的预测。
用链路预测推断网络演化机制
链路预测的本质:挖掘导致连边产生的原因 一个演化模型
Ranking Score
H U ET 为未知边的集合(包括测试集中的边)
ri
表示未知边 i E P在排序中的排名
这条未知边的Ranking Score值为 RankSi ri / | H |
ri 1 1 系统 RankS P RankSi P | E | iE P | E | iE P | H |
第三产业产值为驱动因素生成
的航空网络与真实网络非常类似。
分别由不同因素驱动的演化模型,衡量模拟网 络与真实网络相似度有众多的结构量化指标 结构量化指标表现一致时……
谁更漂亮?
结构量化指标表现不一致时……
谁更漂亮?
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
算法准确性测试
已知边的集合E 随机地分为两部分:
训练集ET,作为已知信息用来计算分数值;
测试集EP,用来进行测试。
E ET
EP
ET
EP
衡量链路预测算法精确度的指标:
AUC(area under the receiver operating characteristic curve):从整体上衡量算法的精确度
一种链路预测的算法
思路
在网络中根据节点的属性或已经存在的边(结构特征), 选 取某一因素或混合因素作为基础, 通过计算各种预测方法
的准确性, 找到适合某一网络的最佳预测方法, 从而预测
网络中未知的边和未来可能产生的边。
方法
考虑无向的简单网络G(V, E),V是节点集合,
E是边的集合,不考虑多重边和自连边。
Precision:只考虑排在前L位的连边
Ranking Score:考虑所预测的边的排序
-Liben-Nowell D, Kleinberg J. The link prediction problem for social networks. J Am Soc Inform Sci & Technol, 2007, 58, 1019
基于城市GDP的接近性
sxyGDP GDP( x) GDP( y)
基于第三产业产值的接近性 sxyTI TI ( x) TI ( y)
计算结果
五种接近性算法的预测准确度
算法名称 共同邻居(CN) RankS 0.10185
距离(Dis) 人口(Popu) 国内生产总值(GDP) 第三产业产值 (TI)
共同邻居(Common
Neighbors,简称CN)
sxy ( x) ( y)
( x) 为节点x的邻点集合
考虑几何因素或节点的属性(或称外部因素)
几何因素或节点的属性
基于距离的接近性
sxy
Dis
1 Dis( x, y )
Popu s P( x) P( y) 基于人口数量的接近性 xy
RankS 0.07844 0.09381 0.07693 0.07216
预测提高幅度 (与CN比较) 23% 8% 24% 29%
预测提高幅度 (与属性因素比较) 74% 63% 47% 40%
0.997 0.8 0.4 0.2
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
利用链路预测推断网络演化机制
刘宏鲲①,吕琳媛②,周涛③
① 西南财经大学统计学院, 成都 610074; ② 弗里堡大学物理系, 瑞士弗里堡, CH-1700; ③ 电子科技大学计算机学院, 成都 610054;
2011年10月23日
Outline
1 2 3 4 推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
推测网络演化机制的常用方法
优先连接机制
P(k) ~k-3
其他演化机制
BA模型的度分布图*
*Barabá si A-L, Albert R. Emergence of scaling in random networks. Science, 1999, 286(5439): 509-512.
网络总的节点数为N(N = |V |),边数为M(M =
|E|)。该网络共有N(N-1)/2个节点对,即全集U。
给定一种链路预测的方法,对每对没有连边的节点对x,
y(
U)赋予一个分数值 \E 。
sxy syx
将所有未连接的节点对按照该分数值从大到小排序,
排在最前面的节点对出现连边的概率最大。
主流建模方法的基本思路
对基于某些因素构建出的生成网络分析其统 计特征,如果具有和真实网络接近的统计性质, 那么就认为这些因素对网络的结构影响显著, 也即这些因素是网络演化的重要机制,否则认 为这些因素对网络结构的影响不显著。
主要结论
人口和距离对中国城市航空网络航 线连接的影响都不显著。以城市的
链路预测的方法与评价指标
中国航空网络的链路预测 结论
中国城市航空网络
以通航城市为节点,两个城市间的直飞航线为边(不包括 有经停的航线),共包含121个节点和1466条边。统计数据 涵盖了国内8家主要航空公司在2006年提供的所有航班。
基本假设
两个节点之间接近性(Proximity)越大,它们之间存在链接 的可能性就越大。 如何定义接近性? 如果两个节点拥有许多共同的特征,就认为这两个节点 是接近的。
量化结果对各种因素进行辨别,因此,链路 预测在分析网络演化机制上比传统方法更为 有效。
Thank You!
,
RankS值越小表示排在越前面,也就意味着被 成功预测的概率越大,算法精确度越高。
Leave-one-out
—适用于小网络的数据集划分方法
每次从网络中选取一条边作为测试边,预测这条边出现
的可能性,然后应用Ranking Score对这条边的预测效果
进行评价。
1 2 3 4
推测网络演化机制的常用方法
中国航空网络的链路预测 结论
结论
如果只考虑一种驱动因素,以共同邻居为
驱动的模型可以得到最佳的结果;而在所有
的外部影响因素的比较中,以第三产业为驱
动的模型能够产生最佳的结果。
利用链路预测方法分析网络演化机制是 一种有效的途径。更为重要的是,与直接建 立网络演化模型相比,由于链路预测能够计
算预测方法的准确度,能够清晰直观地利用
0.30081 0.25475 0.14588 0.11954
耦合算法
s s
s
s
CN
CN
(1 ) s
Attr
表示基于结构的方法
Attr
表示基于几何因素λ变化情况
耦合算法的预测准确度与比较
耦合算法 CN+Dis CN+Pop CN+GDP CN+TI
定义
网络中的链路预测是指通过已知的网络结构信息预测网 络中尚未产生连边的两个节点之间产生链接的可能性 。 这种预测既包含了对未知链接(exist yet unknown links) 的预测,也包含了对未来链接(future links)的预测。
用链路预测推断网络演化机制
链路预测的本质:挖掘导致连边产生的原因 一个演化模型
Ranking Score
H U ET 为未知边的集合(包括测试集中的边)
ri
表示未知边 i E P在排序中的排名
这条未知边的Ranking Score值为 RankSi ri / | H |
ri 1 1 系统 RankS P RankSi P | E | iE P | E | iE P | H |
第三产业产值为驱动因素生成
的航空网络与真实网络非常类似。
分别由不同因素驱动的演化模型,衡量模拟网 络与真实网络相似度有众多的结构量化指标 结构量化指标表现一致时……
谁更漂亮?
结构量化指标表现不一致时……
谁更漂亮?
1 2 3 4
推测网络演化机制的常用方法
链路预测的方法与评价指标
中国航空网络的链路预测 结论
算法准确性测试
已知边的集合E 随机地分为两部分:
训练集ET,作为已知信息用来计算分数值;
测试集EP,用来进行测试。
E ET
EP
ET
EP
衡量链路预测算法精确度的指标:
AUC(area under the receiver operating characteristic curve):从整体上衡量算法的精确度
一种链路预测的算法
思路
在网络中根据节点的属性或已经存在的边(结构特征), 选 取某一因素或混合因素作为基础, 通过计算各种预测方法
的准确性, 找到适合某一网络的最佳预测方法, 从而预测
网络中未知的边和未来可能产生的边。
方法
考虑无向的简单网络G(V, E),V是节点集合,
E是边的集合,不考虑多重边和自连边。
Precision:只考虑排在前L位的连边
Ranking Score:考虑所预测的边的排序
-Liben-Nowell D, Kleinberg J. The link prediction problem for social networks. J Am Soc Inform Sci & Technol, 2007, 58, 1019
基于城市GDP的接近性
sxyGDP GDP( x) GDP( y)
基于第三产业产值的接近性 sxyTI TI ( x) TI ( y)
计算结果
五种接近性算法的预测准确度
算法名称 共同邻居(CN) RankS 0.10185
距离(Dis) 人口(Popu) 国内生产总值(GDP) 第三产业产值 (TI)
共同邻居(Common
Neighbors,简称CN)
sxy ( x) ( y)
( x) 为节点x的邻点集合
考虑几何因素或节点的属性(或称外部因素)
几何因素或节点的属性
基于距离的接近性
sxy
Dis
1 Dis( x, y )
Popu s P( x) P( y) 基于人口数量的接近性 xy