02-社会网络分析与算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于任何图G,节点数N、边数M和分支数ω满足
M ≥ N −w
11
在有向图中,图的连通性被分为三种:弱连通、单连通和强连通。 有向图的底图:将有向图的所有边去除方向性所得到的无向图 弱连通有向图:底图是连通图的有向图
单连通有向图:在一个有向图中,任意两个节点vi、vj,若只存在vi到 vj或者vj到vi路径 强连通有向图:若vi、vj之间存在可互达的路径 从节点vi到vj的距离:从vi到vj的路径中需要经历的最少边数 从节点vi到vj的最短路径:对应的路径 图G的直径:所有节点对的距离中的最大的距离
27
社会网络的静态特征:节点的度
28
社会网络的静态特征:网络的平均度
29
社会网络的静态特征:网络的平均度
30
社会网络的静态特征:网络的平均度
31
社会网络的静态特征:网络的平均度
32
社会网络的静态特征:度分布
度分布函数p(k): 为网络中度为k的节点在整个网络中所占的比率,也 就是,在网络中随机抽取到度为k的节点的概率。
12
v ∈ V, e∈ E 假设图G=(V,E)是一个简单图,
。
割点:若去除节点v,使原来连通的图变成不连通或分支数有增 加,即ω(G-v)>ω(G)
割边(桥):若去除边e(但不去除端点)后,使图G变为不连 通或使得ω(G-e)>ω(G)
块:不含割点的连通图(连通分支) 图G的块:图G的不含割点的最大连通分支
36
社会网络的静态特征:节点的聚类系数
在无向简单图中,设节点v的邻集为N(v), |N(v)|=ki,则节点v的聚类系 数定义为这ki 个节点之间存在边数Ei 与总的可能边数ki (ki -1)/2之比, 反映节点v的邻点间关系的密切程度,即:
Ci =
2 Ei ki (ki − 1)
对于有向网络来说,这ki 个节点间可能存在的最大边数为ki (ki -1), 的 则此时节点v的聚类系数为: E
N N 2 L= dij ∑ ∑ N ( N − 1) i = 1 j = i +1
研究发现:尽管许多实际复杂网络的节点数巨大,网络的平均 路径长度却小的惊人。(小世界效应) 在人际关系网络中,L代表了两个人最短关系链中朋友的平均个 数。
23
米尔格拉姆“六度分隔”实验的论文中公布 的成功将信送达目标人物的路线长度分布图
概率论分析
17世纪起源于法国贵族之间的赌博风波,最早开始研究并发展成一门 系统性理论的是数学家帕斯卡和费马。 18世纪是概率论日益成熟的一个时期,代表性数学家有贝努利(Be rnoulli). 19世纪是大发展时期,标志是数学家拉普拉斯(Laplace)的著作
《Theorie analytique des Probabilities》。
26
社会网络的静态特征:度分布
度(degree):节点 i 的度 ki 定义为与该节点连接的其他节点的数目。
直观上看,一个节点的度越大就意味着这个节点在某种意义上越“重 要” 。
无向无权图的邻接矩阵A 与节点i的度ki 的函数关系:邻接矩阵二次 (2) (2) 幂 A2 的对角元素 aii 就是节点i的邻边数,即: ki = aii 实际上,邻接矩阵A 的第i行或者第j列元素之和也是度。
A = {aij }
N ×N
可以定义为
1, (vi , v j ) ∈ E aij = 0, (vi , v j ) ∉ E
15
16
对于一个N阶简单无向图G,其邻接矩阵具有以下性质:
① A 是一个主对角线上的元素皆为0,其余元素为0或1的对角矩 阵,且A的任何一行(列)的元素之和都等于其相应节点的度。
D = max dij
1≤i , j ≤ N
平均路径长度L :定义为所有节点对之间距离的平均值。它描述了 网络中节点间的平均分离程度,即网络有多小。也称为网络的特 征路径长度。 N N
1 L = 2 ∑∑ dij N = i 1= j 1
22
对于无向简单图来说,dij = dji 且 dii=0 则 平均路径长度的公 式为:
2 C A = {cij }N ×N ,则矩阵C的主对角线上的元素为 ②若记 =
= cii
= j 1
= a = a ∑ = a ∑a ∑
ij
N
N 2 ij ji ij = j 1= j 1
N
ki
可见对角线元素 cii 恰好为相应节点 vi 的度 ki 。 k ③ 对于任意非负整数k, A 中的第i行第j列元素表示图G中连接节 点 vi 和 v j 的长度为k的路径的数目。
T
cij = ∑ ail a jl
l =1
N
表示图G中的某种节点个数,这种节点的邻边中有两条邻边分别 以 vi 和 v j 为起点。 ③若记 表示图G中的某种节点个 N × N ,则 l =1 数,这种节点的邻边中有两条邻边分别以 vi 和 v j 为终点。
AT A = F =
{ fij }
fij = ∑ ali alj
i
10 10
2.连通性
连通图:图G中任意每对vi、vj节点之间都有至少一条路径存在。
图G的一个连通分支:若G中的任意两个节点属于且仅属于节点子 集Vi时才连通,则称图G中由Vi及其连边组成的子图Gi.
Ω ω ω
非连通图:图G中至少有一对节点之间不存在路径。
常被用于表示图G的分支数 =1的图称为连通图 >1的图称为非连通图
N
18
一个加权简单图的邻接矩阵 A = {a }
Байду номын сангаасij
N ×N
可以定义为
ωij , (vi , v j ) ∈ E aij = ∞ (vi , v j ) ∉ E 0或,
ω 表示边 e = (v , v ) 上的权值(即边权),在相似权含 其中, 义下,两节点无连接,权值为0;而在相异权含义下,两节 点无连接,权值取∞,它表示一个计算机允许的、大于所有 边上权值的数。
微软MSN 全球活跃用户相隔距离分布图: 1000名随机用户,平均距离约为6.6
24
平均距离与先宽搜索
先宽搜索(广度优先搜索算法): 对于较复杂的网络需要系统化的 方法来计算节点间的距离:以某一节点为出发点,优先访问所有与之相邻
的节点。
25
平均距离与先宽搜索
算法过程: (1)首先定义你的每个朋友与你的距离为1. (2)其次,找到他们所有的朋友(排除其中已是你朋友的人),并定义他们 与你的距离为2. (3)然后,再找到(2)中所有人的朋友(需排除已经在1和2中出现过的 人),并定义他们与你的距离为3. (4)依次类推,按次序访问,每次访问与刚才被访问过的节点相邻但未曾被 访问过的节点,直到所有相邻的节点均被访问过为止。 广度优先搜索算法可以广泛应用与任何图结构:只需按照分级的方式, 一级一级的搜索,当访问过一级节点后,再根据与该级节点相邻但与之 前节点均无重复的节点建立新的级,以此类推。
社会网络分析与算法研究
公共邮箱:buptsna@163.com 团队分组
passwd: social2013
第二章 网络的表示:图论与矩阵论
3
4
5
1.5.1 图的基本概念
无向图————有向图 加权图————无权图 无权图可以看成每条边的权值均为1的等权图
6
8
邻边:从同一个节点伸向其他不同节点的边 邻点:同一条边的两个端点互称 关联:一条边上的节点和该条边的关系 简单图:不存在重边和自环的图 复图:存在重边或自环的图 完全图:所有节点对(对于有向图是指起点终点对) 之间均有一条边连接的简单图 N阶无向完全图有N(N-1)/2条边 N阶有向完全图有N(N-1)条边
上述讨论的连通性、割点、割边及块的概念均与图中边的方向性 无关。在研究这些性质时,所有的图均看作无向图。
13
14
图的矩阵表示
图的矩阵表示架起了图论与矩阵论之间的桥梁,通过这种表 示方法就能借助于矩阵的理论和分析方法来研究图论中的问题。 1.邻接矩阵
邻接矩阵描述了节点与节点之间的邻接关系,通常会用一个方 阵A 来表示,方阵中的元素用 aij 表示。 邻接矩阵分为有向图邻接矩阵和无向图邻接矩阵。 一个无权简单图的邻接矩阵
9
路径、简单路径、基本路径 图G中的第k条路径(链、途径)是指由图中的节点 和边交替出现而构成的有限序列 wk = (v0e1v1e2v2 vn −1en vn ) 路径 wk 的起点:v0 路径 wk 的终点:vn 路径 wk 的内点:其余节点 v (1 ≤ i ≤ n − 1) 路径 wk 长:序列中边的条数 由于简单图中不存在重边,所以简单图中的第k条路 径可以完全由经过的节点序列表示,所以 wk 可简记为 wk = (v0 v1v2 vn −1vn ) 。
33
社会网络的静态特征:度分布
对于规则网络来说,由于每个节点具有相同的度,所以其度分布集中 在一个单一尖峰上,是一种Delta 分布。对规则网络的随机化会使这个 尖峰变宽。 对于完全随机网络来说,度分布具有泊松分布的形式。在这一类网络 结构中,每一条边的出现概率是相等的,因此大多数节点的度是基本 相同的,并接近于网络平均度<k>。远离峰值的度分布则按指数形式 急剧下降。
ij ij i j
19
2. 关联矩阵 关联矩阵描述了节点与边的关联关系,图G的关联矩阵B 是一个N×M 阶矩阵。
对于无向网络
B = {bij }
N ×M
的定义如下:
ej ∈ E 1, vi ∈ V 与关联 bij = ej ∈ E 0, vi ∈ V 与不关联
无向图的关联矩阵具有以下性质: ①关联矩阵中每列元素之和为2,即G中每条边都有唯一的两 个端点。 ②关联矩阵中第i行中1的个数等于节点 vi 的度 ki 。 集。 ③关联矩阵中第i行中1对应的边组成的集合为节点 vi 的关联 ④关联矩阵中,若两列相同,则它们对应的边为平行边。
Ci =
i
ki (ki − 1)
如果将每个节点的聚类系数对整个网络作平均,则可得网络的平均聚 类系数为:
17
对于一个N阶简单有向图G,其邻接矩阵具有以下性质:
①第i行元素之和为节点 vi 的出度kiout(以节点 vi 为起点的邻边 in 数),其第j列元素之和为节点 vi 的入度 ki (以节点 vi 为终点的邻 边数)。
= {cij } ②若记 AAT= C ,其中 A 表示矩阵A的转置矩阵,则 N ×N
34
社会网络的静态特征:度分布
很多统计实验表明,大多数现实网络的度分布并不像随机网络那样出 现泊松分布,特别是对于大尺度的网络体系,如WWW、MSN等,都 具有幂指数形式的度分布。
p(k ) ∝
1 kγ
35
幂律分布的商业价值:长尾理论
长尾理论是网络时代兴起的一种新理论,由美国人克里斯·安德森提出。长尾理 论认为,由于成本和效率的因素,过去人们只能关注重要的人或重要的事,如果用 正态分布曲线来描绘这些人或事,人们只能关注曲线的“头部”,而需要更多的精 力和成本才能关注到处于曲线“尾部”的大多数人或事实。 而在网络时代,由于关注的成本大大降低,人们有可能以很低的成本关注正态分 布曲线的“尾部”,关注“尾部”产生的总体效益甚至会超过“头部”。即众多小 市场汇聚成可与主流大市场相匹敌的市场能量。安德森认为,网络时代是关注“长 尾”、发挥“长尾”效益的时代。 《长尾理论》:如何在信息化的网络时代低成本、大规模、高质量地满足个性 化需求。这里要强调的是,在商业上电子商务不仅仅是网络零售,B2C(Business To Customer)的商业模式是传统工业经济时代大规模、流水线、标准化、低成本 的运作模式,“长尾理论”告诉我们的是未来真正的商业模式应该是C2B(Custo mer To Business),如何让目标消费者自己主动找到需要的个性化服务和产品才 是数字时代面临的商业挑战。本质上,长尾理论是对复杂网络幂律特点的通俗解释。
21
社会网络的静态特征:平均距离
最短路径(Shortest path): 两个节点之间边数最少的路径。 最短路径的长度称为两点间的距离,用dij 表示。它的倒数1/ dij 称为的节点Vi 与Vj 之间的效率,通常效率用来度量节点间的信息 传递速度。 网络的直径(Diameter)D定义为所有距离dij 中的最大值: