社交网络分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
度数中心性(无向图)
有最多朋友的人最重要。
25
一个节点的链接数量为该节点的度数中心性。
规范化度数中心性
除以最大可能值, i.e. (N-1)
26
中介中心性
直觉: 有多少对节点为了以最短路径到达彼此必须经过给 定节点? X和Y,哪个有更高的中介中心性?
Y
X
27
中介中心性
CB(i) gjk(i)/gjk
A
B
E
D
33
亲近中心性
一个节点的亲近中心性基于该节点与图中所有节点的平均最短 路径计算得到。 Closeness Centrality:
j1
Normalized Closeness Centrality
N
1
34
CC ' (i)(CC(i)) /(N 1)
亲近中心性
43
基于节点聚类的方法
Hale Waihona Puke Baidu
节点相似性基于他们的交互模式的相似性而定义 两个节点结构相似(structurally equivalent), 如果 它们连接到相同的其它节点
e.g., nodes 8 and 9 are structurally equivalent
社区定义为等价节点集合则太过严格 实际上使用向量相似性
网络中其它节点的类别标签
输出
17
分类
: Smoking
: Non-Smoking : ? Unknown
18
Predictions 6: Non-Smoking 7: Non-Smoking 8: Smoking 9: Non-Smoking 10: Smoking
链接预测
给定一个社交网络,预测哪些节点相互连接 输出一个节点对列表 例如: facebook中好友推荐
j k
其中
gjk = 连接节点j,k最短路径的数量 gjk(i) = 经过节点i的最短路径数量
28
中介中心性
未规范化:
A
B
C
D
E
A不在任何两个其他节点之间 B处在A和3个其他节点之间: C, D, and E C处在4对节点之间 (A,D),(A,E),(B,D),(B,E)
29
中介中心性
Link Prediction
(2, 3) (4, 12) (5, 7) (7, 13)
19
病毒式营销
Viral Marketing (病毒式营销): 找出若干用户,为 其提供优惠或折扣,从而影响网络上的其他用户,使 得收益最大化 一个简单例子:
找到能够覆盖网络的最小节点集合 可用贪心选择
• Select Node 1 • Select Node 8 • Select Node 6
20
网络中心性分析
识别社交网络上最重要的节点
重要性的定义由目的、环境所定
输入: 一个社交网络 输出: 最重要的节点列表
22
Top 5 important nodes: 6, 1, 8, 5, 10
Same users interacting at different sites
•
Facebook, YouTube, Twitter
49
多模网络(Multi-Mode Network)
网络中包含多模态对象
Users
Videos
3-Mode Network in YouTube
50
Tags
Visualization of a 3-mode network
未规范化:
30
中介中心性
未规范化:
31
样例:节点大小表示度数中心性, 颜色表 达中介中心性.
具有高中介中心性低度数中心 性的节点
32
具有相对较高的度数中心性相对较 低的中介中心性的节点
中介中心性
未规范化
为什么C和D 的中介中心性值都
C
为1?
为什么B的中介中心性值为3.5
,而E为0.5?
度数中心性=>入度中心性(indegree centrality) 例如:一篇论文被许多论文所引用具有更高的影响力 一个人被许多人提名奖项具有更高的声望
37
在有向图上的扩展计算
有向图上的中介中心性计算 考虑两个节点之间的所有有向路径。
38
在有向图上的扩展计算
有向图上的中介中心性计算 注意:从k到j的最短路径经过某节点不代表从j到k的最短 路径也经过该节点。
39
在有向图上的扩展计算
有向图上的亲近中心性计算 通常只考虑那些能够到达给定节点的节点
40
社区检测
一个社区由一个节点集合所表示,该集合中节点之间 交互频繁 社区检测
输入: 一个社交网络 输出: 每个节点所属的社区
应用
理解人们的交互 可视化浏览巨型网络 作为其他任务的基础
41
15
社交网络抽取
从数据源中抽取、构建社交网络
例如:网页内容、用户交互日志、用户直接的社交信息 基于网页内容:可基于对象在网页中的共现情况来获得对象 关联关系
P ro file _ 1
We b Domts c ue n
P ro file _ 3
P ro file _ 2
P ro file _ 5
6
社交媒体分析
社交网络分析
基于社交关系、结构进行挖掘 例如:社区检测、链接预测、影响力分析等 基于文本等内容数据进行挖掘 例如:摘要、关键词、情感分析等
社交内容挖掘
上述二者可结合 应用
以微博为例
7
微博庞统
8
微博关键词
北京大学语言计算与互联网
用户相似性网络
社会关系推荐
社交网络分析
23
网络中心性测度
代表性测度
度数中心性 Degree centrality 中介中心性 Betweenness Centrality 亲近中心性 Closeness Centrality …
下面网络中, X比Y有更高的中心性
24
indegree
outdegree
betweenness
closeness
51
异构网络
异构网络在现实中非常普遍,对异构网络的分析与 挖掘更具有挑战性,是当前数据挖掘领域研究的热 点。
52
Q&A
多维网络(MultiDimensional Network)
网络中包含节点间的异构链接
Contacts/friends Tagging on Social Content Fans/Subscriptions Response to Social Content
……………… Network of Multiple Dimensions
(Nodes resized by Importance)
中心性分析
方法:为节点计算分数或排序,反映节点的重要性/ 专业性/影响力 可以采用链接分析领域的不同算法
PageRank算法及其变种 HITS算法确定权威源
可以采用网络中心性测度(Centrality measures)来 评估节点重要性
Cut=2
Cut =1
社区内节点连 接的数量、
48
异构网络
网络中具有不同类型/模态的节点对象
YouTube
•
Users, tags, videos, ads
Users, tags, bookmarks
Del.icio.us
•
网络中节点之间具有不同类型/维度的交互
Facebook • Send email, leave a message • write a comment, tag photos
A
B
1
C
D
E
N d(A, j) 1 1 1 2 3 4 10 Cc(A) j1 4 4 0.4 N 1
35
亲近中心性
36
在有向图上的扩展计算
Co m u ic tioa n n Lo gs
P ro file _ 4
Acr torf po sn ileoa So c ialNeo tw rkS ei c rve
16
分类
用户的行为倾向可表达为类别标签
是否点击了一个广告 是否对特定的话题感兴趣 喜欢/不喜欢一个产品
输入
一个社交网络 部分节点的类别标签
e.g., cosine similarity, Jaccard similarity
44
基于节点聚类的方法
1 2 1 1 1 3 4 5 6 1 1 1 1 1 7 8 9 10 11 12 13
a vector
5
structurally 8 equivalent 9
Cosine Similarity:
4 Groups: {1,2,3,5} {4,8,10,12} {6,7,11} {9,13}
42
(Nodes colored by Community Membership)
社区检测
多种方法
基于子图可达性的方法
•
K-clique, k-club
基于节点聚类的方法 基于图分割的方法 …
社交网络可以用矩阵表示
1 1 2 3 0 1 1
2 1 0 0
3 1 0 0
4 1 0 0
5 0 1 0
6 0 0 0
7 0 0 0
8 1 0 0
9 1 0 0
10 0 0 0
11 0 0 0
12 0 0 0
13 0 0 0
…
14
社交网络挖掘任务多样化
相关任务
社交网络抽取(Social Network Extraction) 网络中心性分析(Network Centrality Analysis) 社区检测(Community Detection) 分类(Classification) 链接预测(Link Prediction) 病毒式营销(Viral Marketing)
1 1 sim(5,8) 2 3 6
Jaccard Similarity:
J(5,8) |{1,2 |{,6 6} ,|13}| 1/4
45
基于节点聚类的方法
处理大型网络时:
将连接作为特征 使用Cosine or Jaccard similarity计算节点相似性 应用k-means clustering Algorithm
K-means Clustering Algorithm
46
基于图分割的方法
不同社区之间的交互应该不频繁 图分割Cut: 两个节点集之间的边的数量 目标: 最小化Cut
Cut=2
不足: 经常获得包含一个节点的社区 需要考虑社区大小
Cut =1
47
基于图分割的方法
两种常用改进:
社区中节点数量
社交网络大数据分析
信息技术学院 胡宝芳
社交媒体概述
2
社交媒体的兴起
Social Networking
Content Sharing
Social Media
Blogs
Wiki Forum
3
社交媒体的重要性
5
社会媒体的特性
用户生成内容多,富含观点 群体智慧 用户交互性强 异构网络(多种关系) …
12
社会网络
由相互关联的节点(个体或机构)组成的结构
不同关系:例如好友关系、亲属关系等 节点=成员 边=关系
图表示
现实例子
好友网络 (facebook, 人人网,微信等) 媒体分享(Flickr, Youtube) 社会标注(Del.icio.us)
13
社交矩阵(Sociomatrix)