清华大学-社会网络大数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会网络的全景图
17
社会网络的最新进展
• 全球最大的在线社交网 络 • 用户人数12.3亿,日活 跃人数7.57亿 • 日均消息量10亿条 • 用户数突破5亿,日活跃 人数2 4亿 人数2.4亿 • 日均消息量2.3亿条
• 规模庞大、 数据丰富 • 关系动态变 化 • 圈子特性 • 弱关系 • 用户生成内 容 • 匿名性
博客(Blog):Blogger、新浪博客. 微博(Micro Blogging):Twitter、新浪微博 在线社会网络 (Online Social network):FaceBook、人人网
中间地带
社交型问答:知乎,Quola 社交型问答 知乎,Q
群体智慧:(协同工具) 维基(Wiki):维基百科、维基解密 利用人群的集体智慧,协 社会标签(Social Bookmarking):Delicious 同工作 社会新闻(Social News):Digg
节点连接,还是偏向于与低度数节点连接的网络结构特征。用网络中所有边的两 个端点的度数的Pearson相关系数r表示。
Page 13
社会网络的基本特征
社会网络的特点: 小世界特性:平均路径长度小、聚集系数高 无标度特性:度分布为幂律分布 高聚集系数:朋友的朋友很可能也是朋友 正同配指数:度取值大的节点倾向于连接度大的节 点 强的社团结构:网络由若干个群或团构成,群内部 个体间连接相对比较紧密 群之间连接比较稀疏 个体间连接相对比较紧密,群之间连接比较稀疏
• 趋势分析 (Trends Prediction) • 情感分析 (Text Mining)
100 1万
被大多数人追随
意见 00 领袖
1000 10万 万
网络活跃分 网络活跃分子
贡献了多数内容和流量的 小群人 贡献了多数内容和流量的一小群人
多数人都是懒惰的观众
100万
1000万,
很少参与互动 沉默的观众 很少参与互动,沉默的观众 10
社会网络基本概念
社会网络(Social Network) 以人或人的群体为结点构成的集合,这些结点之间 具有某种接触或相互作用模式,如朋友关系、亲属 关系、同事关系或科研合作关系等。 以人物为节点、以人际关系为边,将人物节点联接 起来而构成的网络
7
Web1.0 & Web2.0社会媒体 社会媒体
应用技术不同
Web1.0 应用 网络信息导航。 数据为王。 技术 伟大技术:Google Page Rank。 Google引领Web1.0媒体的技术潮流。 Web2.0社会媒体 社会软件、群体智慧。 关系为王? 伟大技术是什么? 社会网络照耀互联网。
Page 14
社会网络的几个基本理论
六度分割 理论 贝肯数
世界上任何两个人之间的平均距离为6 与凯文.贝肯(普通的好莱坞演员)发生连 与凯文 贝肯 普通的好莱坞演员 发生连 接需要的中间人数量,平均值在2.6和 3之间 进一步验证“六度分割理论” 3之间,进一步验证 六度分割理论 。 我们可以与之保持社交关系的人数的最 大值是150,奠定了“网络群组”概念。 群与群之间的连接称为“弱关系”,弱 关系促成了不同群之间的信息流动 在 关系促成了不同群之间的信息流动,在 消息传播中的作用强大。
社会网络大数据分析
清华大学 薛 波 薛一波 2014.03
1
内容简介
社会网络的发展历程和基本概念 社会网络的分析方法 社会网络的大数据分析系统和分析过程 社会网络重要期刊和会议 实验室项目成果展示
2
技术发展趋势
计算机网络技术对传统产业技术升级的影响
– 1990年-2000年,PC软件时代,推动了传统企业的自动 化; – 2000年-2010年,Web1.0时代,推动了传统企业的网络 化; – 2011年-2020年,Web2.0 2011年 2020年 W b2 0 时代,将推动传统企业的社交 时代 将推动传统企业的社交 化。
19
社会网络分析和社会计算
社会网络分析:已经成为一个关键技术,也是一项 热门的研究。涵盖社会学、人类学、社会语言学、地 理 社会心理学 通讯研究 资讯科学 社会网络分 理、社会心理学、通讯研究、资讯科学、社会网络分 析与探勘 组织研究 经济学 以及生物学领域 析与探勘、组织研究、经济学,以及生物学领域。 ——维基百科 社会计算:以社会系统为研究对象,是一门自然科 学(计算科学) 社会科学(哲学 社会学 管理学 学(计算科学)、社会科学(哲学、社会学、管理学、 心理学) 、思维科学(系统论、控制论)的交叉学科。
大数 据特 点
复杂 网络 特征
• 注册用户数超5.36亿 • 日活跃人数达6000万 • 日均消息量1亿 • 注册用户数近5.4亿 注册用户数近 亿 • 日活跃人数达8100万
网络 安全
内容简介
社会网络的发展历程和基本概念 社会网络的分析方法 社会网络的大数据分析系统和分析过程 社会网络重要期刊和会议 实验室项目成果展示
社会网络分析=现实社会认知+虚拟社会洞察
23
社会网络的分析方法
分析方法
事件分析
24
社会网络分析方法
个体分析 群体分析 消息传播分析
• 影响力评价 (Social Influence) • 节点分类(Node Classification)
• 社团发现 (Community Detection) • 链路预测 (Link Prediction)
社会导航(Social Navigation):Trapster 社会问答(Community Q&A):百度知道、Yahoo! Answers 社会评论:epinions.com、口碑网 资源分享:YouTube、Flickr、SlideShare、百度文库 内容管理 内容管理(Content Management):Wordpress d 文档管理编辑(Document Management and Editing Tool): 16 Google Docs
顿巴数
弱关系
Page 15
社会网络的分类
类别 社会化媒体 社会化媒体:示例 例 社会软件:(社交工具) 电子邮件(Email):Gmail 利用虚拟社区 帮助人群 即时通讯(Instant Message, IM):MSN、QQ 利用虚拟社区,帮助人群 相互交流 论坛(Forum):各种各样的主题论坛
云计算、移动网、物联网、社会网将主导今后的十年 。
– 云计算的应用场景不应是收水电费模式,而是作为云端技 术,驱动社会媒体的蓬勃发展。社会媒体将普及云计算技 术。 3 – 基于移动网、物联网、社会网的云服务相互连通。
社会网络的发展历程 研究背景
1998年 论坛 98年世界杯、四通 利方体育沙龙(论坛) 吸引着无数人 2005年 博客 博客的成功 迅速推进 博客的成功,迅速推进 博客在中国的主流化, 标志着中国互联网即将 进入web2.0时代 2009年 微博 在中国,新浪微博将人 们带入了一个更自由、 更开放、更加即时、更 加互动的个人互联网时 代
节点 关系 结构
6
Web1.0 & Web2.0社会媒体 社会媒体
网络分析技术不同
Web1.0 节点分析 关系分析 网络分析 网页文本的内容分析 超链分析 网络拓扑分析 扑 网页权威性 权 Web2.0社会媒体 人物的兴趣分析人物脸谱 人物的关系分析人物的朋友圈 人物的团体分析 物 人物的社交圈 物 交 网络拓扑分析人物的影响力 信息传播分析人物的影响力传播
8
Web2.0 /社会媒体/社会网络 Web 2.0
微博是什么?
微博
社会 媒体
社会 网络
特点: 微博就是每次发 快速 布不超过140个字的 便捷 微型博客,是表达、 微型博客 是表达 社会化 传播思想,吸引关 社会化传播 注,与人交流的最 社会化媒体 快 快、最方便的网络 方便的 络 传播平台 社交通信工具
Page 11
社会网络基本概念
社会网络包括节点、关系、用户群等基本概念。 节点:网络中的个体,指社会网络的参与者,即在一个网络中与他人相连接 的个人、组织、事件或其他集体性质的社会实体; 关系:节点和节点之间的连接; 用户群:一部分节点为了某些共同的目的组成的小团体,是关系的一种部分 聚合体。 聚合体 用图论的思想表示社会网络,网络G由节点和边组成,记为G=(V(G),E(G)): 节点集合:V(G) 节点集合 V(G) 边集合:E(G),一条连接节点i,j的边,记为(i, j); 邻接矩阵:一个包含N个节点的网络G可以唯一表示为一个邻接矩阵A,其 邻接矩阵: 个包含N个节点的网络G可以唯 表示为 个邻接矩阵A 其 中A=(aij)N*N, aij=1表示节点i和节点j之间存在边;aij=0表示节点i和节点j 之间不存在边; 节点度:表示节点i与网络中其他节点之间的边的条数。
网络空间
多个网络
– – – – 移动互联网 移动 联 社会网 互联网 物联网
物理空间
21
社会网络分析的优势
现实社会的研究
– 现实社会的数据是隐性的,难以观测、获取; 早期的社会学家以小规模社区人群为研究对象 研究人 – 早期的社会学家以小规模社区人群为研究对象,研究人 际关系、社会结构、信息传播、群体行为等问题。
20
多重空间促进了社会网络分析
可观测的社会系统 多重空间
– – – – 社会空间(社会计算) 媒体空间(信息传播) 网络空间(信息处理) 物理空间(信息感知)
社会空间
社区 社区 社区 社区 社区 社区
媒体空间
Youtube Facebook
Twitter Digg
Flicker Wikipedia
Page 12
社会网络的度量指标
• 平均路径长度:任意两个节点之间的距离的平均值
• 聚集系数:网络中长度为3的环(三角形)的存在比例 • 度分布 度分布p(k): k 网络中度为k的节点的个数占网络节点总数的比例,即在网 网络中度为k的节点的个数占网络节点总数的比例 即在网 络中随机任取一个节点,它的度数为k的概率 • 度相关性:刻画了在统计意义上网络中度数大的节点是偏向于与其它高度数的
ቤተ መጻሕፍቲ ባይዱ
数据来源不同
– Web1.0 :网站编辑人员发布的网页信息 – Web2.0社会媒体:用户个性化发布、社会性编辑、分 W b2 0社会媒体 用户个性化发布 社会性编辑 分 享、传播
5
Web1.0 & Web2.0社会媒体 社会媒体
数据类型不同
Web1.0 Web2.0社会媒体 用户背景信息 用户发布信息:频繁更新、即时性强 社交信息:用户之间的信息管道; 交互信息:用户之间的信息河流。 动态网络,人群节点之间流淌着信息 的河流 网页文本,基本不更新 超链信息:僵硬的信息管道。 超链信息:僵硬的信息管道 网页之间缺少信息的流动性。 静态网络
2001年 门户网站 911事件,快速、全 911事件 快速 全 面、准确、客观,奠 定了门户网站影响力 和媒体地位
2013年 爆发 截止2013年1月, Facebook、Twitter、 F b k T itt 新浪微博和腾讯微博的 用户数分别突破了11亿、 5亿、4亿和5亿
4
Web1.0 & Web2.0社会媒体 社会媒体
人人都是信息发布者 每个人都可以成为新媒体 呈现最真实的自己 基于信任的病毒传播 可以定制的新媒体 生活因微博而完整 微博的现实就是中国社 会的现实 9
社会媒体的影响力
在社会化媒体之中,意见领袖和网络活跃分子获得了最多的关注,因
此也是推广中影响消费者的关键。
当你的粉丝 当你的粉丝——— 超过 , 你就好像是一本内刊; 超过 , 你就是个布告栏; 超过 , 你就像一本杂志; , 超过 你就是一份都市报; 超过 , 你就是一份全国性报纸; 你就是 份全国性报纸; 超过 你就是电视台! 典型的社会化媒体用户结构
社会网络的出现
随着以微博 社交网站为代表的社会媒体的发展 虚拟 – 随着以微博、社交网站为代表的社会媒体的发展,虚拟 社区大量出现,组成了规模巨大的社会网络。 – 其数据:显式、可观测、可量化计算。激发了大规模社 其数据:显式 可观测 可量化计算 激发了大规模社 会计算的研究动力。
22
社会网络分析