社会网络大数据分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 注册用户数超5.4亿 • 日活跃人数达6970万 • 日均消息量1亿 • 注册用户数近6亿 • 月活跃用户达到3.55亿
网络 安全
内容简介
社会网络的发展历程和基本概念 社会网络的分析方法 社会网络的大数据分析系统和分析过程 社会网络重要期刊和会议 实验室项目成果展示
18
社会网络分析和社会计算
社会网络大数据分析
1
内容简介
社会网络的发展历程和基本概念 社会网络的分析方法 社会网络的大数据分析系统和分析过程 社会网络重要期刊和会议 实验室项目成果展示
2
技术发展趋势
计算机网络技术对传统产业技术升级的影响
– 1990年-2000年,PC软件时代,推动了传统企业的自动 化; – 2000年-2010年,Web1.0时代,推动了传统企业的网络 化; – 2011年-2020年,Web2.0 时代,将推动传统企业的社交 化。
7
Web1.0 & Web2.0社会媒体
应用技术不同
Web1.0 应用 网络信息导航。 数据为王。 技术 伟大技术:Google Page Rank。 Google引领Web1.0媒体的技术潮流。 Web2.0社会媒体 社会软件、群体智慧。 关系为王? 伟大技术是什么? 社会网络照耀互联网。
2001年 门户网站 911事件,快速、全 面、准确、客观,奠 定了门户网站影响力 和媒体地位
2013年 爆发 截止2013年1月, Facebook、Twitter、 新浪微博和腾讯微博的 用户数分别突破了12亿、 5亿、5亿和6亿
4
Web1.0 & Web2.0社会媒体
数据来源不同
– Web1.0 :网站编辑人员发布的网页信息 – Web2.0社会媒体:用户个性化发布、社会性编辑、分 享、传播
24
个体分析--影响力评价算法
用户的影响力是指用户能够直接或间接作用于其他用户 的能力,社会网络中各个用户的影响力是不相同的。 用户影响力排名算法 PageRank算法 HITS算法 Klout算法 新浪微博算法
Page 25
ຫໍສະໝຸດ Baidu
群体分析
如何分析群体边界、身份、群内关系、群际关系、群体凝聚力、 群体兴趣、群体行为、群体心理、社会认同、群际冲突、社会资 本、群体的社会地位、群体变化?
社会媒体的影响力
在社会化媒体之中,意见领袖和网络活跃分子获得了最多的关注,因
此也是推广中影响消费者的关键。
当你的粉丝——— 超过 , 你就好像是一本内刊; , 超过 你就是个布告栏; , 超过 你就像一本杂志; , 超过 你就是一份都市报; , 超过 你就是一份全国性报纸; 超过 你就是电视台! 典型的社会化媒体用户结构
社会网络分析:已经成为一个关键技术,也是一项 热门的研究。涵盖社会学、人类学、社会语言学、地 理、社会心理学、通讯研究、资讯科学、社会网络分 析与探勘、组织研究、经济学,以及生物学领域。 ——维基百科 社会计算:以社会系统为研究对象,是一门自然科 学(计算科学)、社会科学(哲学、社会学、管理学、 心理学) 、思维科学(系统论、控制论)的交叉学科。
8
Web2.0 /社会媒体/社会网络 Web 2.0
微博是什么?
微博
社会 媒体
社会 网络
特点: 微博就是每次发布 快速 不超过140个字的微 便捷 型博客,是表达、 社会化 传播思想,吸引关 社会化传播 注,与人交流的最 社会化媒体 快、最方便的网络 传播平台 社交通信工具
人人都是信息发布者 每个人都可以成为新媒体 呈现最真实的自己 基于信任的病毒传播 可以定制的新媒体 生活因微博而完整 微博的现实就是中国社会 的现实 9
中间地带
社交型问答:知乎,Quola
群体智慧:(协同工具) 维基(Wiki):维基百科、维基解密 利用人群的集体智慧,协 社会标签(Social Bookmarking):Delicious 同工作 社会新闻(Social News):Digg
社会导航(Social Navigation):Trapster 社会问答(Community Q&A):百度知道、Yahoo! Answers 社会评论:epinions.com、口碑网 资源分享:YouTube、Flickr、SlideShare、百度文库 内容管理(Content Management):Wordpress 文档管理编辑(Document Management and Editing Tool): 16 Google Docs
Web网络
社会网络
5
Web1.0 & Web2.0社会媒体
数据类型不同
Web1.0 Web2.0社会媒体 用户背景信息 用户发布信息:频繁更新、即时性强 社交信息:用户之间的信息管道; 交互信息:用户之间的信息河流。 动态网络,人群节点之间流淌着信息 的河流 网页文本,基本不更新 超链信息:僵硬的信息管道。 网页之间缺少信息的流动性。 静态网络
100 1万
被大多数人追随
意见 00 领袖
1000 10万
网络活跃分子
贡献了多数内容和流量的一小群人
多数人都是懒惰的观众
100万
1000万,
很少参与互动,沉默的观众 10
社会网络基本概念
社会网络(Social Network) 以人或人的群体为结点构成的集合,这些结点之间 具有某种接触或相互作用模式,如朋友关系、亲属 关系、同事关系或科研合作关系等。 以人物为节点、以人际关系为边,将人物节点联接 起来而构成的网络
• 社团发现 (Community Detection) • 链路预测 (Link Prediction)
• 趋势分析 (Trends Prediction) • 情感分析 (Text Mining)
Page 23
个体分析
化
社会:身份、关系、社交圈、资本、位置、地位、行为、变 心理:兴趣、情结、意识、潜意识
Page 11
社会网络基本概念
社会网络包括节点、关系、用户群等基本概念。 节点:网络中的个体,指社会网络的参与者,即在一个网络中与他人相连接 的个人、组织、事件或其他集体性质的社会实体; 关系:节点和节点之间的连接; 用户群:一部分节点为了某些共同的目的组成的小团体,是关系的一种部分 聚合体。 用图论的思想表示社会网络,网络G由节点和边组成,记为G=(V(G),E(G)): 节点集合:V(G) 边集合:E(G),一条连接节点i,j的边,记为(i, j); 邻接矩阵:一个包含N个节点的网络G可以唯一表示为一个邻接矩阵A,其 中A=(aij)N*N, aij=1表示节点i和节点j之间存在边;aij=0表示节点i和节点j 之间不存在边; 节点度:表示节点i与网络中其他节点之间的边的条数。
节点 关系 结构
Web网络
社会网络
6
Web1.0 & Web2.0社会媒体
网络分析技术不同
Web1.0 节点分析 关系分析 网络分析 网页文本的内容分析 超链分析 网络拓扑分析网页权威性 Web2.0社会媒体 人物的兴趣分析人物脸谱 人物的关系分析人物的朋友圈 人物的团体分析人物的社交圈 网络拓扑分析人物的影响力 信息传播分析人物的影响力传播
云计算、移动网、物联网、社会网将主导今后的十年 。
– 云计算的应用场景不应是收水电费模式,而是作为云端技 术,驱动社会媒体的蓬勃发展。社会媒体将普及云计算技 术。 3 – 基于移动网、物联网、社会网的云服务相互连通。
社会网络的发展历程 研究背景
1998年 论坛 98年世界杯、四通 利方体育沙龙(论坛) 吸引着无数人 2005年 博客 博客的成功,迅速推进 博客在中国的主流化, 标志着中国互联网即将 进入web2.0时代 2009年 微博 在中国,新浪微博将人 们带入了一个更自由、 更开放、更加即时、更 加互动的个人互联网时 代
Page 12
社会网络的度量指标
• 平均路径长度:任意两个节点之间的距离的平均值
• 聚集系数:网络中长度为3的环(三角形)的存在比例 • 度分布p(k): 网络中度为k的节点的个数占网络节点总数的比例,即在网 络中随机任取一个节点,它的度数为k的概率 • 度相关性:刻画了在统计意义上网络中度数大的节点是偏向于与其它高度数的
社会网络的最新进展
• 全球最大的在线社交网 络 • 用户人数22亿,日活跃 人数13亿 • 日均消息量120亿条 • 用户数突破10亿,日活 跃人数2.7亿 • 日均消息量5亿条
• 规模庞大、 数据丰富 • 关系动态变 化 • 圈子特性 • 弱关系 • 用户生成内 容 • 匿名性
大数 据特 点
复杂 网络 特征
顿巴数
弱关系
Page 15
社会网络的分类
类别 社会化媒体:示例 社会软件:(社交工具) 电子邮件(Email):Gmail 利用虚拟社区,帮助人群 即时通讯(Instant Message, IM):MSN、QQ 相互交流 论坛(Forum):各种各样的主题论坛
博客(Blog):Blogger、新浪博客. 微博(Micro Blogging):Twitter、新浪微博 在线社会网络 (Online Social network):FaceBook、人人网
社会网络的出现
– 随着以微博、社交网站为代表的社会媒体的发展,虚拟 社区大量出现,组成了规模巨大的社会网络。 – 其数据:显式、可观测、可量化计算。激发了大规模社 会计算的研究动力。
21
社会网络的分析方法
分析方法
事件分析
22
社会网络分析方法
个体分析 群体分析 消息传播分析
• 影响力评价 (Social Influence) • 节点分类(Node Classification)
Page 14
社会网络的几个基本理论
六度分割 理论 贝肯数
世界上任何两个人之间的平均距离为6 与凯文.贝肯(普通的好莱坞演员)发生连 接需要的中间人数量,平均值在2.6和 3之间,进一步验证“六度分割理论”。 我们可以与之保持社交关系的人数的最 大值是150,奠定了“网络群组”概念。 群与群之间的连接称为“弱关系”,弱 关系促成了不同群之间的信息流动,在 消息传播中的作用强大。
26
群体分析--团体发现
在社会网络中, 兴趣爱好的共同点会导致社会网络中的某些个体形成一个 团体, 网络也随之划分成一系列社团。团体结构作为社会网络拓扑结构的重 要方面, 对其研究有着重要的应用价值。社团发现既可以使人们从社团结构 的整体功能得到其中个体在网络中的作用, 又可以从整体上把握整个网络的 结构和未来走向。
Page 27
群体分析--算法概述
社团发现问题一直是社会网络中的研究热点,不同领域的科研工作者们纷纷从自己 的角度提出了社团发现的算法,如物理学、统计学、计算机科学、生物学等领域, 涌现出多种优秀的算法,主要有: 图分割方法 谱二分法 Kernighan-Lin算法 最大信息流法 基于切断边集最小化法 层次聚类法 分块聚类法 基于模块度优化的方法 聚合算法 分裂算法 基于信息论的方法
节点连接,还是偏向于与低度数节点连接的网络结构特征。用网络中所有边的两 个端点的度数的Pearson相关系数r表示。
Page 13
社会网络的基本特征
社会网络的特点: 小世界特性:平均路径长度小、聚集系数高 无标度特性:度分布为幂律分布 高聚集系数:朋友的朋友很可能也是朋友 正同配指数:度取值大的节点倾向于连接度大的节 点 强的社团结构:网络由若干个群或团构成,群内部 个体间连接相对比较紧密,群之间连接比较稀疏
19
多重空间促进了社会网络分析
可观测的社会系统 多重空间
– – – – 社会空间(社会计算) 媒体空间(信息传播) 网络空间(信息处理) 物理空间(信息感知)
多个网络
– – – – 移动互联网 社会网 互联网 物联网
20
社会网络分析的优势
现实社会的研究
– 现实社会的数据是隐性的,难以观测、获取; – 早期的社会学家以小规模社区人群为研究对象,研究人 际关系、社会结构、信息传播、群体行为等问题。
Page 28
群体分析--社团发现
图分割方法 基于迭代二分法 适用于明显的树形结构网络 k-means分块聚类法 模块度最优的社团结构 基于信息论的有损压缩方法