第6讲 基于社交网络的用户行为研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在这一部分,以人人网的数据为例进行说明 数据清理 一般从人人网中抓取到的数据是大量的, 其中包括了一些将会 给后续研究引入偏差的杂质,这些数据中有的是不完整的,有的 明显属于噪声,有的是与实际不一致的,有的是重复的,因此需 要对数据进行清理、平滑和去噪。
针对人人网用户数据,本文为了得到的北京交通大学用户数 据,按下图做了数据清理。
11
社交网络中用户行为与信息传播数据分析
12
社交网络中用户行为与信息传播数据分析
用户的好友拓扑分析与可视化
13
社交网络中用户行为与信息传播数据分析
从上图看到,用户好友数目分布零乱,但相对集中。对数据的 统计显示,用户的好友数量分布主要集中在区间[200, 500], 占到用户总人数的52.32%,图中累积曲线斜率最大处即是这 一区间。 右边是某一用户A的社交模型 注意之处: 1.用户A社交圈中的聚落 2.用户A社交圈中的孤立点 3.聚落中心的中心度
4
理论基础
社会网络中的声望(影响力)分析 社会网络分析中,声望分析反映了选择与被选择的关系。对结 构声望最简单的测量方法是看某一行动者受欢迎的程度,其中 某一点的内结点度(di)可以说明接纳度或受欢迎度,而外结点 度(do)可说明一个人的影响力,有更多旳外结点的人表明其具 有许多朋友(关系)。 网络中影响域(ε Ε易普塞龙)是指在群体中人们直接或间接地 受某人一间所左右的区域。在运算上,根据网络中直接或间接 地受之影响(与之关联)的人数来计量,或在距离矩阵中所有列 中的数字。即:
强连接关系通常代表者行动者彼此之间具有高度的互动,在 某些存在的互动关系型态上较亲密,因此,透过强连接所产生 的信息通常是重复的,容易自成一个封闭的系统。
相对于强连接关系,弱连接则能够在不同的团体间传递非重 复性的信息,使得网络中的成员能够增加修正原先观点的机 会。、
7
理论基础
8
社交网络中用户行为与信息传播数据分析
14
社交网络中用户行为与信息传播数据分析
用户A的 实际社交图
15
社交网络中用户行为与信息传播数据分析
用户的信息制造和传播行为
16
社交网络中用户行为与信息传播数据分析
17
社交网络中用户影响力研究
一个用户在社交网络中的影响力大小的主要是其好友的质量 和数量。可以这样理解:影响力是通过传播得以实现的,用户 的好友是其进行传播活动的基础,也是决定影响力的基础。
18
社交网络中用户影响力研究
19
社交网络中用户影响力研究
ຫໍສະໝຸດ Baidu 设影响力为ε(epsilon),用户U共有七级好友,设其第i级 好友数为ni,则其最大覆盖范围c有
再设每一级好友向下转发的概率为Pij (j=i+l),则有ε计算式 为:
由此可得,影响力是用户在一定网络中发布一条信息时该信息 可到达的结点数的期望值。
设p12 = c,则
实验中通过数据分析方法,利用样本值来推算α, β以及c的值。 最后得出实际中计算用户影响力的公式为:
5
理论基础
网络中某点的声望定义公式为:
式中, Cj为中心度指数,指的是各结点到此点的平均距离; N为网络中结点总数。
6
理论基础
强关系(strong ties)与弱关系(weak ties) 人与人之间的关系,从沟通互动的频率来看,可以简单划分为强 连接和弱连接。强连接最有可能的是你目前工作生活的搭档, 事业的伙伴,合作的客户,生活和工作上互动的机会很多。弱连 接范围更广,同学、朋友、亲友等等都有可能,就是沟通和互动 的机会较少,更多的是由于个人的时间、经验和沟通机会造成 的。
20
社交网络中用户影响力研究
由于直接计算运算量过大,下面使用近似处理 由影响力公式变化可得 其中
实际过程中只要计算第一级好友和第二级好友的分量就可以 近似得到用户的影响力,即
21
社交网络中用户影响力研究
由前面的分析和研究可知,每个用户的好友数的分布是有一定 规律的,主要分布在[200,500]区间,因此可以将n1与n2近似为 线性关系,这里假设n2= αn1+ β(beta),则可以进一步简化 为:
2
社交网络与用户行为
3
理论基础
邓巴数字(150定律) 邓巴数字亦即150定律是有名的社会学定律。该定律指出,人 类智力将允许人类拥有稳定社交网络的人数是148人,四舍五 入大约是150人。该定律由英国牛津大学人类学家罗宾邓巴 (Robin Dunbar)提出。该定律是由罗宾邓巴根据猿猴的智力 与社交网络推断出来的。
社交网络
《基于社交网络的用户行为研究》
1
社交网络与用户行为
社交网络(Social Network Service)是一个跨越学科 的综合概念,它主要有用户、用户生成内容(User Generated Content)、社交平台3个要素构成。
社交网络用户的行为有基本的访问行为、社交行为、信息发 布行为、娱乐游戏行为等,SNS中用户行为的复杂性。本节 课把SNS用户的各种交互行为作为一个集合来进行研究分析 ,本文中主要分析都针对UGC。
由六度分隔理论可知,任意两个人之间的最大跨度是6,则在 社交网络中也满足该规律,即社交网络中的用户与任何一个 该社交网络的注册用户之间最多平均相隔6个好友,每个用户 之间都应当是可达的。
根据这一理论,简化和抽象出该用户在社交网络中的人脉关 系网络,可以得到如后图所示的以用户U为中心的人脉网络结 构模型,模型中忽略好友之间可能存在的关系,仅关心这些好 友与用户U的关系。
9
社交网络中用户行为与信息传播数据分析
10
社交网络中用户行为与信息传播数据分析
数据采样 由于数据总体过大,在对其进行分析时缺乏实效性、经济效益 过低,因此研究中根据统计学原理对数据总体进行抽样分析。 抽样原则有三条,即有效性原则、可测量原则以及简单可重复 原则;考虑到实际的总体和研究需要,以科学性、正确性为指导 ,研究中采取了分层抽样的原则。 针对研究中总体的分层抽样的方法如下:规定男女比例1:1,即 男女用户各抽取2500人,再次按照入学年份从2001年至 2010年10年分层抽取,每年500人,其中男女各250人,过程如 图所示。
相关文档
最新文档