微博用户行为统计特性及其动力学分析_何静
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
微博用户行为统计特性及其动力学分析*
何静郭进利徐雪娟
(上海理工大学管理学院上海200093)
【摘要】以新浪微博为研究对象,运用复杂网络和统计学的方法从个体和群体层面对微博的网络拓扑结构和用户的行为特性进行统计分析。结果表明,微博用户的行为表现出多重的标度特性,其中节点的度分布和微博发布行为近似服从幂律分布,而转发和评论行为表现为指数截断的幂律分布。在此基础上,运用兴趣驱动机制和重尾特性对其进行分析,得到微博用户行为的一些共性。这可以为微博信息的传播动力学研究提供有益的帮助。
【关键词】微博社交网络用户行为指数截断的幂律分布
【分类号】N94
Analysis on Statistical Characteristic and Dynamics for User Behavior in Microblog Communities
He Jing Guo Jinli Xu Xuejuan
(Business School,University of Shanghai for Science and Technology,Shanghai200093,China)
【Abstract】Using the complex network and statistical methods,this paper analyzes the network topology and user behav-ior characteristics of the Sina micro-blogging on the individual and group levels.The results show that human behaviors have different multi-scaling characteristics.Of which,node degree distribution and microblog-post behavior approxi-mately obey the power law distribution;however the forwarding and comment behavior obeys exponential truncated power -law distribution.Based on this,the interest-driven mechanism and heavy-tail characteristics of the user behavior are studied and some commonalities are botained.It is helpful to the research of public opinion propagation dynamics.【Keywords】Micro-blogging Social network User behavior Exponential truncated power-law distribution
1引言
随着微博应用的发展,人类社会跃入了移动互联网时代。微博作为主流的在线社交网络平台,具有即时发布、实时传播、多途径参与、简便易用等特点,成为人们生活、娱乐和工作中的一个重要组成部分。CNNIC发布的第31次《中国互联网络发展状况统计报告》[1]显示,截至2012年底,我国网民规模达到5.64亿,微博用户为3.09亿。鉴于其庞大的用户群,微博成为移动互联网时代的又一关键应用。
在传统的人类动力学研究中,大多数学者利用泊松过程来描述人类行为,认为人们的相继行为发生的时间间隔分布是均匀的。但是随着数据挖掘和信息处理技术的提高,许多研究表明人类的行为偏离了泊松过程。Barabási[2]通过对实际的电子邮件发送与回复等人类邮件通信行为的时间间隔进行统计分析,发现人类行为的发生具有短时间内的爆发和长时间的静默并存的特征,这些行为并不能用泊松过程来描述。在现实生活中,大多数
收稿日期:2013-06-03
收修改稿日期:2013-07-02
*本文系国家自然科学基金项目“基于随机服务理论的复杂网络和人类动力学演化模型”(项目编号:70871082)、上海市一流学科建设项目“上海市管理科学与工程一流学科建设项目”(项目编号:S1201YLXK)和上海市研究生创新基金项目“基于复杂网络的微博舆论传播动力学研究”(项目编号:JWCXSL1202)的研究成果之一。
94
的人类行为也具有类似的特征。比如研究者对人们的网页浏览[3]、手机通信[4]、电影点播[5]等行为进行了统计分析,结果均表明,人类行为发生的时间间隔服从标度幂律分布,且幂律指数在1-3之间。樊超等[6]对某大学师生的图书借阅行为进行了统计分析,结果表明群体和个体的借阅行为表现出不同的统计特征。在人类行为的内在驱动机制方面,戴双星等[7]提出了基于兴趣驱动的动力学模型;Guo等[8]通过对科学网博客的用户评论行为进行研究,发现用户评论时间间隔近似服从指数为1-2的幂律分布,由此提出了一个兴趣逐渐消失的人类动力学模型。
人类的行为是非常复杂的,而且容易受到个人的兴趣爱好、所从事的工作类型以及人际关系网络等因素的影响,微博用户也同样如此。在微博中,用户的行为偏好大多体现在他所关注的用户类型,如旅游、交友、新闻等。用户之间通过关注和粉丝关系进行信息的传递和共享,从而形成一个人际关系网络。目前关于微博用户行为特性的研究还比较少。尹书华[9]对新浪、腾讯和搜狐三大微博网络进行了统计,结果表明微博网络用户的节点度服从幂律分布,具有无标度特性和小世界效应。Yan等[10]对新浪微博用户的信息发布行为进行研究,提出了一个由兴趣和社会身份驱动的人类行为动力学模型,研究结果表明用户的社会身份驱动着兴趣的变化,从而影响着信息的转发或评论行为。赵文兵等[11]以和讯财经微博为例,对微博用户的特性及动机进行了分析,结果表明关注数、被关注数和博文数均具有统计特性,且具有地域差异性。其他关于微博的研究大都集中在微博的网络演化、信息的传播机制以及微博营销等方面。随着大数据时代的来临,用户的行为和信息的传播方式都呈现出多样化的发展趋势,通过对用户行为的研究进而预测事件的发展趋势,可以为微博的发展提供更好的策略。
现有关于人类行为偏离泊松过程的研究大都集中于针对事件发生的时间间隔的统计。但是人类的行为是高度复杂的,用户的行为不仅仅体现在时间间隔上,事件发生的频次和概率、事件之间的相关性等也能够反映出人类行为的某种规律。因此,从个体和群体层面对微博用户的信息发布、转发和评论行为进行多角度研究,可以得出用户行为的若干特性。
本文基于新浪微博的实际用户数据,构建了一个微博用户关系网络,综合运用复杂网络和统计学的方法对微博的网络特性和用户行为特性进行定量分析。结果表明,微博用户的行为具有高度的复杂性和多重标度特性。在此基础上,结合人类行为动力学理论得出了微博用户行为的一些共性。
2数据采集
作为当前国内主流的社交网络平台,新浪微博(http://weibo.com)拥有庞大的用户群。笔者选取新浪微博的实际用户作为研究样本,以某一特定用户为根节点,运用广度优先搜索算法和爬虫软件,收集了近10000个微博用户的样本数据(数据集1),包括用户的粉丝数、关注数、发布的微博数等数据。此外,还抓取了微博名人堂中前100位媒体、网站和名人等不同类型用户的实际微博数据(数据集2)。数据集的结构如下:
Dataset1(user_ID,follower,following,weibo_No);
Dataset2(user_ID,weibo_ID,zf_No,pl_No,fb_time,zf_time)。
其中,user_ID作为主关键字代表着微博用户的身份标识;用户的粉丝数follower、关注数following和微博数weibo_No表征微博的用户属性;微博信息weibo_ ID、转发数zf_No、评论数pl_No、发布时间fb_time和转发时间zf_time表征微博的传播属性。在微博中,可以通过用户ID和用户之间的连接关系(粉丝和关注)构建一个微博用户网络,因此可以借助于复杂网络和人类行为动力学理论对用户的行为特性进行深入分析。
尽管获取的数据量不大,但是根据人际关系中的六度分割理论,这些用户数据的统计结果在很大程度上仍然可以反映微博用户行为的若干普适性。在数据分析的过程中,主要运用Matlab、SPSS和Excel等工具对样本主体数据进行处理和分析,得到双对数坐标下的分布散点图,再采用一元线性回归或最小二乘法进行拟合,拟合曲线的斜率即为幂指数。
3微博网络节点的度分布分析
舆论的形成是大众传媒与人际传播共同作用的结果,其在微博上的传播过程可以看作是服从某种规律的网络传播行为。在微博中,若以注册用户为节点,以用户之间的关系为连接边,则可以构造一个微博用户关系网络。例如用户A是用户B的粉丝,则形成一条A→B的连接边;用户B是C的关注好友,则形成一条
95