基于HRank的微博用户影响力评价

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于HRank的微博用户影响力评价
贾冲冲;王名扬;车鑫
【摘要】针对微博社交网络平台中的用户影响力评价问题,提出了一种基于HRank 的评价算法.该算法将评价科学家科研绩效影响力的判定参数H指数引入进来,构造出能反映用户影响覆盖度的粉丝H指数和用户微博受追捧程度的微博被转发H指数,以分别表征用户的静态特征和在微博平台上的动态行为特征.在此基础上,结合粉丝H指数和微博被转发H指数构建出对用户影响力进行综合评价的HRank模型.粉丝数与用户影响力的相关性不是很强,同样数据集下相对PageRank,HRank用户影响力模型与新浪用户影响力官方排名更为接近,可有效实现对微博用户影响力的客观评判.
【期刊名称】《计算机应用》
【年(卷),期】2015(035)004
【总页数】4页(P1017-1020)
【关键词】用户影响力;微博;PageRank;H指数
【作者】贾冲冲;王名扬;车鑫
【作者单位】东北林业大学信息与计算机工程学院,哈尔滨150040;东北林业大学信息与计算机工程学院,哈尔滨150040;东北林业大学信息与计算机工程学院,哈尔滨150040
【正文语种】中文
【中图分类】TP301.6
Web2.0技术的发展带领大家走进了社交网络交互时代,新技术催生了微博并使之成为新的信息互动和传播的社会化媒体,网络与用户间的关系已由用户被动接受网络呈现的信息转变为用户主动参与的模式。

用户通过发布微博、参与讨论以及分享转载等行为使得互联网的形态更加主动和丰富。

随着微博用户群体的迅速增长,数据呈现出增长海量化、类型多样化、传播即时化等特征,信息技术在提供便利的同时也考验着人们对海量数据的分析和驾驭能力。

在微博平台经常会有这样一种现象,一些尚未得到足够关注的微博在被“大V”转发或评论之后,突然就成为了热点话题。

这些“大V”就是微博网络中的高传播影响力用户,他们拥有更多的关注度和话语权,很大程度上影响着消息的传播、话题的形成,甚至舆论的走势。

因此,对微博用户影响力的研究有助于深入发现微博消息的传播规律,并实现对微博用户的客观评判,这可为相关管理者和用户实施广告投放和进行舆情管控等提供理论依据[1]。

影响力在社会学、营销学中被广泛地研究,一般是指以一种别人所乐于接受的方式,来改变其思想或行动的能力。

本文中,用户影响力是指用户在微博消息传播过程中所发挥的重要作用。

用户影响力是衡量用户传播能力的重要指标,用户影响力越大,传播能力越强,所带来的影响作用也就越大。

用户影响力的构成因素总结起来可归为两类:一类是用户关系,包括用户的关注和粉丝关系;另一类是用户行为,包括发布、转发、评论、点赞、@提及、在线时间等。

基于影响力的构成因素,目前关于用户影响力的研究集中在如下四个方向[2]。

1)基于用户关系的评价方法。

其中,PageRank是最常用的算法。

PageRank算法由Google提出,用于衡量搜索引擎索引中某特定网页相对于其他网页的重要程度,PageRank指数从0~10,网页的PageRank值越高表示其在搜索排名中的地位越重要。

由于微博中的关注和粉丝关系与网页的链入和链出关系十分类似,因此学者们将衡量网页重要性的PageRank算法应用到微博的用户影响力评价上,来衡量某用户在消息传播网络中的重要程度。

PageRank的计算公式[3]为:
PageRank(Vi)=(1-α)+α
其中:Vi表示用户;F(Vi)表示用户的粉丝集合;L(Vj)表示用户的关注数;α为阻尼系数,表示某用户随机关注其他用户的概率。

但是,在基于PageRank的用户影响力模型中,仅考虑了用户的静态特征,没有考虑用户微博的转发/评论等动态行为。

即使某用户PageRank值较高,如果某阶段没有发表微博,在该阶段也不能说其产生了影响力,且该模型容易受到僵尸粉的影响。

2)基于用户行为的评价方法。

该评价方法考虑到了用户微博的动态特性,如文献[4]将用户微博的转发、评论和提及等行为作为影响力评价的依据。

3)基于PageRank和用户行为权值的评价方法。

该方法将PageRank算法和基于用户行为的评价方法相结合。

文献[5]基于PageRank算法从用户自身质量及其粉丝质量入手,考虑了粉丝数量、评论率、转发率和是否微博认证用户等因素,分析得到影响力指数;文献[6]结合PageRank算法和用户活跃度,提出了Behavior-Relationship Rank 算法。

4)基于URL追踪的评价方法。

文献[7]通过追踪URL的传播情况,按一定方式分配相应的影响力进行评价。

可见,在进行用户影响力评价的过程中,研究者既考虑到了用户的关注和粉丝数等静态指标,同时也考虑到用户微博的转发、评论和提及等动态行为。

但是,在对用户微博动态特性的考量中,没有能够很好度量这种动态特性的质量。

即,发布较高数量微博且微博原创率很高的用户也不一定具有较高的影响力(例如,一些商品推销用户每天都会发出大量微博推销产品),只有当该用户发布的微博被大量关注和转发时,才意味着该用户具有较高的影响力。

2005年,美国物理学家Hirsch提出了混合量化指标——H指数(又称H因子),用于评价科学家科研绩效的影响力,并将其定义为:“若一个人在其所有学术文章中有N 篇论文被引用了不少于N次,那么他的H指数就是N”[8]。

H指数越高,表明该科
学家学术论文的质量越高,其科研影响力也就越高。

微博中的关注和转发行为具有与论文引用相似的特性,用户的被关注数(即粉丝数)代表了该用户的影响覆盖度;微博的转发数则体现了该微博的受追捧程度,代表了发博用户的影响传播力。

本文引入H指数来评价用户微博的影响力,从而有效避免低影响力的粉丝用户和微博对用户影响力评价带来的负面作用。

2.1 H指数在微博中的重定义
H指数在微博领域的应用中,本文对其重新作如下两个定义:
定义1 F-HRank。

若一个微博用户的所有粉丝用户中有N个用户的粉丝数FollowersCount不少于N,那么他的粉丝H指数——F-HRank就是N。

定义2 R-HRank。

若一个微博用户某时段或全部所发的微博中有N条微博的转发数RepostsCount不少于N,那么他的微博被转发H指数——R-HRank就是N。

微博领域H指数的计算过程如下:将用户某时段(或全部)的粉丝用户/所发微博,按粉丝数/转发数从高到低排序,每个粉丝用户/每条微博将得到一个排名序号,将每个粉丝用户/每条微博的序号和粉丝数/转发数进行比较,找到序号N,使得该粉丝用户/微博的序号N小于或等于它的粉丝数/转发数,而下一个粉丝用户/微博的序号(N+1)大于它的粉丝数/转发数,则该用户的F-HRank/R-HRank即为N。

与PageRank相比,虽然F-HRank也仅考虑用户的静态特征,但是由于僵尸粉用户通常关注较多,粉丝较少,F-HRank算法就可过滤掉大量可能存在的僵尸粉用户,从而降低了僵尸粉的影响。

微博用户的粉丝数据是衡量其影响力的基础,PageRank和F-HRank都具有相对稳定性,只能反映用户的静态特征。

如第1章提到,即使某用户PageRank或F-HRank较高,但是在某一阶段没有活跃度,也不能说其产生了用户影响力。

因此,本文将F-HRank作为用户影响力基础的同时,把R-HRank考虑进来构建新的用户综合影响力模型HRank。

2.2 HRank用户影响力模型的构建
静态指标粉丝H指数体现了用户受关注的程度,而动态指标微博被转发H指数考虑了用户微博的质量。

从理论上讲,一个备受关注且微博质量较高的用户通常也会拥有较大的影响力。

因此,定义HRank算法的计算公式如下:
HRank(Vi)=F-HRank(Vi)×
其中:R-HRankMax和R-HRankMin分别为所有用户中最大和最小的R-HRank 值。

式(2)将HRank定义为对R-HRank归一化处理后与F-HRank的乘积。

该算法将用户的追随关系和用户间的交互行为综合作为用户的影响力评价指标,从而在一定程度上避免了只单纯考虑用户追随关系带来的片面性,同时也有效抓住了微博平台的互动特性,使得得到的用户影响力排名符合微博平台的规律,能够保证排名结果的可靠性。

接下来,本文将提出的HRank用户影响力模型与新浪微博现有的影响力评价模型和PageRank模型等进行实验对比,以验证所提模型的有效性。

3.1 新浪微博数据的获取
实验数据通过新浪微博开放应用程序编程接口(Application Programming Interface, API)获取,但由于开放平台对用户获取权限有一定限制,直接爬取的数据有较大的不完整性,尤其是自2014年7月9日起,用户关系读取类接口升级后,各接口最多返回指定用户关注数/粉丝数30%的数据。

因此,本文选用的是接口升级前储备的截至2013年10月份的数据集,该数据集是借助Hadoop集群编写MapReduce程序调用新浪API历时数月获取的,包括1.2亿用户的基本信息、关注列表、粉丝列表和用户分别在7,8,9,10四个月份所发的微博数据,获取方式可参考文献[9],数据存储在Hadoop集群的HBase数据库中,MapReduce架构如图1所示。

3.2 数据集分析和处理
新浪微博平台的用户关注量上限为2 000;粉丝量目前无上限,已达千万级。

该数据
集获取时期,用户获取权限依然有限制,指定用户的粉丝数据最多返回5 000条,相对部分用户千万级的高粉丝量能够获得的数据太少,但是关注数据基本能够获得。

为了能够获得更为完整的粉丝数据,使用了依据所有用户的关注列表数据逆向推理还原出各用户的粉丝列表数据的方式。

即,若用户A和B都关注了用户C,则A和B 将被添加到C的粉丝列表中,此方法的可靠性在于是否有足够量且尽可能完整的用户关注列表数据。

数据集是以高粉丝量用户为优先种子获取,且考虑到PageRank 和HRank算法对低影响力用户的不敏感性等,这些都降低了欠缺的部分用户数据对最终实验结果的影响。

由于用户数据量巨大,且由关注数据逆向推理粉丝数据非常适用于MapReduce编程思想,所以还原过程很适合借助Hadoop平台完成。

为了验证粉丝列表数据的还原度,本文利用Pearson Correlation系数对还原出的粉丝列表中各用户的粉丝数Xi与从新浪微博获取的用户基本信息里的用户实际粉丝数Yi进行相似度测量。

Pearson Correlation相关系数公式如下:
其中:Xi和分别为样本均值和样本标准差。

经计算,粉丝列表的整体还原度达到了58.75%,其中还原出的最大粉丝量达到了3 756万,相比新浪对粉丝数据返回量5 000的限制,有了质的提升。

针对用户发表的微博数据,通过对用户四个月发博数据分析,用户发博总量低于100的用户约占9.7%,这部分用户为不活跃用户或僵尸粉用户。

本文给出了用户的日均发博量分布,如图2所示,发现多数用户的日均发博数量在1~5。

3.3 用户影响力模型对比实验结果及分析
新浪微博官方网站定义的影响力模型由活跃度、传播力和覆盖度三大指标构成,公式如下:
影响力=α×活跃度+β×传播力+γ×覆盖度
其中:活跃度代表用户发博、转发、评论的有效条数;传播力与微博被转发、被评论的有效条数和有效人数相关;覆盖度则取决于微博的活跃粉丝数的多少;α、β、γ均
为系数。

虽然新浪微博的影响力模型的客观性也有待考证,但由于其比普通级用户拥有更加全面、可利用的数据资源,模型综合考虑了用户的静态特性以及在微博上的动态特性,在一定程度上能较为合理地度量用户的影响力,且根据此模型推荐出的热门用户也较为得到用户的认可,具有较高的权威性。

因此,本文拟用以上预处理过的数据,将提出的模型和PageRank模型与新浪微博现有的用户影响力评价模型进行对比来验证其有效性。

由于新浪影响力排行榜给出的最长周期就是月榜,为了与之对比,本文也以一个月份为周期计算R-HRank,并将新浪微博官网给出的7,8,9,10四个月份的用户影响力排行榜Top100作为最终对比依据。

在用户PageRank的计算过程中,由于PageRank算法需要多次迭代,为了提高算法运行效率,将其应用到分布式平台,这里采用文献[10-11]提出的基于MapReduce 的PageRank算法完成PageRank值的分布式计算。

F-HRank和R-HRank的计算则相对简单,算法过程如2.1节所述,是一个排序、比较的过程,容易实现。

F-HRank和R-HRank计算完成后,就可根据式(2)计算出HRank。

所有用户影响力计算完成后,对各模型下用户的影响力大小进行排序,如表1所示,列出了2013年9月的新浪微博、粉丝数量、PageRank和HRank模型中用户影响排名Top10。

为了科学地作出评价,本文使用斯皮尔曼等级相关系数[12]评价PageRank、粉丝数和HRank与新浪排名的相关性。

斯皮尔曼等级相关系数法被定义成等级变量之间的皮尔逊相关系数,属于非参数统计方法,其计算公式如下:
φ
其中:Xi表示新浪微博的用户i的影响力排名;Yi表示该用户对应的PageRank/粉丝数/HRank排名;n是用户的个数;φ表示相关系数,越接近+1越正相关,越接近-1表示越负相关。

本文选取新浪微博给出的影响力前100用户,利用斯皮尔曼等级相关系数计算这100名用户在PageRank、粉丝数量和HRank模型下的影响力排名与新浪微博官方影响力排名的相关性数据如图3所示。

由图3可看出:粉丝数与用户影响力的相关性不是很强,同样数据集下相对PageRank,HRank用户影响力模型与新浪用户影响力官方排名更为接近。

用户影响力评价作为微博平台数据挖掘领域的研究热点,通过发现微博消息传播网络中的强力节点,可为相关管理者依据强力用户的传播机制进行广告投放、舆情管控等操作提供依据。

本文对微博用户影响力的研究现状进行了分析,以Hadoop集群为主要计算平台研究了基于用户粉丝和微博转发数的H指数对用户影响力的评价效果,并提出了HRank用户影响力评价模型,该模型既考虑了用户间的静态关系特征,又综合了用户的动态行为特性,从用户的粉丝质量和用户的微博质量来考量用户的影响力,并且很大程度了降低了僵尸粉和垃圾微博对评价结果的影响。

通过与PageRank用户影响力模型,以及新浪微博现有的用户影响力模型进行对比,发现HRank用户影响力评价取得了与实际最接近的效果。

在下一步的研究工作中,将继续结合其他实际应用领域,深入探讨算法的有效性和实用性。

【相关文献】
[1] WU K, JI X, GUO J, et al. Influence maximization algorithm for micro-blog network [J]. Journal of Computer Applications, 2013,33(8):2091-2094.(吴凯,季新生,郭进时,等.基于微博网络的影响力最大化算法[J].计算机应用,2013,33(8):2091-2094.)
[2] QI C, CHEN H, YU H. Method of evaluating micro-blog users’ influence based on comprehensive analysis of user behavior [J]. Application Research of Computers, 2013,31(7):2004-2007.(齐超,陈鸿昶,于洪涛.基于用户行为综合分析的微博用户影响力评价方法[J].计算机应用研究,2013,31(7):2004-2007.)
[3] CAO J, WU J, SHI W, et al. Sina microblog information diffusion analysis and prediction [J]. Chinese Journal of Computers, 2014,37(4):779-790.(曹玖新,吴江林,石伟,等.新浪微博网信息传播分析与预测[J].计算机学报,2014,37(4):779-790.)
[4] CHA M, HADDADI H, BENEVENUTO F, et al. Measuring user influence in Twitter: the million follower fallacy [C]// Proceedings of the 4th International AAAI Conference on Weblogs and Social Media. Menlo Park: AAAI Press, 2010:10-17.
[5] CHEN H. Microblog user ranking research based on Hadoop [D]. Shanghai: East China University of Science and Technology, 2014.(陈浩. 基于Hadoop的微博用户影响力排名算法研究[D].上海:华东理工大学,2014.)
[6] KANG S. The evaluation of the social network’s nodes influence based on users’ behavior [D]. Beijing: Beijing University of Posts and Telecommunications, 2011.(康书龙. 基于用户行为及关系的社交网络节点影响力评价[D].北京:北京邮电大学,2011.)
[7] BAKSHY E, HOFMAN J M, MASON W A, et al. Everyone’s an influencer: quantifying influence on Twitter [C]// Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2011:65-74.
[8] HIRSCH J E. An index to quantify an individual’s scientific research output [J]. Proceedings of the National academy of Sciences of the United States of America, 2005,102(46):16569-16572.
[9] YU L, HU C, SU L. Micro-blogs data collection based on MapReduce [J]. Computer Science, 2012,39(11A):143-145.(于留宝, 胡长军, 苏林晗. 基于MapReduce的微博文本采集平台[J].计算机科学,2012,39(11A):143-145.)
[10] SHU Y, XIANG Y, ZHANG Q, et al. Research on MapReduce algorithm of micro blog ranking [J]. Computer Technology and Development, 2013,23(2):73-76.(舒琰,向阳,张骐,等.基于PageRank的微博排名MapReduce算法研究[J].计算机技术与发展,2013,23(2):73-76.) [11] PING Y, XIANG Y, ZHANG B, et al. Implementation of parallel PageRank algorithm based on MapReduce [J] Computer Engineering, 2014,40(2):31-34.(平宇,向阳,张波,等.基于MapReduce的并行PageRank算法实现[J].计算机工程,2014,40(2):31-34.)
[12] ZHANG Y. Research on information dissemination and opinion evolution in the social networking services [D]. Beijing: Beijing Jiaotong University, 2012.(张彦超.社交网络服务中信息传播模式与舆论演进过程研究[D].北京:北京交通大学, 2012.。

相关文档
最新文档