新浪微博与Twitter的特性对比研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

新浪微博与Twitter的特性对比研究
秦海龙;刘挺
【摘要】随着微博客服务的流行,越来越多的用户在微博上用其在线账号进行交流,使真实世界的人们和微博中的用户形成了一一映射.无论是新浪微博本身还是新浪微博中的用户都有很多独特的特性.本文利用新浪微博用户关系网络中的弱连接组件(Weakly Connected Compo-nent)对新浪微博的很多重要特性进行了讨论.同时,又进一步分析了新浪微博与Twitter在网络结构和同质性方面的相同点和区别.与Twit-ter相比,新浪微博的关系分布指数不对称,同质性也更低,并且本次研究还在新浪微博中发现了中国用户的"北漂"现象,这些都反映出中国社会和用户独有的特征.
【期刊名称】《智能计算机与应用》
【年(卷),期】2018(008)004
【总页数】5页(P69-72,77)
【关键词】社会特征;社交网络结构;关系网络分析
【作者】秦海龙;刘挺
【作者单位】哈尔滨工业大学计算机科学与技术学院,哈尔滨150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
【正文语种】中文
【中图分类】TP391.41
引言
近年来,多种类型的社交网络遍布全球,在这些社交网络中,可以随时随地看到朋友和喜欢的明星发布的最新消息。

和传统媒体相比,社交网络中信息的传播速度要快很多,用户可以用文本、图片、地理位置等信息随时分享身边发生的事情。

微博客是最流行社交网络服务之一,简称微博,通常用户在微博中的关注关系都是单向的。

用户可以在微博上关注任何人,用户发布的信息也可以被追随支持其本人的所有粉丝看到[1]。

目前为止,有上亿用户每天在微博中发布信息、同时关注着各类好友,其中包括很多名人、媒体、政府机构等,因此用户在和朋友交流的同时还可以阅读大量的新闻。

全球范围来看,Twitter是最大的微博客服务,在中国,新浪微博则是最流行的微博服务。

在2012年的全球移动互联网大会上,新浪微博官方宣布旗下的用户已经超过了3亿。

大量的新浪微博用户在互联网中形成了各种社区,用户在线上的很多关系和线下的真实社交关系保持一致,比如同学、同事等。

另外,用户发布的微博也可以反映用户的个人兴趣。

因此可以通过分析微博中的社交关系来总结一些社会因素。

这种方法不仅比传统社会研究方法收集数据的速度更显快捷,而且通过研究还可以提取得到微博中的一些独特性质。

学术界已经针对微博客服务开展了大量研究,特别是基于Twitter平台的研究。

这些研究重点分析Twitter中的用户网络结构以及结构属性对用户行为的影响。

一些研究对比了新浪微博和Twitter的特性,但是Twitter中很多独有特性却并未在新浪微博中得到充分的验证和分析。

中西方的文化不同导致了2种微博客服务中的关系网络也存在一定差异,理解这些差别是新浪微博中用户分析和社会化营销的基础。

本文分析了新浪微博中的大规模用户网络,总结了新浪微博和Twitter在网络拓扑结构上的差别,同时也进一步分析了导致这些差别的原因,而且这些差别也可
以反映中国用户的很多特性。

本次研究的数据集中包括1.2亿新浪微博用户,这个数据规模远远大于已有的Twitter和新浪微博相关研究的数据量,所以本文的最终结论更能反映出新浪微博的真实特性,而且,大规模数据也能够保证新浪微博中的用户多样性。

1 相关工作
近年来,关于社交网络中拓扑结构的相关研究已成为学界焦点。

Newman归纳了学术网络中一些独有的结构特性[2-3]。

Donato分析了万维网的结构特征[4],Holme对一家在线约会网站中网络结构随时间的变化进行了讨论[5]。

Liben-Nowell为社交网络中的用户行为建立了理论模型[6],Ahn则深入剖析了Cyworld、MySpace和Orkut中的网络属性[7]。

而且,Alan又将社交网络的结构与其它类型的网络设计提出了应用比较,这项工作的主要平台是Orkut、YouTube和Flickr,并不包括微博客服务[8]。

文献[9]探讨了Twitter中用户的增长率和用户分布,并用HITS算法对用户进行了分类。

而且文献[1]还分析了Twitter中的网络结构和用户特征,包括关注人数量、粉丝数量和微博数的关系,也研究了微博的转发特征。

新浪微博引发使用热潮后,与其有关的研究工作也在不断涌现。

Louis对比了Twitter和新浪微博的文本内容[10],同时还高效甄别了新浪微博中的一些虚假账号[11]。

文献[12]阐述了2个微博客服务中访问行为的不同点,文献[13]则比较了2种微博客服务中不同的功能。

然而,新浪微博中很多可以表征中国用户习惯的重要特性并未得到应有重视和充分分析。

2 数据采集
如文献[8]描述的那样,获得一个社交网络的全网数据并不现实。

为此,研究爬取了新浪微博中用户关系网络中的弱连接组件(Weakly Connected Component,WCC)来代替全网数据。

新浪微博的WCC包含123 683 313名用户和与其对应的
个人资料以及好友列表,在此基础上也特别证明了未包括在WCC之中的用户并不是新浪微博的活跃用户,当然缺少这些用户就不会对分析结果产生影响。

由于新浪微博API的限制,研究中只能获取每个用户的最后5 000个粉丝,为了
提供现实完整数据,同时还获取了用户的关注者信息,后者可以反过来对用户粉丝进行补全。

其后,即随机选择了10 000个用户ID来验证数据中的用户完全性,结果显示将
近一半的用户已在本文提取的数据集中,而且又继续分析了那些不在数据集中的用户ID,结果表明其中的绝大多数均为不活跃用户。

3 用户关系与用户资料分析
共有123 683 313名用户在本文研究的数据集中,不是每名用户都有完整的资料,以下分析中即挑选了具有相对完整资料的用户。

3.1 关注好友与粉丝
研究时,获得了新浪微博WCC中用户的所有关注好友和粉丝,新浪微博中每名用户的关注人数上限为2 000。

图1为关注用户的累积概率分布曲线,结果表明用户人数和其关注的人数是呈反比的。

其中,69.5%的用户的关注数量多于10个人。

将近30%的用户为不活跃用户,并且只关注很少的几个好友。

另外,仅仅27%的用户关注了超过50个好友,是关注好友超过100个的人数的
2倍。

关注好友超过100人的用户明显减少,这表明大多数用户的关注好友均将
少于100,很多用户只是关注现存的真实好友和一些权威媒体。

图1 新浪微博中关注好友分布Fig. 1 Distribution of followees on Weibo
图2为用户粉丝的累积概率分布曲线,可以看出,用户数量和其粉丝数量是呈反
比的,这说明新浪微博的大多数用户都是草根用户,权威用户和名人只占很少的一部分。

只有0.08%的用户粉丝超过了1万,只有9个人的粉丝数超过了1 000万。

图2 新浪微博中粉丝好友分布Fig. 2 Distribution of followers on Weibo
新浪微博中的关注好友和粉丝好友都符合幂律分布,并且微博中的关系网络都属于无标度网络。

关注好友分布的幂指数为1.574,粉丝好友分布拟合曲线的幂指数为1.041。

与此同时又计算了数据集中认证用户的2个好友分布,结果和上面2个幂指数保持一致。

由此则说明了一些认证用户的关注好友也远远多于粉丝。

3.2 互粉率
有针对性地,研究又设计对比了新浪微博和Twitter的用户互粉率,一个用户的互粉率为互粉好友占关注好友和粉丝好友的比例。

为此研究分析了95 489 041名用户的互粉好友,结果如图3所示,用户数随着互粉率的增多而迅速下降。

新浪微博中的用户互粉率只有17.30%,说明了大部分社交关系都是单向关系。

图3 新浪微博中用户互粉率分布Fig. 3 Distribution of reciprocity ratio on Weibo
3.3 同质性
文献[1]指出社交网络中的互粉好友都存在一定的同质性,本文在新浪微博中也证明了这一结论,具体可如图4、图5所示。

图4 新浪微博中用户关注好友的好友互粉率Fig. 4 Average followees of reciprocity
图5 新浪微博中用户粉丝好友的好友互粉率Fig. 5 Average followers of reciprocity
由图4、图5可知,这2个图表明了用户的好友数量(关注和粉丝)与其互粉好友的朋友数量是正相关的。

这表明对于一个拥有很多好友的用户来说,该人的朋友也拥有很多好友。

就是说,新浪微博中好友之间的社会地位是相似的。

3.4 地理分布
由表1所示,通过所有用户的地理信息可以看出,发达地区的用户要远远多于不发达地区的用户,沿海地区的用户数量明显多于内陆地区,东部的用户数量明显多
于西部(“其它”为省份不明)。

新浪微博的这种性质反映出中国整体的经济发展状况。

其中,用户最多的省份为广东省。

此外,研究也对海外用户进行了分析,统计中仅占新浪微博全部用户的5%左右,表2为这些海外用户地理位置的排名。

可以看出亚洲国家的用户相对较多,并且发达国家的用户明显多于发展中国家。

表1 国内用户分布Tab. 1 Distribution of domestic users排名省份用户数量1广东21 745 7642其它7 407 5063江苏7 377 3684浙江7 098 7565北京6 983 3906上海5 791 0137山东5 684 8938四川4 703 4819河南4 674 96510福建4 059 90311湖北3 853 82712河北3 587 53213湖南3 487 76314辽宁3 391 89615陕西3 317 66716安徽2 583 75917重庆2 397 47618广西2 294 77819江西2 245 52220天津2 167 559
表2 国际用户分布Tab. 2 Distribution of international users排名国家用户数量1USA376 6292马来西亚187 9133澳大利亚179 1564加拿大152 5065英国138 1336日本128 3707新加坡106 4748其它106 4029法国60 80110韩国54 55511新西兰25 23312德国24 64113泰国21 31514俄罗斯17 91815意大利16 67516越南13 36017菲律宾12 85618印度尼西亚12 74519西班牙12 54820巴西10 970
综上可知,通过用户的地理信息发现了新浪微博好友之间具有很强的地理同质性,根据用户互粉好友依照省份的排序来看,互粉好友省份第一的地理位置跟用户的省份相同,海外用户的互粉好友大多也都在海外。

有趣的是,各个省份用户互粉好友地理位置排名第二位的都是北京(北京用户互粉好友排名第一地理位置为北京)。

这就说明用户与其互粉好友具有很强的地理同质性,同时可以看出,大量的用户从全国各地到北京学习和工作,这种同质性可以体现出中国的大城市聚集现象(北漂)。

4 新浪微博与Twitter对比
尽管新浪微博与Twitter都属于微博客服务,但是用户习惯导致了二者之间还是呈现很大的区别。

研究中总结了这些主要区别,最终设计结果可见表3。

表3 Twitter与新浪微博对比Tab. 3 Comparison between Twitter and Sina WeiboTwitter新浪微博关注好友分布幂指数2.2761.574粉丝好友分布幂指数
2.2761.041互粉率/%22.1017.30同质性地域同质性地域同质性和北漂现象
新浪微博的好友分布的2个幂指数比传统网络和其它社交网络都要小[8-9],说明
了研究选取数据集中的用户分布更加均匀。

在Twitter中,关注好友和粉丝好友的分布幂指数是一样的,而新浪微博中关注好友的幂指数更大,这是由新浪微博中2 000人的关注上限导致的,而粉丝数量是没有上限的,所以关注好友分布的拟合
曲线更加陡峭。

而Twitter对关注和粉丝都没有设置上限。

通过结果,还并行分析了新浪微博中的互粉率要低于Twitter,同质性方面,新浪微博更加突出了中国用户的大城市聚集现象。

5 结束语
本文用新浪微博中用户网络的弱连接组件对用户的行为进行了分析,由于本次研究的数据集远远大于已有工作,所以文中的分析结果更能代表新浪微博中用户的真实特性。

本文证明了新浪微博的用户关系网络为无尺度网络,相对于Twitter的互粉率较低,并且可以体现出地域同质性和中国的大城市聚集现象。

新浪微博的国内用户更多地分布在发达地区,海外用户占比大约5%左右。

同时,一般社交网络用户的关注和粉丝分布的幂指数相当,而由于新浪微博对关注好友设置了上限,所以关注好友的幂指数相对较大。

在今后的工作中,将会对新浪微博的文本和社区展开后续深入研究,尝试发现更多有价值的用户性质。

参考文献
【相关文献】
[1] HAEWOON K, CHANGHYUN L, HOSUNG P, et al. What is Twitter, a social network or a news media? [C]//Proceedings of ACM International Conference on WWW. Raleigh:ACM, 2010: 591-600.
[2] NEWMAN M E J. Scientific collaboration networks. I. Network construction and fundamental results[J]. Physical Review E, 2001, 64:016131/1-016131/8.
[3] NEWMAN M E J, PARK J. Why social networks are different from other types of networks[J]. Physical Review E, 2003, 68:031622/1-031622/9.
[4] DONATO D, LAURA L, LEONARDI S, et al. Large scale properties of the webgraph[J]. European Physical Journal B, 2004, 38:239-243.
[5] HOLME P, EDLING C, LILJEROS F. Structure and time evolution of an Internet dating community[J]. Social Networks, 2004, 26:155-174.
[6] LIBEN-NOWELL D, NOVAK J, KUMAR R, et al. Geographic routing in social networks[J]. Proceedings of the National Academy of Sciences, 2005, 102(33):11623-11628.
[7] AHN Y, HAN S, KWAK S, et al. Analysis of topological characteristics of huge online social networking services[C] //Proceedings of ACM International Conference on WWW. Banff:ACM, 2007: 835-844.
[8] ALAN M, MASSIMILIANO M, KRISHNA P, et al. Measurement and analysis of online social networks[C] //Proceedings of the 7th ACM SIGCOMM Conference on Internet measurement. San Diego:ACM, 2007: 29-42.
[9] AKSHAY J, XIAODAN S, TIM F, et al. Why we Twitter: Understanding microblogging usage and communities[C] //Proceedings of Joint 9th WEBKDD and 1st SNA-KDD Workshop ′07. New York:ACM, 2007: 56-65.
[10]LOUIS Y, SITARAM A, HUBER MAN B A. What trends in Chinese social
media[C]//Proceedings of the 5th SNA-KDD Workshop'11. San Diego:ACM, 2011:1-10. [11]LOUIS Y, SITARAM A, HUBERMAN B A. Artificial inflation: The true story of trends in Sina Weibo[J]. arXiv preprint arXiv: 1202.0327,2012.
[12]QI G, FABIAN A, GEERT-JAN H, et al. A comparative study of users' microblogging behavior on Sina Weibo and Twitter[C]//Proceedings of International Conference on User Modeling and Personalization. Montreal:ACM, 2012: 88-101.
[13]CHEN Shaoyong, ZHANG Huanmin, LIN Min, et al. Comparision of microblogging service between Sina Weibo and Twitter[C]//International Conference on Computer Science and Network Technology. Harbin:IEEE, 2011: 2259-2263.。

相关文档
最新文档