融合用户标签和关系的微博用户相似性度量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
融合用户标签和关系的微博用户相似性度量
吴树芳;徐建民;武晓波
【摘要】已有的微博用户相似性度量主要依据用户关系,实际上,在微博网络中,用户的标签信息直接表征了用户的兴趣爱好,是影响微博用户相似度的另一因素,为此,在网页相似度计算的基础上提出了融合用户关系和标签的微博用户相似性度量方法,该方法分别计算用户的链入标签相似度和链出标签相似度,并将其进行线性调和。
实验从新浪微博采集实验数据,实验结果表明新方法对微博用户分类的准确率明显高于仅考虑用户关系的微博用户相似性计算方法。
%Existing measurement methods of micro-blogging usersˊsimilarity are mainly based on user relationships. In fact, user tags can directly characterize userˊs interests, and is another impacting factor of user similarity. A new similarity measurement method of micro-blogging users based on webpage similarity computation is given, which effectively integrates user relationships and tags. The new method firstly computes the similarity of link-into tags and link-out tags, and then obtaines the final similarity by liner meditating the two. The experiment result based on data collected from Sina Weibo indicates that the classification accuracy of the new method is obviously higher than the method that only considers user relationships.
【期刊名称】《情报杂志》
【年(卷),期】2014(000)012
【总页数】5页(P170-173,126)
【关键词】社交网络;微博用户;相似性度量;用户标签;用户关系;网页相似度
【作者】吴树芳;徐建民;武晓波
【作者单位】河北大学管理学院保定 071002; 河北软件职业技术学院信息工程系保定 071002;河北大学数学与计算机学院保定 071002;河北大学数学与计算机学
院保定 071002
【正文语种】中文
【中图分类】G353
随着Web2.0的出现,网络中的信息来源已不再局限于固定的网站编辑,每个微
博用户相当于一个信息频道,他既可以自由地发布信息,也可以关注一些感兴趣的相关人物,建立自己的社会关系,据此来接受他所关注的人物发布的信息。
但是,由于微博中往往有数以亿计的用户,当用户在建立自己的社会关系时,会面临数据过载的问题。
因此,帮助用户在大量人群中发现自己感兴趣的相关用户是非常重要的。
在线用户推荐[1]就是一个有效的工具,其目的是通过微博用户相似度计算,
自动为该用户推荐其感兴趣的潜在相关用户,使微博用户获得更多感兴趣的信息,并进一步增强微博用户间的交互性。
目前对微博用户相似性进行度量研究还比较少,传统的相似性度量方法需要将不同的数据类型进行转换,归一化后再进行计算[2],对微博用户而言,数据类型转换
必然导致数据丢失,此外,传统方法均没有利用微博用户之间的关注-被关注关系
这一特性,故直接将传统的相似性度量方法用于微博用户的相似性度量是不合理的。
Krishnamurthy等人[3]通过分析Twitter用户的关注和被关注关系将用户分为三类,并依据用户关系的网络拓扑对用户的相似性进行度量,该研究仅考虑了微博用户的关系,并没将标签信息融入最终的相似度计算,存在不足;Pal等人[4]则是收
集同一主题下的微博,然后提取该主题下的所有微博发布者的特征,根据特征将用户聚成两类,并将用户进行排序,该文主要依据微博内容来度量用户的相似性,没有考虑用户关系,也没有将用户标签信息量化并融入最终的相似度计算;徐志明等人[4]在分析微博用户的相似性度量时,将微博网络看做一个加权无向图,分别分
析用户的各种属性信息对用户相似度的影响,找出影响最大的因素,该方法并没有将有向性融入相似度计算,实现标签信息和关系的有效融合。
微博作为一种在线社交网络,允许用户在线交流、发布信息,用户之间的关系主要依据“关注—被关注”而建立,并且一旦建立就相对稳定[5]。
在微博网络中,每
个用户除具备关注信息外,还具备用户的基本信息,基本信息主要包括性别、地址、简介、标签等,其中标签直接表征了用户的兴趣爱好。
考虑到用户标签和关系在计算用户相似度时的重要性,文章在网页相似度计算[6-7]的基础上,提出融合用户
关系和标签的微博用户相似性度量。
该方法将微博网络视为一个有向图,图中圆形节点表示用户,方形节点表示用户的标签,箭头指向标明关注关系,通过计算用户的链入相似度和链出相似度得到用户的最终相似度。
实验从新浪微博搜集原始数据,运用LDA(Latent Dirichlet Allocation)模型[8-9]从海量文本中挖掘微博用户的标签语义信息,通过用户标签术语的幂律分布分析[10]确定参与实验的微博用户为标签中含有机器学习、云计算的用户,实验结果表明新方法对微博用户分类的准确率高于仅考虑用户关系的用户相似性计算。
J. Y.Hou在网页引用关系图的基础上,运用链入和链出关系计算网页相似度。
微
博用户间的关系虽不完全等同于网页关系,但也可用有向网状拓扑结构表示,文章将在网页基于链入链出关系的相似度基础上,提出新的微博用户相似度计算方法。
图1为网页引用关系的拓扑结构,节点pi∈P是要计算相似度的网页集合,BV是链入P的节点集合,FV是P链出的节点集合。
P中任意两个节点的相似度计算基于两个节点与其他节点的相关关系,包括链入和链出关系,集合S中节点之间的
关系可以用一个矩阵C来表示。
其中
其中行向量rowi=(ci1,ci2,…,ci,m+n)(i=1,2,…,m)表示节点i链出关系,与此类似,列向量coli=(c1i,c2i,…,cm+n,i)(i=1,2,…m)表示节点i的链入关系。
节点i和
节点j的链出相似度和链入相似度的计算方法如公式(2),(3)所示。
,‖rowi‖
,‖coli‖
综合链入相似度和链出相似度,可得节点i和节点j的最终相似度为
其中αi,j和βi,j分别为链入和链出权重。
网页间的拓扑关系不完全等同于微博网络,若将其直接应用还存在一定的弊端。
例如,在微博社交网络中,当用户刚加入时,关注和被关注的关系比较少,若此时用公式(3)计算两个用户i和j的相似度则比较低,而实际上两者可能是相似的。
在微博网络中每个用户自身都拥有一个标签信息,其描述了用户的专业兴趣(如自
然语言处理,机器学习,云计算等)、业余爱好(漫画、羽毛球)和身份属性(程序员、教师、清华大学等),用户的标签作为用户个人信息的重要部分在用户相似度计算
中也应起到一定作用,据此,文章将在以上理论的基础上,结合关系信息和标签信息提出新的微博用户相似度计算方法。
在微博网络中,和任意用户i相关的用户包括用户i关注的好友和用户i的粉丝。
其中用户i的标签术语集记作Tagi={w1,w2,...,wt},wi为描述用户兴趣的术语,
用户i的关注好友集合为user_attenti={1,2,3,…,m},他们的标签术语集合记作tagj,用户i的粉丝集合为user_followi={1,2,3,…,n},其标签术语集合记作tagj。
图2为微博用户信息图,该图除标识出用户关系指向外,还加上了用户标签节点,图中圆形表示用户,方形表示标签,有向弧表示关注关系,若有用户节点i指向用户节点j的弧,则表示用户i关注用户j。
由于每个用户本身的标签是几个术语组成的,一般比较短,故可将用户标签Tagi
看作短文本,而每个用户的关注用户标签集合attent_Tagseti和粉丝标签集合follow_Tagseti描述术语比较多,故将其看作长文本。
两个用户的相似度可看做
是具有方向关系的标签文本的相似度。
假设任意两个用户i和j的关注标签集合加上方向后的表示方法如下:
attent_Tagseti=d→,i={wi1,wi2,…,win}
attent_Tagsetj=d→,j={wj1,wj2,…,wjn}
wik在文档d→,i中得到权重使用TF-IDF方法[11],其中TF(Term Frequency)是对一个词语局部重要性的度量,用该词语在某一文本中出现的频率表示,频率越大,则该词语对于这篇文本的表示贡献越大;IDF(Inverse Document Frequency)为
倒排文本频率,表示词语wi在整个文本集中的分布情况,文本集中含有词语wi
的文本数量越少,则词语wi表示文本时越重要。
使用余弦相似度计算公式,可得用户i和用户j的关注相似度为:
类似地,两个用户的粉丝标签集合加上方向后的表示方法为:
用户i和用户j的粉丝相似度为:
综上,文章给出了融合方向关系和标签信息的微博用户相似度计算公式:
sim(i,j)=αsim(d→,i,d→,j)+(1-α)sim(d←,i,d←,j)
α为可调整因子,用于调整关注用户和粉丝对两个用户相似度的贡献。
3.1 实验数据目前中文微博的研究处起步阶段,尚无标准的数据集,文章采用新
浪微博开发平台提供的API接口收集了23万个计算机类用户的基本信息并对其进行筛选。
筛选过程包括三步:首先通过编程去除掉基本信息为空的无效数据,得到17139个户的基本信息,然后去除这些用户中没有关注、粉丝的用户,最后分析
得到的有效用户的标签术语的幂律分布,并确定最终参与实验的有效实验数据,这些有效数据为含有标签术语机器学习、云计算的微博用户。
3.2 实验过程运用以上实验数据,我们将比较融合用户关系和标签的微博用户相
似度计算和仅考虑用户关系的微博用户相似度计算的性能。
实验过程主要包括三步,首先是微博用户数据搜集,然后是数据处理,最后是微博用户关系分析。
其中关系分析包括两项:第一项是分析任意用户i本身的标签术语和其粉丝、关注者的标签术语(横向分析),并依据分析结果对用户i的标签术语权重做出调整,例如,用户i 的标签术语中出现了“机器学习”和“数据挖掘”,初始时二者的权重相同,但是通过比较发现该用户的粉丝和关注者的标签术语中出现更多的是“数据挖掘”,则用户i的标签术语“数据挖掘”的权重应高于“机器学习”,提高幅度依据用户i
和其粉丝、关注者的相似度计算;第二项是分析不同用户间的相似度(纵向分析)。
图3为实验过程流程图。
图3中三个虚线框表示实验过程的三部分:数据搜集、数据处理、用户关系分析,矩形表示操作,菱形表示条件选择,平行四边形表示操作结果。
由于微博网络中用户的标签是用户自己定义的,新浪并没有统一和限制用户使用哪些术语作为自己的标签,因此就存在对于同一个意思的表达使用不同的词语,例如自然语言处理——NLP,IR——信息检索,data-mining——数据挖掘,deep-learning——深
度学习,database——数据库,CV——计算机视觉;数据挖掘与分析——数据
分析、数据挖掘,c语言——C,程序员——程序猿——码农,浙大——浙江大学,哈工大——哈尔滨工业大学,Python——python(大小写不区分)等等,为此,实验在第三部分进行了自然语言处理,目的是对对筛选后的实验数据进行规范化处理。
3.3 实验结果及分析虽然同为计算机类用户,但不同用户的标签术语仍不尽相同,研究发现[10],用户在标注资源时,有些标签术语使用的频率非常高,有些标签术语仅出现一次,如果将这些术语按照使用频率进行排名,就会得到术语的幂律分布,分布图中在曲线快速下降之前,开始的几个术语认为是系统描述性较强的术语。
文
中对实验数据筛选的第三步为通过分析标签术语的幂律分布获得最终有效的实验数据,图4为标签术语的幂律分布图,图中横坐标为用户标签描述术语,纵坐标为术语使用数量,y=677.6x-1.07为实验数据中标签术语的幂律分布,R2为黑色曲线的拟合率,值0.991表明该曲线可以比较准确的描述词语和使用次数之间的量化关系。
观察图4,可以发现云计算之后的术语使用频度急剧下降,故实验数据选择用户标签中含有机器学习或者云计算术语的用户。
在确定了实验要测试的微博用户后,首先分别采用仅考虑用户关系的方法和融合用户关系和标签的方法计算任意两个用户的相似度,然后在10个相似度阈值下(0.1,0.2,…,1.0),判断两种方法对用户所属领域分类的准确率,例如在实验数据中用户“张牧宇-哈工大SCIR”和“白硕SH”是同类的,均属于机器学习领域,然后分别采用上述两种方法计算二者的相似度,假设阈值为0.4,如果第一种方法计算的相似度为0.387,第二种方法计算的相似度为0.583,则第一种方法的计算结果和实际情况不符,属于错误的。
通过两种方法计算实验数据中任意两个用户的相似度,并标注是否错误,设计算的用户对为n,若判断错误的个数为r,则准确率为(n-r)/n。
图5为10个阈值下两种方法的准确率曲线,从图5可以看出,融合用户标签和关系的相似度计算方法对用户分类的准确率高于仅考虑用户关系的相似度计算。
产生以上实验结果的原因为:若仅考虑用户关系,当微博网络中两个用户共同的粉丝数、关注数较少时,则二者的相似度就比较低,即使二者共有的粉丝、关注者的标签描述术语很像,这显然是不合理的。
因为某些用户很可能是新的微博用户,或者其知名度比较低,这些都会影响其粉丝数、关注数,这种情况下,其标签术语更能体现其所属领域,故融合标签和用户关系的相似度度量方法能更为准确地计算不同微博用户间的相似度。
【相关文献】
[1] 徐志明,李栋,刘挺,等.微博用户的相似性度量及其应用[J].计算机学报, 2014, 37 (1): 207-218.
[2] 张斌, 张引, 高克宁,等. 融合关系与内容分析的社会标签推荐[J].软件学报, 2012, 23(3): 476-488.
[3] B Krishnamurthy,P Gill, M Arlitt. A New Chirps About Twitter[C]. In Proceedings of the 1st Workshop on Online Social Networks, 2008: 19-24.
[4] A Pal, S Counts. Identifying Topical Authorities in Microblogs[C]. In Proceedings of the ACM Conference on Web Search and Data Mining, 2011: 45-54.
[5] 文坤梅, 徐帅, 李瑞轩,等. 微博及中文微博信息处理研究综述[J].中文信息学报,2012,26(6):27-37.
[6] 郭晨娟, 李战怀. 基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12): 3030-3032.
[7] Yanchun Zhang, Guandong Xu. On Web Communities Mining and Recommendation[J]. Concurrency and Coputation:Practice and Experience,2009(21):561-582.
[8] 廖君华, 孙克迎, 钟丽霞. 一种基于时序主题模型的网络热点话题演化分析系统[J].图书情报工作,2013,57(9):96-118.
[9] D M Blei, A Y Ng, M Jordan. Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[10] 吴振宇, 胡军, 李德毅. 社会标注系统幂律特性分析[J].复杂系统与复杂性科学,2014,11(2):5-16.
[11] 改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3): 90-95.。