基于LDA模型的中文微博话题意见领袖挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于LDA模型的中文微博话题意见领袖挖掘
冯时;景珊;杨卓;王大玲
【摘要】有效挖掘微博空间中的话题意见领袖成为亟待解决的热点问题.针对这一问题,提出了基于LDA语义信息和HowNet知识库的短文本子话题分类算法.对分类后的微博从显式、隐式及用户等方面综合衡量微博的影响力,并根据层次分析法对多个因素进行科学地权值分配.实验结果表明,提出的方法较基于支持向量机的方法具有更好的效果,同时提出的影响力度量模型可以有效地挖掘出微博中的话题意见领袖.
【期刊名称】《东北大学学报(自然科学版)》
【年(卷),期】2013(034)004
【总页数】5页(P490-494)
【关键词】微博;短文本分类;意见领袖;情感分析;LDA
【作者】冯时;景珊;杨卓;王大玲
【作者单位】东北大学信息科学与工程学院,辽宁沈阳110819;东北大学信息科学与工程学院,辽宁沈阳110819;东北大学信息科学与工程学院,辽宁沈阳110819;东北大学信息科学与工程学院,辽宁沈阳110819
【正文语种】中文
【中图分类】TP311.13
如今,微博作为一种新兴的舆论载体和传播途径,在网络舆情信息发起和传播中起
着越来越重要的作用,它的影响已经达到其他舆论载体不能替代的程度[1-2].如何针对微博的新特性挖掘海量微博数据中的意见领袖是一个亟待解决的热点问题.传
统的微博意见领袖研究大多针对Twitter数据[3-6],而对有自己特色的中文微博
研究相对较少.同时现有研究方法利用粉丝数、评论数和转发数等指标来衡量用户
的权重,但是缺乏对多个指标权重的系统度量[7].本文提出了一种面向热点话题微
博的意见领袖发现方法.首先利用LDA模型和HowNet知识库将微博中的短文本
根据不同的侧重点分类成不同的子话题,然后整理微博各种不同影响力指标,并采用层次分析法对指标进行量化分析,确定各个指标的权重,从而对微博按照影响力进行排序,最终得到各个子话题的意见领袖.
1 基于LDA模型的微博子话题分类
1.1 LDA模型描述
一组讨论相同热点话题的微博存在不同的侧重点,或者说子话题.通过子话题分类,可以使得同一类别中的微博信息具有相同的侧重点.微博话题意见领袖就是各个类
别中最具影响力的微博,通过分析微博意见领袖的特点,有助于在不同子话题上构造具有影响力的微博来引导舆论导向.
由于微博限制字数在140字以内,所以微博环境下的文本都是短文本.短文本长度短、信息量少,尤其是去掉停用词及其他噪音数据后剩下的有效信息更加少.使用
传统的向量空间模型表示文本会使得文本特征矩阵极其稀疏.所以本文提出基于LDA模型表达基础上的微博分类方法.
Latent Dirichlet allocation(LDA)[8],是一个概率话题模型,并可以发现任何离
散数据中潜在的话题结构.LDA具有三层结构,其基本假设是文档由若干个潜在话
题的混合组成,而每个话题由若干个词的分布刻画,如图1所示.
图1 LDA的生成过程Fig.1 Generative process of LDA
LDA模型较其他模型有着突出的优点[9]:首先LDA模型是全概率生成模型,因此
具有清晰的内在结构,并且可以利用高效的概率推理算法进行计算;再者,LDA 模型是通过无监督方法进行训练的,与训练样本数量无关,因此更适合处理大规模文本语料.所以本文选择基于LDA模型表达的方法对微博中的子话题进行分类. 1.2 基于LDA的话题类别特征词提取
本文在同一个话题下按照微博信息表达的侧重点不同进行分类,所以不同语义间生成的单词可能存在很大的相似性.基于此提出了类别特征词分析提取方法,见算法1.
算法1 类别特征词分析提取算法
输入:多个语义候选类别特征词,
输出:多个语义的主特征词和辅特征词.
过程:
1) 根据候选特征词分析语义特点,即语义表达内容.
2) 利用HowNet[10]计算每个语义内的候选类别特征词之间的相似度.若相似度为1,则根据候选类别特征词在该语义内出现的概率进行删除.删除HowNet未收录的候选类别特征词.
3) 删除语义间重复的候选类别特征词.
4) 利用HowNet衡量语义间候选类别特征词之间的相似度.若相似度大于阈值,则根据语义表达内容进行删除.
5) 衡量每个语义内候选类别特征词与该语义表达内容的相似度.相似度高则为主类别特征词,相似度低则为辅类别特征词.
在算法1中,第1)步是对语义的初步分析,通过分析每个语义的候选特征词判断该语义的内容.第2)步和第5)步是语义内分析,第3)步和第4)步是语义间分析.第2)步先根据HowNet计算的相似度进行语义内相同候选类别特征词的删除.第3)步删除语义间重复的候选类别特征词.第4)步衡量语义间候选类别特征词的相似度.该步
骤也是为了确保类别特征词的代表性,扩大语义间类别特征词的差异性.第5)步进
行语义内主辅类别特征词的甄别.通过HowNet查询候选类别特征词的义原,根据其分析该词与语义内容的相似性,相似性超过指定阈值的为主类别特征词,相似性低于指定阈值的为辅类别特征词.
1.3 基于类别特征值的微博子话题分类
经过对候选类别特征词的分析提取,获得可以代表一个语义的类别特征词,本文提出基于类别特征词的微博子话题分类方法,见算法2.
算法2 基于类别特征词的微博分类
输入:训练数据集待分类数据集,
输出:各个语义的类别特征词和待分类数据集分类结果.
过程:
1) 对训练数据集进行预处理,提取出名词、动词、形容词,表示成向量形式.
2) 对训练数据集向量进行LDA语义分析,获得语义候选类别特征词.
3) 利用算法1获得各个语义的主类别特征词与辅类别特征词.
4) 对于每个语义将其类别特征词表示成向量形式,所有语义类别特征词向量记为
f={f1,f2,…,fn},第i个语义的类别特征词向量可以表示为fi={wi1,wi2,…,win}.
5) 对待分类数据集进行预处理,提取出名词、动词、形容词,表示成向量形式,
测试集中第i个数据记为ti={twi1,twi2,…,twin}.
6) 对于ti中的每一个词twij,利用HowNet分别计算其和f中每个语义的类别特征词向量fi中的词wij之间的相似度,对ti中的所有词进行依次计算,得到相似
度矩阵Si,Si中的元素是ti与每个语义的相似度矩阵,与第j个语义的相似度矩
阵记为Sij.
7) 在Si的每个元素Sij中找出数值最大的N个元素,从大到小依次记为Sijmax1,
Sijmax2,…,Sijmaxn.
8) 得到ti与所有语义的总体相似度CSi,其中与第j个语义的总体相似度记为
9) 在总体相似度集合CSi中,找到最大的元素,该元素所对应的语义即为ti所属的语义,即ti所属的类别.
上述算法以词语语义作为衡量标准,以词语作为基本单元.首先利用LDA模型对训练集进行语义分析,获得可以代表语义的类别特征词,然后对待分类数据与每个语义的类别特征词进行相似度衡量,提取出一定数量的最大相似度词语对.这些词语对的相似度进行平均作为待分类数据与语义的总体相似度,最后根据总体相似度确定待分类数据的类别,达到分类的目的.
2 微博话题意见领袖挖掘
2.1 微博意见领袖模型
由微博热门话题讨论的特点,可知仅仅使用评论和转发的数量来衡量微博客的影响力并不具有说服力,需要使用更多可以衡量微博影响力的因素.由此,本文提出了话题讨论微博意见领袖衡量模型,模型具体内容如表1所示.
表1 话题微博意见领袖衡量模型Table 1 Topical microblog opinion leader measurement model一级指标二级指标说明显式影响力微博内容度群众接受程度群众参与程度微博长度微博被转发数量微博被评论数量隐式影响力近时影响度落在微博有效影响时间内的微博数量群众支持度微博获得他人评论的总体情感分数用户影响力意见领袖度发布微博用户的意见领袖指标
2.2 基于层次分析法的指标定量化分析
定义以下公式对本文提出的话题讨论微博意见领袖衡量模型中的指标进行量化. 显式影响力
E=w11Vcon+w12Vre+w13Vcom.
(1)
式中:w11,w12,w13代表不同指标的权重;Vcon,Vre,Vcom分别表示微博长度、微博被转发数量及微博被评论数量.
隐式影响力
I=w21Vt+w22Vcs.
(2)
式中:w21,w22代表不同指标的权重;Vt,Vcs分别表示落在微博有效影响时间内的微博数及微博评论总体情感分数.
用户影响力
U=w31Vu.
(3)
式中:w31代表指标的权重;Vu表示发布微博信息的用户的意见领袖值.
话题讨论微博意见领袖值
M=w1E+w2I+w3U.
(4)
在获得微博意见领袖值的过程中,同样需要对各指标进行归一化处理,然后使用层次分析法对各个权值进行分配.
3 微博话题意见领袖挖掘
3.1 实验语料
本文下载热门话题“第31届香港电影金像奖”的4 562条微博数据.经过预处理和提取关键词之后,得到包含关键词的微博数据3 865条,利用其中3 000条作为训练集,865条作为测试集.
3.2 基于LDA的微博子话题分类算法比较
经过对实验语料的简单分析,根据微博数据对话题表述的侧重点不同大致可以分为4类子话题:商品推荐及投票信息(垃圾微博)、对金像奖的视频推荐、表达个人观
点及陈述话题事实.利用算法1对候选类别特征词进行分析,得到主类别特征词和
辅类别特征词,如表2所示.
表2 类别特征值Table 2 Feature words for different classes类别主类别特征词辅类别特征词Topic0推荐转发投票宝贝优惠觉得参加最低速度诱惑数量有
限发起Topic1视频观看直播亮相再现全程荣誉汇聚册封Topic2恭喜鼓掌
喜欢致敬名单得主可以独唱调侃时候Topic3导演编剧大奖落幕揭晓获得举
行成为重要包括
可以看出Topic0到Topic3分别对应垃圾微博、推荐微博、个人观点微博和事实
陈述微博.将所提出的基于类别特征词的分类方法与基于支持向量机的分类方法进
行对比,结果如图2所示.
图2 分类结果Fig.2 Classification results(a)—Topic0; (b)—Topic1; (c)—Topic2; (d)—Topic3.
由图2可知,对于Topic0,由于其属于垃圾微博,与其他主题有明显差别,所以基于支持向量机的方法的准确度远远高于基于类别特征词的方法,而召回率却略有偏低.对于Topic1二者分类效果相似.对于Topic2,由于其中可能存在明显的情感,类别特征词能很好地表达其特点,所以基于类别特征词的方法的准确率远远超过基于支持向量机的方法.对于Topic3,基于支持向量机的方法召回率比基于类别特征词的方法高,但是准确率略有下降.可见二者对于微博分类的效果不分伯仲.由于SVM需要标注训练数据集,而本文提出的基于特别特征词的方法人工参与部分相
对较少,在这方面上本文所提出的方法有一定优势.
3.3 微博话题意见领袖挖掘结果分析
本实验主要针对在Topic2和Topic3相对应的类别中,利用本文提出的微博意见
领袖衡量模型挖掘微博意见领袖.利用层次分析法对公式(4)各参数进行分析,可得
各指标权重微博内容度为0.067 9,群众接受程度为0.401 1,群众参与程度为
0.027 7,近时影响度为0.017 7,群众支持度为0.053 1,用户意见领袖度为
0.607 3.利用指标权重,可以得到不同类别下的意见领袖,举例如表3所示.
分析上述结果,发现Topic2社群中的意见领袖前五名中有四名是个人用户,且有三名都是明星用户,另外一名是新浪微博“白银达人”,也具有一定影响力.同理,Topic3社群中的意见领袖前五名都是官方机构微博,而且都经过新浪官方的身份
认证,用户本身具有一定影响力,其发布的微博长度较长,且含有大量的转发评论.实验所得结果表明,发表对话题观点的用户大多是个人微博用户,而发表事实陈述的用户大多是一些官方机构的微博用户,且发布微博用户的意见领袖度越高,该微博越容易产生大的影响力,越可能是微博意见领袖.
表3 Topic2子话题意见领袖挖掘结果Table 3 Opinion leaders in Topic2排名
作者微博内容1蔡依林喔耶厉害的啦恭喜孩子!2林俊杰@萧敬腾老萧!恭喜你
演杀手各各表情拳拳到肉,恭喜最佳电影新人![爱你]3范范范玮琪恭喜!太棒了老萧~^_^4香港华纳唱片恭喜@萧敬腾凭电影”杀手欧阳盆栽”夺得第31届香港
电影金像奖”最佳新演员”!5常评公主《桃姐》拿了第31届香港电影金像奖中5个重要奖项,香港电影业开始没得救了
4 结论
本文提出了一种基于LDA模型和HowNet知识库的中文微博短文本子话题分类方法,进而对子话题类别中微博的影响力进行度量,采用层次分析法衡量不同影响力指标的权重,确定不同指标的权重,从而挖掘中文热点话题微博不同子类别下的意见领袖.真实数据的实验结果表明,本文所提出的方法可以有效地对中文微博进行
子话题分类,并发现指定子话题下的微博意见领袖.
参考文献:
[1] Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[C]//Proceeding of the 19th WWW.Raleigh:ACM Press,
2010:591-600.
[2] Jansen J,Zhang M,Sobel K,et al.Twitter power:tweets as electronic word of mouth[J].Journal of the American Society for Information Science and Technology,2009,60(11):2169-2188.
[3] Weng J,Lim E,Jiang J,et al.TwitterRank:finding topic-sensitive influential Twitters[C]//Proceeding of the Third WSDM.New York:ACM Press,2010:261-270.
[4] Bakshy E,Hofman J,Mason W,et al.Identifying ‘influencers’ on Twitter[C]//Proceeding of the Forth WSDM.Hong Kong:ACM Press,2011:65-74.
[5] Lee C,Kwak H,Park H,et al.Finding influential based on temporal order of information adoption in Twitter[C]//Proceeding of the 19th WWW.Raleigh:ACM Press,2010:1137-1138.
[6] Bakshy E,Hofman J,Mason W,et al.everyone’s an influencer:quantifying influence on Twitter[C]//Proceeding of the Fourth
WSDM.Hong Kong:ACM Press,2011:65-74.
[7] Cha M,Haddadi H,Benevenuton F,et al.Measuring user influence in Twitter:the million follower fallacy[C]//Proceeding of the Third
WSDM.New York:ACM Press,2010:261-270.
[8] Blei D,Ng A,Jordan tent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[9] 曹娟,张勇东,李锦涛,等.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787.
(Cao Juan,Zhang Yong-dong,Li Jin-tao,et al.A method of adaptively
selecting best LDA model based on density[J].Chinese Journal of Computers,2008,31(10):1780-1787.)
[10]Dong Z.HowNet[EB/OL].(2011-10-15).http://.。

相关文档
最新文档