重点儿参考基于LDA+的网络评论主题发现研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2013-11-05 修回日期:2013-12-17
作者简介:阮光册(1976-),男,博士,副教授,研究方向:信息分析㊁数据挖掘㊂
基于LDA 的网络评论主题发现研究
阮光册
(华东师范大学商学院信息学系 上海 200241 )
摘 要 网络用户评论的主题发现研究是Web2.0时代信息分析的重要方式,如何从冗杂的用户评论中分析出有价值的信息是研究的热点㊂针对网络用户评论信息内容短㊁信息量少的特征,提出基于LDA (latent Dirichlet alloca⁃tion )主题发现模型结合HowNet 知识库进行信息分析的方法,对网络评论进行主题发现的研究㊂首先通过评论文本的词性标注㊁语义分析,形成语料库,然后利用HowNet 对语料库中的词项进行语义相似度的计算,完成语义去重㊁合并,最后通过LDA 主题模型将用户评论的内容映射到主题上,实现对用户评论信息主题的发现㊂关键词 网络评论 主题发现 网络信息分析 LDA (latent Dirichlet allocation ) 语义分析 文本挖掘中图分类号 G350.7 文献标识码 A 文章编号 1002-1965(2014)03-0161-04DOI 10.3969/j.issn.1002-1965.2014.03.030
Topic Extraction Research of Net Reviews Based on Latent Dirichlet Allocation
Ruan Guangce
(Information Science Department ,East China Normal University ,Shanghai 200241)
Abstract Topic extraction of web user opinions is an important way of web 2.0information analysis.How to analyze valuable informa⁃tion from miscellaneous user opinions is a challenging issue.Due to short information content and amount of web user opinions ,the article put forward information analysis method based on Latent Dirichlet Allocation and HowNet knowledge base to extract net review topic.Firstly ,to set up the corpus through textual tagging and semantic analysis of the reviews ,then using HowNet to calculate semantic similari⁃ty of the corpus items and to reduce semantic repetition ,finally ,using Latent Dirichlet Allocation to map the topic and realize new review topic extraction.
Key words web review topic extraction web information analysis LDA (Latent Dirichlet Allocation ) semantic analysis text min⁃ing
0 引 言
Web 2.0强调用户的参与,网络用户主导了信息发布权,网络中的每一个实体往往都有成千上万的评论㊂由于用户评论可以使用任意词汇发表意见,使得信息存在大量的冗余和不完备㊂对这些冗杂的用户评论进行内容分析,挖掘隐藏的主题知识,将有助于在Web 2.0环境下实现信息处理和分析,并对网络大数据挖掘提供一种方法,这是本文研究的主要目标㊂主题模型是当前文本表示研究的主要范式,LDA
(Latent Dirichlet Allocation )主题模型是一种基于概率的主题发现模型,能够提取文本隐含主题的非监督学习模型[1],是主体模型中典型的代表㊂由于LDA 模型是全概率主题生成模型,可以利用高效的概率推断算
法进行计算,同时LDA 模型在计算过程中与训练文档数量无关,因此更适合处理大规模语料库㊂目前,LDA 模型已经在机器学习的诸多领域[1]以及信息检索[2]中得到应用㊂在科技文献主题发现领域,已经有学者[3-5]进行有益的探讨,研究发现,在科技文献数据集中,LDA 主题发现模型能有效的发现隐含㊁有价值的主题,并且可以通过多维度的模型对科技文献进行分析,进而发现不同文献间的知识关联,为进一步探讨科技文献的隐含知识提供了挖掘的方法㊂在网络信息处理领域,学者们将LDA 运用在社会标签推荐的研究中,通过预设主题,描述用户㊁标签㊁资源的三者关系,实现了网络文本主题分布进行计算㊂
目前,针对网络评论的研究主要从两个方面展开:a.挖掘评论中对产品属性的描述;b.用户情感的判断㊂
第33卷 第3期2014年3月 情 报 杂 志JOURNAL OF INTELLIGENCE
Vol.33 No.3
Mar. 2014
文献[6-7]中学者通过人工构建词库的方法实现了用户对汽车㊁电影产品的描述;有学者[8-9]利用共现原理识别高频特征词,然后借助搜索引擎计算词语间的PMI(Point-Wise Mutual Information,点互信息值),利用贝叶斯分类提取产品特征值,实现评论内容的自动挖掘㊂笔者认为,这些研究虽然在产品属性抽取方面获得一定的效果,然而鲜有以主题发现为目的的相关研究,使用相关技术对网络评论内容的信息分析㊁主题发现的研究则更少㊂
基于此,本文将LDA主题发现模型运用到网络评论的主题挖掘中,并结合词项语义分析,实现网络评论的主题发现研究㊂为了解决该问题,本文首先对网络评论的文本进行预处理,通过词性标注㊁词与词之间修饰关系构建了三元组的评论信息语义描述模型,并形成相应的语料库;随后采用HowNet对语料库中词项的义原进行分析,实现语义去重㊁合并,确保挖掘结果的语义独立性;最后,采用LDA主题模型将评论文本映射到语义独立的主题空间,并从每个主题空间中抽取相应的文本信息进行支持度排序,挖掘出对评论信息中的主题㊂
1 LDA主题模型
LDA(Latent Dirichlet Allocation)[1]是一个三层贝叶斯概率模型,包含词㊁主题㊁文档三层结构㊂LDA模型认为,每个文档均由多个主题混合,而每个主题是固定词表上的一个多项式分布,文档到主题服从Dirichlet分布,主题到词服从多项式分布㊂因此,LDA 主题模型将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息㊂因此,本文选择基于LDA模型挖掘网络评论的主题信息㊂
LDA模型的优点主要有:a.LDA模型具有清晰的内在结构,并且可以利用高效的概率推理算法进行计算;b.LDA模型是通过无监督方法进行训练的,更适合处理大规模文本语料㊂LDA主题发现模型的基本思想是:文档可以理解成是由若干个潜在主题的多项分布获得,而潜在主题则来自文档的一种概率分布㊂LDA模型在文档主题建模中有如下定义:
a.设文档集合D中有m篇文档,即D={d1,d2, ,d m};
b.集合D中的文档d由n个词汇组成,即d={w1, w2, ,w n},w n表示文档d的第n个词汇;
c.潜在主题词表Z由k个主题组成,即Z={z1,z2, ,z k},z k表示第k个潜在的主题㊂
在LDA中,文档d m中的每一个词w n都被认为是根据一个潜在主题z k的多项分布得到的,而z k则来自文档d m主题的多项随机分布㊂LDA对文本信息的主题建模如图1所示
㊂
图1 LDA模型[10]
图1中,(a)表示了文档集合(大圆)与隐含主题(若干小圆)之间的线性关系,通过概率计算可以将单个文档表示为若干潜在主题;(b)显示了LDA模型的层次结构,即文档集㊁文档㊁词项㊂在文档集中,参数α反映潜在主题之间的相对强弱,β表示为所有潜在主题的概率分布;θ表示在目标文档中,潜在主题的比重;W是目标文档的词向量表示,Z则表示该文档分配在每个词项上的潜在主题的个数㊂
假设m是一个潜在主题,w i是文档d中的第i个词汇,则w i属于m的概率为:
P(w
i)=
∑k m=1P(w i|z i=m)P(z i=m)(1)
公式(1)中P(w i|z i=m)表示词汇属于潜在主题m的概率,P(z
i
=m)则表示m是文档d的主题概率㊂2 基于LDA的主题发现
2.1 评论文本的预处理 网络用户评论的信息大多属于短文本,内容短㊁信息量少,且规范性较低,如果采用传统的文本词项处理方法,当去掉停用词或其他噪声数据后所剩下的信息量就更少了㊂为了分析评论文本潜在的有价值的信息,本文对评论中每个句子进行句法和语法分析㊂具体做法是:
a.对评论信息进行分词处理,并进行词性标注;
b.对词与词之间的修饰关系进行描述;
c.对有意义的评论信息进行抽取,形成语料库㊂
通过词性的标注,可以发现评论文本中隐含的语义信息㊂如(环境/n很/d好/a)㊁(自助餐/n品种/n 不/d多/a)㊁(甜品/n不错/a)等描述反映了评论的主题㊂
基于此,本文将网络评论信息抽象成三元组,形式为:(<名词>㊁<[副词]>㊁<形容词|动词>)㊂在评论信息预处理过程中,将符合三元组的信息进行提取,作为语义信息的标签进行保存㊂
预处理后,网络评论信息将形成如下的具有语义特征的文档集合:
D={d1,d2, ,d m} d i={w1,w2, ,w n}(2)
㊃261㊃ 情 报 杂 志 第33卷
这里m 为评论的数量,d i 是第i 条评论,该评论有
n 个评论词组成㊂
2.2 推理策略 LDA 是一种非监督学习模型,本身不能直接用于主题分类㊂从模型构建的基本思路来看,主题发现需要使用LDA 为语料库及文本建模,实现文本主题的发现㊂经过语义处理,上文(2)中的文档集合D ,集合中的每一个短句看做一篇文档,在这种情况下,采用传统的文本向量空间模型对相关信息进行表示,会使得文本特征矩阵及其的稀疏,为了将文档d 赋予某个主题Z i ,本文采用一种类似聚类的贪婪算法实现:
topic (d m )=arg max P z i ∈Z
(z i |d m )
(3)
LDA 主题模型将每一段文本都映射到主题分布空间中,为了将每一篇文档赋予一定的主题,公式(3)将计算概率最大的z i 作为d m 文档的主题㊂这个算法需要一个打分函数,以处理概率排序问题㊂
score (d m ,z i )=P (z i |d m )+z i D
(4)
公式(4)依据
z i
D
作为支持度逐步取得最优的方案,当主题映射到文档后,根据排序的值确定映射关系㊂
2.3 算法描述 本文需要在网络用户评论中挖掘相关主题信息㊂由于用户在评论中采用不同的语义生成词项,有些词项会存在很大的相似性,比如:在评价某事物时用户会采用, 一般”或 还可以”这样的词汇进行表述㊂因此,在具体实现过程中,语义的去重㊁合并是挖掘算法首先要解决的问题
㊂基于此,本文提出的主题挖掘方法分成两个环节实现,即先对预处理得到的数据集中所包含的特征词项进行语义分析,通过词项相似度的计算,删除㊁合并语义相似的词项;对经过去重的语料库依据LDA 进行主题映射㊂
算法的具体步骤:
a.对(2)生成的数据集提取名词㊁动词㊁形容词作为特征词,并表示成向量形式;
b.利用HowNet [11]计算每个特征词语义之间的相似度,若相似度为1,则根据特征词项在该语义内出现的概率删除重复的特征词,保留语义概率较高的词项;
c.删除HowNet 未收录的特征词项;
d.合并语义相似词项㊂根据HowNet 计算词项的语义相似度,当相似度大于阀值,则根据特征词项在该语义内出现的概率进行合并,通过语义合并,保留概率更高的词项㊂
e.对于每个语义将其特征词表示成向量
形式,其语义向量为d ={d 1,d 2, ,d n },第i
个语义的类别特征词向量可以表示为d i ={w i 1,w i 2, ,w in };
f.依据公式(3)对主题分布进行计算;
g.主题排序㊂经过(3)的计算,有了所有的文档
主题分布θ,这样就将所有的标签映射到不同的主题Z 上,用公式(4)进行打分,从主题Z 中选择有代表性的标签作为代表输出㊂
算法以词项语义作为衡量标准,以词项作为基本单元㊂通过HowNet 查询特征词项的义原,以此分析特征词项的语义相似性,进而实现评论文本的语义去重㊁合并,为主题发现提供基础;随后,利用LDA 对数据集进行主题发现,得到相关结果㊂
3 实验结果
本文选择了大众点评餐饮类三家店,采用网络文本提取软件,将用户的评论信息进行抓取,抽取网络用户评论数据共14887条用户评论,如表1所示,运用本文提出的方法进行实验㊂
表1 获取评论信息
实体店
评论数量单词数量江边城外烤全鱼(金陵东路店)1342041738逸谷会(兴国路店)244513937西郊宾馆牡丹厅
2432602总计
14887
58277
文本预处理环节,首先将抓取的文本信息进行规范性的处理,仅保留用户评论的内容,剔除了相应的打分信息,如 口味4(非常好)环境4(非常好)服务4(非常好)”等信息不作为分析的内容;对处理好的文本内容,本文采用中科院的中文分词工具ICT⁃CLAS 2014对文本文件中的数据进行词性标注㊁分词后,并根据语义构建语料库,获取评论信息及分词部分结果如图2所示㊂
图2 评论信息词性标注结果
㊃
361㊃ 第3期 阮光册:基于LDA 的网络评论主题发现研究
根据2.1提出的方法,本文将分词后的评论文本按照三元组的原则构建语料库㊂
Web2.0环境下,某一实体有众多的评论,在网络评论中,评论主题隐藏在评论文本信息中,这些评论存在不同的侧重点,或者说子话题,这些子话题均围绕某一个特定主题展开,因此主题发现可以快速的分析出网络评论的侧重点㊂通过对上面数据的LDA处理,本文对发现的主题进行整理,如表2所示㊂
表2 LDA处理后主题词排序
实体店主题排序
江边城外烤全鱼(金陵东路店)排队㊁烤鱼㊁味道㊁人气
逸谷会(兴国路店)环境㊁熏鱼㊁味道㊁服务㊁口味西郊宾馆牡丹厅环境㊁甜品㊁团购㊁服务㊁海鲜 主题标签反映了用户评论的具体内容,对主题标
签的挖掘可以将网络评论的内容进行语义描述,从冗杂的评论信息中抽取能够描述实体的有价值信息,有助于信息分析的实现㊂
基于LDA主题发现模型,推理获得θ值(评论-主题分布),根据公式(1)计算出的分布概率,针对某一实体的所有评论,可以获得一个评论-主题的矩阵A=(d
ij),每个d ij为第i条评论在主题j下的概率值,概率值越大表明该主题下的评论的重要性越高㊂根据本文提出的评分函数,对每个评论的向量进行排序,可以获得评论信息中主题标签的信息,具体如表3所示㊂
表3 结合语义的主题标签
实体店主题标签
江边城外烤全鱼(金陵东路店)鱼很吃㊁味道辣㊁鱼新鲜㊁人气高
逸谷会(兴国路店)环境不错㊁口味比较清淡㊁服务很好㊁味道不错
西郊宾馆牡丹厅环境好㊁甜品还行㊁服务好㊁海鲜新鲜
4 结 论
针对网络评论内容短㊁信息量少的特征,本文提出了一种基于LDA模型和HowNet相结合的网络用户评论主题发现的研究方法㊂通过对评论信息进行词性标注,以三元组的表达方式形成语料库,随后采用HowNet实现语料库文本的语义去重㊁合并的操作,最后通过LDA主题生成模型,挖掘出用户评论的主题㊁主题标签㊁重要评论等信息㊂该研究对网络信息分析提供了可实践的方法㊂今后,本文将研究用户信息与相关评论模型相结合的研究,进一步提高网络信息分析的准确性和实用性㊂
参考文献
[1] Blei DM,Ng AY,Jordan tent Dirichlet Allocation[J].
Journal of Machine Learning Research,2003(3):993-1022.
[2] Wei Xing,Croft W Bruce.LDA-based Document Models for
Ad-Hoc Retrieval[C].Proceedings of the SIGIR.S eat t le, Washington,USA,2006:178-185.
[3] Hristovski D,Friedman C,Rindflesch T C,et a1.Literature-
Based Knowledge Discovery using Natural Language Processing [J].Literature-based Discovery,Information Science and Knowledge Management,2008(15):133152.
[4] 王金龙,徐从富,耿雪玉.基于概率图模型的科研文献主题演
化研究[J].情报学报,2009(3):347-355.
[5] 王 萍.基于概率主题模型的文献知识挖掘[J].情报学报,
2011(6):583-590.
[6] Kobayashi N,K Inui,Y Matsumoto,et al.Collecting Evalu⁃
ative Expressions for Opinion Extraction[C].Proceedings of Natural Language Process-IJCNLP2004,2005:596-605. [7] Zhuang L,F Jing,X Y Zhu,et al.Movie Review Mining and
Summarization]C].Proceedings of the15th ACM International Conference on Information and Knowledge Management2006:43 -50.
[8] Popescu AM,Etzioni O.Extracting Product Features and Opin⁃
ions from Reviews[C].Proc.of the Conference on Human Lan⁃guage Technology and Empirical Methods in Natural Language Proc.Stroudsburg,DA,USA:Association for Computational Linguistics,2005:339-346.
[9] Hu MQ,Liu B.Mining Opinion Features in Customer Reviews
[C].Proc.of9th National Conference on Artificial Intelligence.
Men lo Park,CA,USA:American Association for Artificial In⁃telligence,2004:755-760.
[10]李文波,孙 乐,张大鲲.基于Labeled-LDA模型的文本分类
新算法[J].计算机学报,2008,31(4):620-627. [11]刘 群,李素建.基于‘知网“的词汇语义相似度的计算[EB/
OL].[2012-04-12]./view/ b213af9951e79b8968022660.Html.
[12]李丕绩,马 军,张冬梅,等.用户评论中的标签抽取以及排序
[J].中文信息学报,2012,26(5):14-19
(责编:刘武英)
㊃461㊃ 情 报 杂 志 第33卷。