(叶强和李一军对文本分析这一块应该研究的较多)互联网商品评论情感分析研究综述_张紫琼

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第13卷第6期2010年6月

管理科学学报

J OURNA L O F M ANAGE M ENT SCIENCES I N CH I NA

V o.l13N o.6

Jun.2010互联网商品评论情感分析研究综述¹

张紫琼,叶强,李一军

(哈尔滨工业大学管理学院,哈尔滨150001)

摘要:互联网评论情感分析是W eb信息挖掘的一个新兴领域,近年来受到计算机科学、经济学、管理学等相关学科的广泛关注.目前,情感分析领域的研究主要集中在主观性内容识别、褒贬情感分类以及在线评论的经济价值挖掘等几个方面,大部分研究借鉴文本挖掘、信息检索、机器学习、自然语言处理、统计学等方面的技术和方法,也提出了一些针对评论情感分析的特定方法.对在线评论情感分析领域的研究现状与进展动态进行归纳和分析,重点论述现有研究采用的主要方法和关键技术,以及研究中存在的问题,最后提出了未来的研究方向.

关键词:情感分析;在线评论;主观性识别;褒贬分类;在线口碑效应

中图分类号:TP18;C931文献标识码:A文章编号:1007-9807(2010)06-0084-13

0引言

情感分析(senti m ent analysis),又称评论挖掘或意见挖掘(op i n i o n m i n i n g),是指通过自动分析某种商品评论的文本内容,发现消费者对该商品的褒贬态度和意见[1-2].利用对互联网上商品评论信息的挖掘与分析结果,消费者可以了解人们对某种商品的态度倾向分布,优化购买决策;生产商和销售商可以了解消费者对其商品和服务的反馈信息,以及消费者对自己和对竞争对手的评价,从而改进产品改善服务,赢得竞争优势.

随着信息技术及其应用在过去十几年中的快速发展,互联网不仅对企业的业务流程带来了巨大的变革,也对消费者的行为模式产生了深刻的影响.DoubleC lick I nc.[3]进行了一项针对美国服装业、计算机硬件设备业、运动与健身产品行业及旅游业网络客户的研究,发现这些行业中都有近一半以上的消费者在做出购买决定前会在互联网上搜索相关商品的介绍及其他消费者对商品的评论信息,互联网商品评论对于消费者的购买决策有着重要的影响.据统计,截至2009年9月,全球上网人数已达17.34亿人[4],充分挖掘消费者的喜好偏爱对商家具有重要的意义.

作为W eb信息挖掘的一个新兴领域,在线评论情感分析涉及的研究内容十分广泛,如自动识别互联网中传播的商品评论信息、识别被评论的商品属性、判断客户意见的褒贬态度以及挖掘在线评论与商品销售情况的关系等.姚天昉等[5]对情感分析的研究现状进行了总结,主要内容包括:¹介绍情感分析的定义和研究的目的;º从主题的识别、意见持有者的识别、情感描述的选择和情感的分析四个方面进行评述,并介绍了一些成型的系统;»讨论中文情感分析的研究现状.而本文分别从篇章、语句和词语等不同粒度上,围绕情感分析技术的基础性工作,主观性内容识别和褒贬情感分类两方面展开评述,并对在线评论将如何影响消费者的购买行为以及如何影响商品销售情况的工作进行整理和分析.

针对在线评论挖掘开展的研究越来越多,然而相关研究仍然处在探索阶段,在方案设计和技术运用方面都比较分散,缺乏统一的实验平台和

¹收稿日期:2009-02-16;修订日期:2010-03-18.

基金项目:国家自然科学基金资助项目(70971033;70890082);新世纪优秀人才支持计划资助项目(NCET-08-0172).

作者简介:张紫琼(1982)),女,黑龙江大庆人,博士生.Em ai:l ziqiong@h

资源.由于各种方法预期的目的、使用的数据集和评价方法均不完全相同,很难进行研究结论之间的比较和评价.

1主观性内容识别

情感分析处理的文本类型是主观性文本,若要在评论情感分析系统中做到自动处理,首先需要区别主、客观文本信息,这是一个十分重要的预处理环节.

一般而言,主观语言是指人们用来表达自己的立场、态度和感情的语言[6],主观语言存在褒义与贬义之分,称为语言的情感倾向或极性.本节主要介绍主观内容识别的相关工作,在第二节介绍关于褒贬情感分类的研究.下面从三个层次介绍主观性文本识别的研究现状:词语,句子,篇章.

在词语水平上,主观性识别研究的任务是确定主观词语.现有研究[7-12]主要是针对英文主观性形容词、名词、动词和短语的自动识别.叶强等[13]也提出了用于识别汉语主观短语的双词词类搭配.然而,现有方法的评价指标大多采用整个词表对主观句的识别正确率和召回率[7,10-11,13],对于主观词语本身的判定仍未提出普遍认可的评价标准.研究表明,无论是手工方式,还是机器自动的方式,判断词语的主客观性都难于判断词语的褒贬倾向[14-16].

在句子水平上,主观性识别研究主要涉及自动识别表达情感的主观性语句[12,17-20],以及语句中的意见和意见来源等组成成分[21-22],机器学习方法是相关研究主要采用的方法.Yu等[17]发现Bayes分类器对主观句能够达到较高的识别准确率和召回率,而对客观句的识别准确率和召回率均较低.可以看出:主观语言中包含比较明显的表达情感的词汇,某些词语的出现可以有效地识别主观句;客观语言相对缺乏典型的词汇.客观语言可能由于主观性词语的加入改变其客观性,反之,主观语言则不会因为客观词语的加入改变其主观性.词语位置信息的引入使客观句的识别效果有所提高[18].文献[12,19]进一步提出了语句主观性程度的计算方法.

到目前为止,相关研究在主、客观句的划分标准上仍存在分歧,使用的语料集存在差异,因而获得指标的数值不能完全作为分类效果比较的依据.关于语句意见和意见源等成分识别的研究[21-22]还处在探索中,准确地判别语言成分及其功能,需要借鉴相关的语言学知识,许多问题尚未得到很深入的研究.

在篇章水平上,由于评论与非评论使用的词汇差别较大,以词作为项,NaÇve Bayes和SVM能达到相当高的分类精度[17,23],所以从篇章层次对主、客观文档进行分类的研究相对较少,不是研究的重点.

此外,文献[24]提出了一种自动计算/词义0主观性程度的方法.文献[25]尝试利用现有英文主观词典及分析工具生成目标语言的主观词典与研究工具,但是生成的资源在实际应用中的效果还有待验证.

2褒贬情感倾向分类

褒贬情感分类(sen ti m ent c lassification)是通过分析在线商品评论的文本内容,自动将其判断为正面评价或负面评价,从而挖掘消费者情感倾向分布的过程.

2.1评论篇章情感分类

早期的褒贬情感分类研究始于篇章水平,目标是挖掘评论文章对某种商品或服务所持的总体褒贬态度.根据采用的技术,相关工作可主要分为基于传统文本分类技术的方法、基于褒贬词汇统计的方法和基于回归模型与序列标注的方法.

将文本简化为B OW(bag ofw ords),在特征处理和统计学习算法的基础上获得对文本内容的表示和类别的预测已经成为传统主题分类的标准模式.评论情感分类与主题分类的一个较大区别是情感更多地体现为词语之间的语义关系,许多词语在共现时才能表达一定的情感倾向.因而,基于传统文本分类技术的情感分类工作主要使用向量空间模型表示文本和机器学习算法预测类别,选择什么语义单元作为特征是相关研究的焦点,主要考虑的问题包括:

1)权值的计算.在文本分类和信息检索领域,通常采用基于词语频率的方法计算项的权重,而Pang等[1]发现对于评论情感分类,以词语是否出现作为特征在分类效果上优于词频特征,因为

)

85

)

第6期张紫琼等:互联网商品评论情感分析研究综述

相关文档
最新文档