文本情感分析综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本情感分析综述
摘要:近年来随着计算机、人工智能、心理学等学科交叉领域的不断延伸,情感分析引起了很多研究人员的兴趣。情感分析主要是对主观性文本进行挖掘与分析,从中获取有价值的信息。本文针对中文文本情感分析的研究现状与进展进行总结。首先介绍文本情感分析的内容,并按粒度层次,从词语级、语句级介绍相关的技术,分析了近年来的一些研究进展。接着介绍了中文文本情感分析的方法,最后总结了中文文本情感分析的研究难点与未来的研究方向。
关键词:文本;情感分析;倾向性;情感计算;粒度
中图分类号:tp391 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02
1 情感计算概述
情感计算是人工智能的一个热门、前沿的研究领域,它的目标是要赋予计算机类似人一样的观察、理解和生成各种情感特征的能力,最终能够像人一样自然亲切的交流。随着internet的发展,以文本形式出现的信息越来越多,已经成为最容易获取,也是最为丰富的一种交互资源。
1.1 文本情感分析的内容。美国mit媒体实验室的picard教授认为情感计算主要包括三个部分,即情感识别、情感发生、情感表达。内容具体可分为九个方面:情感机理、情感信息的获取、情感模式识别、情感的建模与理解、情感合成与表达、情感计算的应用、情感计算机的接口、情感的传递与交流、可穿戴计算机。关于文本
的情感计算是文本情感分析中的核心问题之一,文本情感分析,广义上包含对文本的主客观性分析,同时也包含了对主观信息的倾向性分析及强度分析。倾向性分析也就是我们通常所说的褒贬性分析,一般指说话人对某事某物的看法或观点,通常以“表扬——批评”、“赞同——反对”这样具有较强烈情感倾向的词汇来分类;而强度分析指的是对同一事物所持观点的语气强烈程度,如:“我喜欢文学”与“我热爱文学”,两个句子同样表达了对文学的喜爱,但程度不同,“热爱”的语气强烈程度要远远超过“喜欢”。
文本情感分析涉及计算机、语言学、心理学、人工情感、认知科学、信息检索及数据挖掘等多个学科,并且还在不断扩大,研究人员所面对的是一个复杂的交叉学科领域,它的主要目标是使计算机能识别人类的情感,也就是需要建立完善的情感识别模型。近年来,一些学者尝试从不同角度着手研究这一内容,并取得了一些进展。文献1提出了使用击键力学结合文本输入的方法识别出打字者的情绪状态,在其实验中,通过收集打字者的打字节奏和击键特征,进而分析计算,最终对紧张、放松、悲伤和疲劳四种情绪状态达到了88%的识别率,对愤怒和兴奋两种状态,有84%的识别率。国内对文本情感分析这一课题的研究起步较晚,目前的研究多集中在情感倾向性分析上,文献2提出了一种基于语言建模的文本情感分类的方法,将文本的情感倾向标记为“赞扬”或“批评”,提出了从训练数据中分别估计出代表赞扬和批评两种情感倾向的语言模型,,然后通过比较测试文本自身的语言模型和这两种训练好的情
感模型之间的kul-lback-leibler距离,从而进行评论性文章的分类,其缺点是难于构造接近真实语言的模型;文献3提出了情感倾向性五元模型,从情感倾向性观点的持有者、倾向性的来源、倾向性的指向、倾向性的立场和倾向性的种类五个方面刻画中文文本情感倾向性的概念,丰富了情感倾向性的表示方法,一定程度上提高了文本情感倾向性判断的精度。
1.2 文本情感分析的粒度。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级几个研究层次。在这个分类层次上,有不少学者进行了相关的研究,其中最常见的方法是从词语级入手,提取文章中的基础情感词,分别计算其权重后相加,进而扩展到词句和篇章的倾向性判别上。文献4首先构建喜、怒、哀、惧基准情感词,然后对情感词特征进行分析,进而挖掘潜在情感词,最后使用支持向量机分类的方法融合词特征、词性特征、语义特征等各种特征,对句子进行情感识别及分类;文献5采用基于基准词的方法先提取文本中的情感特征词,然后根据tf-idf模型计算情感特征词在文本中的权重,最后,对所有的情感词进行加权平均,得出整个文本的情感倾向。从国内研究的情况来看,到目前为止,大部分的情感倾向识别的工作主要集中在词汇级或文档级,但诸如问答系统、摘要提取、挖掘产品评论等都需要句子级或者短语级的倾向分析,而这些方面的研究却较少。针对这一问题,文献6进行了基于短语模式的文本情感分类工作,采用“情感倾向定义”权重优先的计算方法获得短语中各词的语义倾向度,然后分析短语
中各词组合方式的特点,提出中心词概念来对各词的倾向性进行计算来识别短语的倾向性和倾向强度,这种方法对短语的情感倾向识别效果较好,但没能实现向其它粒度文本的扩展。文献7提出一种提取中文文本情感主题句子的方法。首先评估文本中语义概念的概括和归纳能力,确定文本主题概念。将包含主题概念的句子作为候选主题句子,计算各个候选句子的重要度,最终确定文本主题句。然后采用条件随机场模型,选取情感倾向特征和转移词特征训练模型,从文本主题句集合中提取情感主题句。
另外按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析等。这方面也有大量学者进行了研究工作,但都局限于一些特定的领域,其方法不具有普遍性。文献8对近年来文本情感分析的研究成果进行了综述,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,对后续研究有一定帮助。
2 文本情感分析的主要研究方法
脸谱的情感分析中人的额眉、眼睛和口型等图片的辨认是决定情感的关键因素,而声音的情感分析不仅包含语义,更多的是可以从声音的频率和音高来判别情感。文本的情感分析不同于脸谱和声音等情感分析,主要集中在对上下文及词汇和语义的分析上,因为情感发生的环境及刺激因素等都是通过语言表述出来,而不是听到、看到和触摸到的真实的刺激,所以对语言理解的准确与否是文本情感分析的关键,也是最重要的部分,同时情感的发生与表达者
的内在情绪有很大的联系。基于这样的考虑,文献9将认知语用学和情绪心理学相关知识引入到文本情感计算中,提出一个新的文本情感认知模型。它从情感的发生机制出发,以多种情感图式为基础,考虑否定状态下情感的极性关系等多方面因素,拓宽了研究的维度和理论背景,提供了新的研究思路。
常用的文本情感分析方法可以归纳成以下几种:关键词识别、机器学习、基于集合的方法、基于词典的方法。
关键词识别:首先,在系统中事先存放大量包含某些关键词的模式,每个模式都与一个或多个解释相对应。系统将当前输入句子同这些模式逐个匹配,一旦匹配成功便立即得到了这个句子的解释,而不再考虑句子中那些不属于关键词的成份对句子意义会有什么影响。所以,关键词识别是一种近似匹配技术,它的最大优点是允许输入的句子不一定要遵循规范的语法。但这种分析技术的不精确性也正是这种方法的主要弱点,往往会导致错误的分析。这种方法的其它的缺陷也是显而易见的:(1)当句子中有否定词时不能很好的识别;(2)当句子中不含或没有明显的情感关键词时,方法失效。针对隐式情感句难于识别的问题,文献10提出了一种基于语义特征的文本情感倾向识别方法,通过增加语义特征,使得文本的优秀特征增多,同时文本的情感倾向性更加明确,提高了情感倾向识别的性能。
基于机器学习的传统文本分类技术:使用分类器如朴素贝叶斯(nativebayes,nb)、最大熵(maximumentrop,me)、支持向量机