文本情感分析_赵妍妍
文本情感分析
赵妍妍等:文本情感分析1835运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的丰观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析【l】,如,“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次【2】.按照处理文本的类别不同。
可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场:后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”。
表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1Researchframeworkofsentimentanalysis图l情感分析的研究框架情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图l所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的枪索与归纳可以看作与用户直接交互的接口,着重强调检索和!f1纳两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值【3-5】.鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的3个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况:然后介绍情感分析的几个重要应用点;最后,展望情感分析技术的发展趋势.1情感信息抽取情感信息抽取旨在抽取情感文本中有价值的情感信息,它可以看作情感分析的基础任务.一直以来,学术界对它兴趣小减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如GPS、1848【68】【69】【70】【7l】【72]【73】【74】【75]【76】【78]JournalofSoftware软件学报vol_2l,No.8,August2010TitovI,McDonaldR.Ajointmodeloftextandaspectratingsforsentimentsummarization.In:McKeownKed.Proc.oftheACL2008.MordstOWll:ACL.2008.308—316.BranavanS,ChenH,EisensteinJ.Learningdocument—level8em锄ticpropertiesfromfree-textannotations.In:McKeownKed.proc.oftheACL08:HLT.Morristown:ACL.2008.263-271.KuLW,LiangYT,ChenHH.Opinionextraction,summarizationandtrackinginnewsandBlogcorpora.In:GilY,MooneylU,eds.Proc.oftheAAAI2006SpringSymp.onComputationalApproachestoAnalyzingWeblogs.MenloPark:AAAIPress.2006.OunisI。
文本情感分析综述
文本情感分析综述∗赵妍妍+, 秦兵, 刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究中心, 黑龙江哈尔滨 150001)A Survey of Sentiment Analysis *ZHAO Yan-Yan+, QIN Bing, LIU Ting(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: Phn: +86-451-86413683 ext 800, E-mail: zyy@Abstract: Sentiment analysis is a novel research topic with the quick development of online reviews, which has drawn interesting attention due to its research value and extensive applications. This paper surveys the state-of-the-art research on sentiment analysis. First, three important tasks of sentiment analysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentiment retrieval and summarization; then the evaluation and corpus for sentiment analysis are introduced; finally the applications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, making detailed comparison and analysis. It is expected to be helpful to the future research.Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval and summarization;evaluation; corpus摘 要: 文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为三项主要任务,即情感信息抽取,情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.文本重在对文本情感分析研究的主流方法和前沿进展进行概括,比较和分析,以期对后续研究有所助益.关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如:博客和论坛)上产生了大量的用户参与的,对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如“喜”、“怒”、“哀”、“乐”,和“批评”、“赞扬”等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论,来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信∗Supported by the National Natural Science Foundation of China under Grant Nos. 60803093, 60975055 (国家自然科学基金) and the “863” National High-Tech Research and Development of China via grant 2008AA01Z144(863计划探索类专题项目)赵妍妍等:情感倾向性分析纵览息的收集和处理.因此,迫切需要计算机帮助用户快速获取和整理这些相关评价信息,情感分析(Sentiment Analysis)技术应运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析,又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析[1],如“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次[2].按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”,表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为三项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1 The framework of sentiment analysis图1 情感分析的研究框架其中,情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图1所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒贬两类或者其他更细致的情感类别(如:喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调“检索”和“归纳”两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上,进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值[3-5].鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的三个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况;然后,本文介绍情感分析几个重要的应用点;最后,展望情感分析技术的发展趋势.1 情感信息抽取情感信息抽取旨在抽取情感文本中的有价值的情感信息.它可以看作情感分析的基础任务,一直以来,学术界对它兴趣不减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如“优秀”,“好用”)、评价对象(如“GPS”, “屏幕分辨率”)、观点持有者(如“国家政府”, “台湾当局”) 等.在对大量的情感文本进行分析之后,不少研究者发现某些组合搭配对于情感分析的上层任务如:情感信息分类以及情感信息的检索与归纳有更直接的帮助,如“评价搭配”(评价对象和评价词语的搭配,如“屏幕分辨率-高”)、“评价短语”(程度副词及其修饰的评价词语的搭配,如“不怎么-好”)等.下面本文将一一介绍目前情感信息抽取的具体任务及其主要实现技术.1.1 评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语.很显然,评价词语在情感文本中处于举足轻重的地位,评价词语的识别和极性判断在情感分析领域创建伊始就引起了人们极大的兴致.基于前人大量的研究工作,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[10].基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.早期的一些学者发现,由连词(如and或but)连接的两个形容词的极性往往存在一定的关联性,如“and”连接的形容词(如“lovely and beautiful”)极性相同,然而“but”连接的形容词(如:“lovely but unnatural”)极性相反.基于这种现象, Hatzivassiloglou和McKeown[1]从大语料库华尔街日报(Wall Street Journal)中发掘出大量的形容词性的评价词语. Wiebe等人[11]沿袭了较为相似的工作,他们使用了一种相似度分布的词聚类方法在大语料库上完成了形容词性的评价词语的获取.然而,以上的两种方法仅将评价词语的词性局限于形容词词性,忽略了其他词性的评价词语.为了避免评价词语词性的限制, Riloff等人[12]手工制定一些模板并选取种子评价词语,使用迭代的方法获取了名词词性的评价词语.随后,Turney和Littman[13]提出了点互信息(Point Mutual Information)的方法判别某个词语是否是评价词语.这种方法适用于各种词性的评价词语的识别,但是较为依赖种子褒/贬词语集合.鉴于此,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.很自然的,有学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词语[14-16].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[17-20].此外,一些学者[21]沿用了Turney等人的点互信息的方法[13],通过计算WordNet中的所有形容词与种子褒义词代表“good”和贬义词“bad”之间的关联度值来识别出评价词语.然而,并非所有的语种的情感资源都像英文一样丰富,对于某些词典资源非常稀缺的语种,有学者将词典资源丰富的语种的情感词典翻译到资源较少的语种中[22],如将英文的情感词典翻译成中文,供中文情感分析应用.但是实验显示,不少评价词语在经过翻译之后极性发生了改变.这也印证了Wiebe在文献[23]中所指出的“词语的词义和其极性有一定的关系,但是相同的词义并不一定有相同的极性”.鉴于此,基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑的好快啊!”).此外,还有一部分学者采用基于图的方法来识别评价词语的极性[10,24].具体的,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(Propagation Algorithm)来完成词语的分类.如,有学者考察图中两个词语的注释信息而构建图[24],继而使用Spin模型对图中的点迭代的进行概率计算,得出每个词语的极性.还有一些学者尝试使用多种图模型[10],如:最小切分模型(Mincuts)、随机最小切分模型(Randomized Mincuts)及标签迭代模型(Label Propagation)等完成评价词语的褒贬分类.实验证实了基于图的方法的有效性.基于图的方法是一种新颖的方法,它可以灵活的将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更有效的词语间特征以及如何选取图算法是值得深入研究的问题.1.2 评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等.现有的研究大部分集中于产品领域的评价对象的抽取,他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别.赵妍妍等:情感倾向性分析纵览一部分学者使用基于规则/模板的方法抽取评价对象.规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注,命名实体识别和句法分析等.相应地,制定的规则也包括词序列规则,词性规则以及句法规则等形式.Yi[25]使用三条限制等级逐渐递进的词性规则从候选评价对象中抽取出真正的评价对象.还有学者[26-27]使用关联规则挖掘的方法或是基于句法分析的结果[28]找出频繁出现的候选评价对象,继而使用两种剪枝方法去除错误样例.然而,这些方法仅能找出频繁的评价对象.为了发掘出非频繁的评价对象,有学者尝试使用含有评价词语和评价对象槽(slot)的词序列模板[26].此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板.而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.有学者[29]从另一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖” 是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词:“scanner has”)之间的关联度来获取真正的评价对象.实验证明这种方法取得了较好的实验效果,超过了基于规则/模板的方法.但难点在于领域指示词的获取.近年来,随着话题模型(Topic Model)[30-31]的逐渐兴起,很多学者将其应用到情感分析领域.由于评价对象是蕴涵于情感文本中的某些话题,因此可以使用话题模型用于评价对象的识别.有学者[32]采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类.这种方法理论上能够提高评价对象抽取的召回率,但是遗憾的是,还没有实验将这种方法和上述传统的基于名词短语的方法进行对比.此外,还有一部分学者从事新闻评论文本中的话题评价对象的抽取[33-34].如:对于情感句“所有人都认为政府应该加强改善医疗卫生条件”,抽取话题评价对象“政府应该加强改善医疗卫生条件”.1.3 观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”.很自然的,人们会想到评论中的观点持有者一般是由命名实体(如:人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者[35].此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取[33].但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取.如Choi将其看作一个序列标注问题[36],并使用CRF (Conditional Random Fields)模型融合各种特征来完成观点持有者的抽取.相似的,Kim[15]将所有名词短语都视为候选观点持有者,使用ME (Maximum Entropy)模型来进行计算.以上的方法将观点持有者的抽取当作一个独立的任务.通过观察,许多研究者发现,观点持有者一般是和观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决.Bethard[37]在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.由于产品评论中一般默认观点持有者是用户本身,因此鲜有研究者在产品评论领域研究这一任务.1.4 组合评价单元的抽取评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下三个句子中的使用.¾Sen1: 凯越的油耗真高.¾Sen2: 捷达的性价比相当的高.¾Sen3: 这辆车有1m多高.Sen1和Sen2是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如在Sen1中“高”表示贬义,而在Sen2中则表示褒义.此外,评价词语往往也会出现在非情感句中,如Sen3.因此仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现有些包含评价词语的“组合评价单元”(如:组合“油耗-高”,“相当-高”)对于处理情感分析的上层任务更有帮助.下面将具体的介绍各种形式的组合评价单元.1.4.1 主观表达式的抽取主观表达式(Subjective Clues)是指表示情感文本单元主观性的词语或词组. 1.1节的评价词语是主观表达式的一部分.此外,某些词语的组合(如:“village idiot”或“get out of here”)也能很明显的标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语.如何获取这些有意义的词组是主观表达式抽取的重点.Wiebe和Wilson是这项任务的引领者[38].近几年来,他们挖掘大量的主观表达式形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类.具体的,他们首先从语料中抽取出所有的n元词语/词组(1≤n≤4)作为候选主观表达式;继而通过对比训练语料中的标准的主观表达式,为每个候选主观表达式计算出可能成为主观表达式的概率;最后通过对概率值的分析,获得这些主观表达式.Wiebe和Wilson[39]在随后的工作中又引入了“主观表达式密度”协助判断主观表达式.2004年,Wiebe和Wilson将他们前期的工作进行了总结[40],从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式.此外,他们首次利用句法分析的结果发掘了句法主观表达式[41].随后,Wiebe和Wilson采用多种特征及机器学习方法对他们获取的大量的主观表达式的情感程度(strong或weak)进行了识别.1.4.2 评价短语的抽取评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如:“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元.有学者采用基于一些情感词典的方法识别这种评价短语.如Whitelaw[42]结合WordNet使用半自动的方法构建了形容词性的评价词词典以及修饰词词典.对于一个含有评价词语的情感文本,该方法首先查看评价词前面的词语,如果属于修饰词词典,获取这个词组作为评价短语.根据两个词典中的属性值计算出情感极性.这种方法由于基于较为细致的词典,因此准确率较高.然而,由于词典中词语有限而限制了召回率.还有学者使用依存句法结构(如ADV、ATT以及DE结构),在句法树上获取评价短语[27].这种方法巧妙的利用了评价短语中所含词语之间的句法修饰关系,但是较为依赖句法分析的结果.评价短语考察的是连续出现的词组,然而,有些表示修饰关系的词语并非总是和评价词语连续出现. 如在情感句“[I did [not]- have any [doubt]- about it.]+”中,修饰词“not”和评价词“doubt”并非连续出现,但它们共同决定了情感句的最终极性. Moilanen等人[43]和Choi等人[44]将其定义为“组合语义单元”(Compositional Semantics),具体表现为一组非连续的词语,通过相互作用来表达出某种情感极性.“组合语义单元”可以看作一种更复杂的评价短语,多使用人工总结或半自动生成的模板来识别.1.4.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对<评价对象,评价词语>,如情感句“凯越的油耗很高”中的“油耗-高”.前面所介绍的“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而情感句中出现的某些“主观表达式”和“评价短语”并非真正的表现出情感极性.如情感句s1“车跑的好快啊”中的词语“好”并不存在情感极性,需要过滤掉.此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定.“评价搭配”则可以很好的解决上述两点问题.针对评价搭配的抽取任务,大部分学者采用了基于模板的获取方法. Kobayashi等人[45]考察评价对象和评价词语之间的修饰关系,并用8个共现模板来描述.然而,由于模板太过简单且修饰关系仅仅停留在词表面,该方法产生了大量的噪声.为了深入挖掘评价对象和评价词语之间的修饰关系,一部分学者尝试使用句法关系模板. Bloom等人[46]利用Stanford Parser手工构建了31条句法规则.此外, Popescu等人[29]利用MINIPAR Parser手工构建了10条依存句法抽取模板来获取评价搭配.同时,国内的姚天昉等人[47]基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则;后续总结出SBV极性传递规则,用于评价搭配的识别.可以看出,他们的工作融入了更多对评价对象和评价词语之间深层关系的挖掘.然而,由于匹配规则或模板的制定参与了过多的人工,覆盖率较低.因此,在未来工作中我们应该侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略.2 情感信息分类情感信息的分类任务可大致分为两种,一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类[48].赵妍妍等:情感倾向性分析纵览2.1 主客观信息分类在对情感文本进行情感分析时,往往由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量[49],因此将情感文本中的主观信息和客观信息进行分离变得非常必要.由于情感文本单元表现格式比较自由,且区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度.一部分学者通过考察文本内部是否含有情感知识(具体表现为第1部分情感信息抽取的结果)来完成主客观信息分类[14,50].然而,我们发现许多客观句中也可能会包含评价词语,如客观句“这位英雄名叫张三丰”同样含有评价词语“英雄”.为了更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元,如 1.4节中提到的“主观表达式”, “评价短语”和“评价搭配”等组合信息.此外,还有学者[12]构建情感模板识别情感文本的主客观性(如贬义模板:“<x> drives <y> up the wall”).以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘,以及各种情感知识融合的方法研究.还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.具体的,Hatzivassiloglou[51]使用了词语作为特征,并采用了NB (Naïve Bayes)分类器完成篇章级情感文本的主客观分类.Yao[52]着重从一些特殊的特征角度考察了主客观文本,如:标点符号角度,人称代词角度,数字角度等等.Pang[53]则采用基于图的分类算法完成句子级的主客观分类.基于特征分类的方法目前还是主客观信息分类的主流方法,这种方法定义明确,根本的问题在于特征的选取.因此,尝试使用更深层,更复杂的分类特征也许是这类方法的突破方向之所在.2.2 主观信息情感分类主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等.其中第1部分已经对词语级和短语级的情感分类方法进行了总结,因此本节将着重介绍句子级和篇章级的主观信息情感分类方法.一般而言,研究者将主观本文的极性分为褒义和贬义两类(Thumbs up? Thumbs down?).纵观目前的研究工作,和主客观信息分类类似,可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法.相似的,前者主要是依靠一些已有的情感词典或领域词典,以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性.后者主要是使用机器学习的方法,选取大量的有意义的特征来完成分类任务.这两种研究思路有很多代表性的研究工作.文献[14,51,54-55]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和.这种方法的重点一般都放在评价词语或组合评价单元的抽取和极性判断方法的研究上.在基于特征分类的方法中,Pang[56]首次将机器学习的方法应用于篇章级的情感分类任务中.他们尝试使用了n-gram 词语特征和词性特征,并对比了NB、ME和SVM(Support Vector Machine)三种分类模型,发现unigram特征效果最好.然而, Cui[57]通过实验证明,当训练语料较少的时候,unigram的效果较优,但随着训练语料的增多,n-gram(n>3)发挥了越来越重要的作用. Kim[58]除了考察传统的n-gram模型外,还引入了位置特征和评价词特征来完成句子级的褒贬分类.Zhao[59]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合..类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现,以及特征选择和特征融合等问题的研究.除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务.Pang[60]将褒贬等级分为三类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类.Goldberg[61]则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括四个等级的分类.2.3 观点分类与挖掘情感分类还可以体现在对某些事件的观点分类上面.Lin[8]主要使用三种分类模型识别有关“巴以冲突”主题的评论文本所表达的观点,即是“支持巴方”还是“支持以方”.而Kim[9]主要对美国大选时涌现出来的大量的评论文章进行分类汇总,来推断大部分选民是支持“共和党”还是“民主党”.该文献同样也是使用分类器和分类特征相结合的算法,其中作者对分类特征进行了泛化,取得了较好的效果.和主观信息情感分类不同的是, “观点分类与挖掘”任务除了需要使用情感知识之外,还需要发掘一部分和“观点”相关的知识.。
情感分析网络舆情研究综述
互联网的快速发展改变了人们的交流习惯。
随着即时通讯工具兴起以及自媒体的不断涌现,网民信息交互的渠道增多,网民通过多种方式表达自己对热点事件的态度,从而促进了网络舆情的传播与演化。
一旦处理失当,网民的负面情绪会对社会造成严重的负面影响。
而情感分析方法是对网民观点与情绪分析的有效方法之一,得到该领域研究者的重示并取得了一定的研究成果。
对我国基于情感分析研究网络舆情的文献进行统计分析和回顾整理。
意在发现情感分析方法研究网络舆情中的热点、趋势和未来的发展方向,最后分析总结其存在的不足,为后续的深入研究提供参考与借鉴。
一、情感分析网络舆情研究现状情感分析又称倾向性分析、情感分类、意见抽取、评论挖掘、情感挖掘或主观分析,是用户对商品、服务等评论内容的分析、处理、归纳和推理,对评论中表达的观点和情感进行分类,同时也被广泛运用在网络舆情的研究中,成为当前网络舆情研究中的主流方法之一。
(一)发文量趋势。
通过CNKI期刊网数据库搜集相关文章,采用关键字“情感分析舆情”进行搜索,检索时间截至2019年12月,共检索到420篇,在此基础上清洗得到381篇有效文献,其中硕博士论文237篇,期刊140篇,会议论文4篇,如图1所示,图中横轴为年份,纵轴为文献发表篇数。
(图1)从图1可以看出,相关研究起步较晚,发文量由缓慢增长到快速增长。
受当时理论发展水平、技术条件以及受重视程度的限制,在2007~2012年发展较为缓慢,6年内发表31篇。
随着大数据新兴技术的迅速崛起,增加了网络热点传播速度和网民发表言论渠道,政府对网络舆情越来越重视,促使相关研究不断深入,从2013年发表数量快速上升,到2019年共发表350篇。
情感分析网络舆情研究的增长不仅得益于政府对舆论的高度重视,还有早期研究为其奠定理论和技术上的基础。
这表明了我国情感分析网络舆情研究逐步走向成熟。
(二)重要期刊分布。
进一步运用上述检索的140篇期刊,从中选取重要期刊,排在前十名的期刊共有43篇相关文章。
基于句法树结构的情感评价单元抽取算法
定对象或事件的观点和态度 。例如用户在购买商 品前 , 往往会 去浏览其他用户关于商品 的评价 ; 商家总是希望通过分析用户 的评价得到商品 的反馈信息 , 从而进行商品 的改进和市场 的调 整 。面对爆炸式增长 的信 息 , 人们希 望更快 、 更有 效地得 到这
些 主 观 性 信 息 。 因 而 , 于 网 页 内 容 的 情 感 分 析 ( et e t 基 sni n m
于评价词所评价 的对象 , 速 度很快 …‘ 如“ 电用得很 快 ” 句话 两
中 ,快 ” 表 达 的 极 性 是 不 一 样 的 。 因此 , 何 抽 取 评 价 词 和 “ 所 如
情 感 分 析 又 称 做 意 见 挖 掘 (pno iig , 的 目的是 通 oii m nn ) 它 n
( 06 A00 0 ) 2 0 A 119
定了 3 1条 依 存 规 则 , 通 过 这 些 规 则 对 测 试集 进 行 验 证 , 抽 并 以
基金项 目:国家自然科学基金资助项 目( 17 12 60 16 ) 国家“ 6 ” 60 2 5 ,1 20 2 ; 8 3 计划 资助项 目
词 典 和 评 价 词 词典 在短 语 句 法 树 中标 注 出评 价 对 象 和 评 价 词 ;
将评 价对象 和评价词进行 搭配 , 抽取 出基 于 G T的句法树 ; MC
(ttK yL brtrfrN vl w r Tcnl y aj gU i rt, nn 10 3, hn ) Sae e aoaoy o oe s ae ehoo ,N nn nv sy Naf g20 9 C i g i ei i a
A b t a t Ap r ia x e so xr ci n i u da n a a k o e tme n y i . M o to he prv o s meho o p— sr c : p as le prs in e ta to sa f n me tlt s fs n i nta a ss l s ft e i u t dsf ra
情感分析实训报告
计算机学院综合实训报告互联网文本分析-情感计算姓名班级学号学科专业同组成员指导教师日期目录1. 序言 (2)1.1.选题背景 (2)1.2.名词解释 (3)1.3.参考资料 (4)1.4.选题目的及意义 (4)2. 课题需求分析 (5)2.1.功能需求 (5)2.2.接口需求 (6)2.3.开发环境需求 (7)2.4.性能需求分析 (7)3. 系统概要设计 (8)3.1.系统体系结构 (8)3.2.系统功能设计 (10)3.3.数据输入输出格式设计 (11)4.系统详细设计与实现 (12)4.1.互联网文本分析-情感计算的设计与实现 (12)4.2关键算法设计与实现 (17)4.3接口代码 (29)5.实训总结 (31)5.1技术总结 (31)5.2思想总结 (31)1.序言1.1.选题背景用自然语言与计算机进行通信,这是人们长期以来所追求的。
因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。
前者称为自然语言理解,后者称为自然语言生成。
因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。
历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。
但这种状况已有所改变。
无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。
从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。
典型的例子有:多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。
基于文本挖掘的影评数据情感分析以《我和我的祖国》为例
基于文本挖掘的影评数据情感分析以《我和我的祖国》为例一、内容简述随着互联网的普及和社交媒体的发展,大量的文本数据涌现出来,其中包括了各种类型的评论、观点和情感表达。
这些文本数据为自然语言处理(NLP)领域的研究者提供了丰富的信息来源,也为情感分析等任务提供了有力的支持。
本文以《我和我的祖国》这部影片为例,探讨了基于文本挖掘的影评数据情感分析方法。
首先本文对影片的相关信息进行了收集和整理,包括导演、演员、上映时间、票房等基本信息,以及豆瓣评分、影评数量等评价指标。
通过对这些信息的分析,可以了解影片的基本情况和观众对其的评价。
接下来本文采用了多种文本挖掘技术,如词频统计、共现矩阵构建、主题模型等,对影片的影评数据进行了深入挖掘。
通过这些方法,可以发现影片中的情感倾向、关键词语和主题结构等信息。
本文根据情感分析的结果,对影片的情感倾向进行了解读。
同时针对影片的特点和观众的需求,提出了一些建议,以期为电影产业的发展提供参考。
1. 背景介绍:电影《我和我的祖国》在XXXX年X月上映,成为中国影史上最卖座的电影之一背景介绍:电影《我和我的祖国》在2019年9月25日上映,成为中国影史上最卖座的电影之一。
这部电影由7位导演联合执导,讲述了新中国成立70周年的历史故事,通过七个不同的故事篇章展现了中国人民在国家发展和进步中的奋斗与拼搏。
影片以真实事件为基础,情感真挚深入人心,受到了广泛的关注和好评。
在这部电影中,情感分析是一个重要的研究方向。
通过对影评数据的挖掘和分析,可以了解观众对这部电影的情感态度,为电影的传播和推广提供有力支持。
本文将以《我和我的祖国》为例探讨基于文本挖掘的影评数据情感分析方法及其在电影评论中的应用。
2. 目的和意义:通过对《我和我的祖国》的文本数据进行情感分析,探讨电影的情感表达方式以及观众对电影的情感反应随着互联网的普及和社交媒体的发展,大量的文本数据被产生和传播。
这些文本数据中蕴含着丰富的信息,如情感、观点、态度等。
文本情感分析_赵妍妍
ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.21, No.8, August 2010, pp.1834−1848 doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563© by Institute of Software, the Chinese Academy of Sciences. All rights reserved.∗文本情感分析赵妍妍+, 秦兵, 刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨 150001)Sentiment AnalysisZHAO Yan-Yan+, QIN Bing, LIU Ting(Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: E-mail: yyzhao@Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834−1848. /1000-9825/3832.htmAbstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentimentanalysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentimentretrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, theapplications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstreammethods and recent progress in this field, making detailed comparison and analysis.Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval andsummarization; evaluation; corpus摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如博客和论坛)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息.情感分析(sentiment analysis)技术应∗Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (国家自然科学基金); theNational High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (国家高技术研究发展计划(863))Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11赵妍妍等:文本情感分析1835运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析[1],如,“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次[2].按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”,表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1 Research framework of sentiment analysis图1 情感分析的研究框架情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图1所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调检索和归纳两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值[3−5].鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的3个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况;然后介绍情感分析的几个重要应用点;最后,展望情感分析技术的发展趋势.1 情感信息抽取情感信息抽取旨在抽取情感文本中有价值的情感信息,它可以看作情感分析的基础任务.一直以来,学术界对它兴趣不减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如GPS、1836 Journal of Software软件学报 V ol.21, No.8, August 2010屏幕分辨率)、观点持有者(如国家政府、台湾当局)等.在对大量的情感文本进行分析之后,不少研究者发现,某些组合搭配对于情感分析的上层任务如情感信息分类以及情感信息的检索与归纳有更直接的帮助,如评价搭配(评价对象和评价词语的搭配,如屏幕分辨率-高)、评价短语(程度副词及其修饰的评价词语的搭配,如不怎么-好)等.下面本文将一一介绍目前情感信息抽取的具体任务及其主要实现技术.1.1 评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语.显然,评价词语在情感文本中处于举足轻重的地位,评价词语的识别和极性判断在情感分析领域创建伊始就引起了人们极大的兴致.基于前人大量的研究工作,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[6].基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.早期的一些学者发现,由连词(如and或but)连接的两个形容词的极性往往存在一定的关联性,如and连接的形容词(如lovely and beautiful)极性相同,然而but连接的形容词(如lovely but unnatural)极性相反.基于这种现象,Hatzivassiloglou和McKeown[1]从大语料库华尔街日报(Wall Street Journal)中发掘出大量的形容词性的评价词语.Wiebe等人[7]沿袭了较为相似的工作,他们使用了一种相似度分布的词聚类方法在大语料库上完成了形容词性的评价词语的获取.然而,以上的两种方法仅将评价词语的词性局限于形容词词性,却忽略了其他词性的评价词语.为了避免评价词语词性的限制,Riloff等人[8]手工制定一些模板并选取种子评价词语,使用迭代的方法获取了名词词性的评价词语.随后,Turney和Littman[9]提出了点互信息(point mutual information)的方法判别某个词语是否是评价词语.这种方法适用于各种词性的评价词语的识别,但是较为依赖种子褒/贬词语集合.鉴于此,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.很自然地,有学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词语[10−12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13−16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语.然而,并非所有语种的情感资源都像英文一样丰富,对于某些词典资源非常稀缺的语种,有学者将词典资源丰富的语种的情感词典翻译到资源较少的语种中[18],如将英文的情感词典翻译成中文,供中文情感分析应用.但是实验显示,不少评价词语在经过翻译之后极性发生了改变.这也印证了Wiebe在文献[19]中所指出的“词语的词义和其极性有一定的关系,但是相同的词义并不一定有相同的极性”.鉴于此,基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑得好快啊!”).此外,还有一部分学者采用基于图的方法来识别评价词语的极性[6,20].具体来说,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(propagation algorithm)来完成词语的分类.如,有学者考察图中两个词语的注释信息而构建图[20],继而使用Spin模型对图中的点迭代地进行概率计算,得出每个词语的极性.还有一些学者尝试使用多种图模型[6],如最小切分模型(mincuts)、随机最小切分模型(randomized mincuts)、标签迭代模型(label propagation)等完成评价词语的褒贬分类.实验证实了基于图的方法的有效性.基于图的方法是一种新颖的方法,它可以灵活地将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更为有效的词语间特征以及如何选取图算法是值得深入研究的问题.1.2 评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等.现有的研究大部分集中于产品领域的评价对象赵妍妍等:文本情感分析1837的抽取,他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别.一部分学者使用基于规则/模板的方法抽取评价对象.规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等.相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式.Yi[21]使用3条限制等级逐渐递进的词性规则从候选评价对象中抽取出真正的评价对象.还有的学者[22,23]使用关联规则挖掘的方法或是基于句法分析的结果[24]找出频繁出现的候选评价对象,继而使用两种剪枝方法去除错误样例.然而,这些方法仅能找出频繁的评价对象.为了发掘出非频繁的评价对象,有学者尝试使用含有评价词语和评价对象槽(slot)的词序列模板[22].此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板;而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.有学者[25]从另一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖”是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词“scanner has”)之间的关联度来获取真正的评价对象.实验结果表明,这种方法取得了较好的实验效果,超过了基于规则/模板的方法,但难点在于领域指示词的获取.近年来,随着话题模型(topic model)[26,27]的逐渐兴起,很多学者将其应用到情感分析领域.由于评价对象是蕴涵于情感文本中的某些话题,因此可以使用话题模型来评价对象的识别.有学者[28]采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类.这种方法理论上能够提高评价对象抽取的召回率.但遗憾的是,还没有实验将这种方法与上述传统的基于名词短语的方法进行对比.此外,还有一部分学者从事新闻评论文本中的话题评价对象的抽取[29,30].如,对于情感句“所有人都认为政府应该加强改善医疗卫生条件”,抽取话题评价对象“政府应该加强改善医疗卫生条件”.1.3 观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”.很自然地,人们会想到评论中的观点持有者一般是由命名实体(如人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者[31].此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取[29].但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取.如Choi将其看作一个序列标注问题[32],并使用CRF(conditional random field)模型融合各种特征来完成观点持有者的抽取.相似地,Kim[11]将所有名词短语都视为候选观点持有者,使用ME(maximum entropy)模型来进行计算.以上的方法将观点持有者的抽取当作一个独立的任务.通过观察许多研究者发现,观点持有者一般是与观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决.Bethard[33]在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.由于产品评论中一般默认观点持有者是用户本身,因此鲜有研究者在产品评论领域研究这一任务.1.4 组合评价单元的抽取评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下3个句子中的使用:• Sen 1:凯越的油耗真高.• Sen 2:捷达的性价比相当高.• Sen 3:这辆车有1米多高.Sen 1和Sen 2是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如,“高”在Sen 1中表示贬义,而在Sen 2中则表示褒义.此外,评价词语往往也会出现在非情感句中,如Sen 3.因此,仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现,有些包含评价词语的“组合评价单元”(如组合“油1838 Journal of Software软件学报 V ol.21, No.8, August 2010耗-高”、“相当-高”)对于处理情感分析的上层任务更有帮助.下面将具体来介绍各种形式的组合评价单元.1.4.1 主观表达式的抽取主观表达式(subjective clues)是指表示情感文本单元主观性的词语或词组.第1.1节的评价词语是主观表达式的一部分.此外,某些词语的组合(如village idiot或get out of here)也能很明显地标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语.如何获取这些有意义的词组是主观表达式抽取的重点.Wiebe和Wilson是这项任务的引领者[34].近几年来,他们挖掘大量的主观表达式形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类.具体来说,他们首先从语料中抽取出所有的n元词语/词组(1≤n≤4)作为候选主观表达式;继而通过对比训练语料中的标准的主观表达式,为每个候选主观表达式计算出可能成为主观表达式的概率;最后通过对概率值的分析,获得这些主观表达式.Wiebe和Wilson[35]在随后的工作中又引入了“主观表达式密度”协助判断主观表达式.2004年,Wiebe和Wilson将他们前期的工作进行了总结[36],从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式.此外,他们首次利用句法分析的结果发掘了句法主观表达式[37].随后,Wiebe和Wilson采用多种特征及机器学习方法对他们获取的大量的主观表达式的情感程度(strong或weak)进行了识别.1.4.2 评价短语的抽取评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元.有学者采用基于一些情感词典的方法识别这种评价短语.如Whitelaw[38]结合WordNet使用半自动的方法构建了形容词性的评价词词典以及修饰词词典.对于一个含有评价词语的情感文本,该方法首先查看评价词前面的词语,如果属于修饰词词典,获取这个词组作为评价短语.根据两个词典中的属性值计算出情感极性.这种方法由于基于较为细致的词典,因此准确率较高,然而,由于词典中词语有限而限制了召回率.还有学者使用依存句法结构(如ADV,ATT以及DE结构),在句法树上获取评价短语[23].这种方法巧妙地利用了评价短语中所含词语之间的句法修饰关系,但是较为依赖句法分析的结果.评价短语考察的是连续出现的词组,然而有些表示修饰关系的词语并非总是和评价词语连续出现.如在情感句“[I did [not]− have any [doubt]− about it.]+”中,修饰词not和评价词doubt并非连续出现,但它们共同决定了情感句的最终极性.Moilanen等人[39]和Choi等人[40]将其定义为“组合语义单元(compositional semantics)”,具体表现为一组非连续的词语,通过相互作用来表达出某种情感极性.组合语义单元可以看作一种更为复杂的评价短语,大多使用人工总结或半自动生成的模板来识别.1.4.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对〈评价对象,评价词语〉,如情感句“凯越的油耗很高”中的“油耗-高”.前面所介绍的“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而情感句中出现的某些“主观表达式”和“评价短语”并非真正地表现出情感极性.如情感句s1“车跑得好快啊”中的词语“好”并不存在情感极性,需要过滤掉.此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定.“评价搭配”则可以很好地解决上述两点问题.针对评价搭配的抽取任务,大部分学者采用了基于模板的获取方法.Kobayashi等人[41]考察评价对象和评价词语之间的修饰关系,并用8个共现模板来描述.然而,由于模板过于简单且修饰关系仅仅停留在词表面,该方法产生了大量的噪声.为了深入挖掘评价对象和评价词语之间的修饰关系,一部分学者尝试使用句法关系模板. Bloom等人[42]利用Stanford Parser手工构建了31条句法规则.此外,Popescu等人[25]利用MINIPAR Parser手工构建了10条依存句法抽取模板来获取评价搭配.姚天昉等人[43]基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则;后续总结出SBV(subjective-verb)极性传递规则,用于评价搭配的识别.可以看出,他们的工作融入了更多对评价对象和评价词语之间深层关系的挖掘.然而,由于匹配规则或模板的制定存在过多的人工参与,覆盖率较低.因此在未来的工作中,我们应该侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略.赵妍妍等:文本情感分析18392 情感信息分类情感信息的分类任务可大致分为两种:一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类[44].2.1 主客观信息分类在对情感文本进行情感分析时,往往由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量[45],因此将情感文本中的主观信息和客观信息进行分离变得非常必要.由于情感文本单元表现格式比较自由,且区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度.一部分学者通过考察文本内部是否含有情感知识(具体表现为第1节情感信息抽取的结果)来完成主客观信息分类[10,46].然而我们发现,许多客观句中也可能会包含评价词语,如客观句“这位英雄名叫张三丰”同样含有评价词语“英雄”.为了在更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元,如第 1.4节中提到的“主观表达式”、“评价短语”和“评价搭配”等组合信息.此外,还有学者[8]构建情感模板识别情感文本的主客观性(如贬义模板“〈x〉 drives 〈y〉 up the wall”).以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘以及各种情感知识融合的方法研究.还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.具体来说,Hatzivassiloglou[47]使用了词语作为特征,并采用了NB(Naïve Bayes)分类器完成篇章级情感文本的主客观分类.Yao[48]着重从一些特殊的特征角度考察了主客观文本,如标点符号角度、人称代词角度、数字角度等.Pang[49]则采用基于图的分类算法完成句子级的主客观分类.基于特征分类的方法目前还是主客观信息分类的主流方法.这种方法定义明确,其根本问题在于特征的选取.因此,尝试使用更深层、更复杂的分类特征也许是这类方法的突破方向之所在. 2.2 主观信息情感分类主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等.其中,第1节已经对词语级和短语级的情感分类方法进行了总结,因此本节将着重介绍句子级和篇章级的主观信息情感分类方法.一般而言,研究者将主观本文的极性分为褒义和贬义两类(thumbs up? thumbs down?).纵观目前的研究工作,与主客观信息分类类似,可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法.相似地,前者主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性.后者主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务.这两种研究思路有很多代表性的研究工作.文献[10,47,50,51]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和.这种方法的重点一般都放在评价词语或组合评价单元的抽取和极性判断方法的研究上.在基于特征分类的方法中,Pang[52]首次将机器学习的方法应用于篇章级的情感分类任务中.他们尝试使用了n-gram词语特征和词性特征,并对比了NB,ME和SVM(support vector machine)这3种分类模型,发现unigram特征效果最好.然而,Cui[53]通过实验证明,当训练语料较少时,unigram的效果较优;但随着训练语料的增多,n-gram (n>3)发挥了越来越重要的作用.Kim[54]除了考察传统的n-gram模型之外,还引入了位置特征和评价词特征来完成句子级的褒贬分类.Zhao[55]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合.类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现以及特征选择和特征融合等问题的研究.除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务.Pang[56]将褒贬等级分为3类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类.Goldberg[57]则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括4个等级的分类.2.3 观点分类与挖掘情感分类还可以体现在对某些事件的观点分类上.Lin等人[58]主要使用3种分类模型识别有关“巴以冲突”。
情感倾向性分析调研
意见挖掘研究的目的目前,互联网上的信息与日剧增,蕴藏着巨大的信息量。
但是,要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。
例如,对产品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要作出是否购买某个产品的决定。
如果采用人工方式对这浩如烟海的信息进行查询、统计,显然是低效和不切合实际的。
面对这样的现实问题,意见挖掘技术应运而生。
一方面,它基于数据挖掘(Data Mining) 和文本挖掘( Text Mining) 技术,另一方面,它又具有相当的文本理解( Text U nderstanding) 的能力。
所以,它是比文本挖掘技术更接近人工智能目标的一种新技术。
它与以往的信息抽取( Information Extrac2tion) 、文本分类( Text Classification) 和文本摘要( Text Summarization) 技术不同。
虽然信息抽取和意见挖掘都需要深层的语义理解,但信息抽取主要是获取具体的语言表达结构,如命名实体、命名实体关系、事件等,这些成分一般为显式表达结构;而意见挖掘是挖掘意见的元素和它们之间的关系,即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形式多样,而且常常不是显式地、独立地表达。
文本分类是在预定的用户需求下把文本进行分类,并没有涉及到深层次的语义理解。
文本摘要是用简练的语言表达长篇文本的中心思想,但文本中对事物的具体看法和评价则没有被清晰地提取出来。
实际上,意见挖掘技术弥补了上述这些技术的不足,是更具有应用价值的一种新技术。
意见挖掘涉及各个语言分析层面,不但涉及到词汇层(如分词和词性标注) 、句法层(如命名实体识别和语法分析) 和语义层(如语义分析) ,还涉及到篇章层(如跨句的指代消解) 。
意见挖掘与一些语言技术有关,例如,信息检索、文本分类、信息抽取、自动摘要、数据融合、问答系统、自然语言生成、对话系统、机器翻译等。
情感体验——让语文课堂涌动无限真情赵剑红
情感体验——让语文课堂涌动无限真情赵剑红发布时间:2021-07-23T14:46:46.787Z 来源:《教学与研究》2021年6月上作者:赵剑红[导读] 在语文教学中,只有学生的心弦被拨动,学生的心被抓住,才能让学生沉浸在文本的情感氛围中,使学生情感得到体验、激发和培养,使语文课堂在学生的情感体验中焕发生命的动感。
浙江省台州市温岭市大溪镇方山小学赵剑红摘要:“学生有丰富的积累,有独立阅读能力,注重情感体验,有良好的语感”。
这是《语文课程标准》提出的要求。
所以,在语文教学中,只有学生的心弦被拨动,学生的心被抓住,才能让学生沉浸在文本的情感氛围中,使学生情感得到体验、激发和培养,使语文课堂在学生的情感体验中焕发生命的动感。
关键词:语文课堂情感体验正文:“学生有丰富的积累,有独立阅读能力,注重情感体验,有良好的语感”。
这是《语文课程标准》提出的要求。
在小学语文阅读课堂教学中学生、文本、老师能彼此互相沟通,产生共鸣,学生的心弦被拨动,学生的心灵被抓住,学生的情感被激发,学生的语文素养才能真正产生。
小学语文课本中所选的文质兼美的课文,给小学生展示了丰富多彩的情感内容,为老师们进行情感教育提供了优越的条件。
所以,教师在语文阅读课堂中带领学生沉浸在文本的情感气氛中,让学生情感得到体验、激发和培养,使语文课堂在学生的情感体验中感悟文本所蕴涵的情感,焕发生命的动感。
一、创设情境,唤醒情感体验创设情境非常重要。
人的情感总是在一定的情境中产生的。
我教学《陶罐和铁罐》一文时,为了把真切的教学情境再现在学生面前,让2个学生分别扮演陶罐和铁罐两个角色,学生通过氛围的渲染,体会文本情感,轻松轻松地掌握知识。
“你敢碰我吗?陶罐子!”铁罐傲慢地问。
“不敢,铁罐兄弟。
”陶罐谦虚地回答。
? “我就知道你不敢,懦弱的东西!”铁罐带着更加轻蔑的神气。
我让学生根据提示语,首先自由朗读课文中的对话,再结合表情和动作表达出铁罐的“轻视”和“骄傲”的语气和神态,然后教读得不够好的学生如何读。
初中语文现代文阅读中的情感态度分析技巧
初中语文现代文阅读中的情感态度分析技巧在初中语文学习中,现代文阅读是一个重要的板块,而其中对作者情感态度的分析更是理解文章的关键所在。
掌握有效的分析技巧,能够帮助我们更深入地领略文章的内涵,与作者产生共鸣。
首先,我们要学会从文章的标题入手。
标题往往是文章的“眼睛”,能在一定程度上透露作者的情感倾向。
比如,一个充满温情的标题,如《温暖的旅程》,可能预示着文章会围绕着温馨、感人的经历展开,作者的情感态度也会倾向于积极和赞美。
相反,如果标题带有一些消极的词汇,如《失落的青春》,那么文章很可能会表达作者的遗憾、伤感等情绪。
其次,留意文章中的关键词和关键语句。
这些词句就像是文章情感的“密码”,一旦解开,就能洞悉作者的内心世界。
比如,表达喜悦的词有“欢快”“欣喜”“兴高采烈”;表达悲伤的词有“哀愁”“悲痛”“黯然神伤”。
关键语句方面,那些直接抒发情感的句子,如“我心中充满了无尽的喜悦”,能让我们直观地感受到作者的心情。
还有一些通过景物描写来烘托情感的语句,“阴霾的天空,压得人喘不过气来”,往往暗示着作者沉重、压抑的情感。
再者,关注文章的写作背景和作者的生平经历也是很重要的。
了解作者所处的时代背景、社会环境以及个人遭遇,能帮助我们更好地理解他们在文章中所表达的情感。
例如,鲁迅先生生活在动荡的年代,他的作品常常反映出对社会黑暗面的批判和对人民苦难的同情。
如果我们对他的经历有所了解,再去读他的文章,就能更深刻地体会到他文字背后的愤怒和忧思。
另外,文章的体裁也会影响情感的表达。
记叙文通常通过叙述事件来展现作者的情感变化;议论文则会在论证过程中表达作者对某个观点的支持或反对,从而反映出一定的情感倾向;而散文则更加自由地抒发作者内心的感受。
在分析情感态度时,我们还要注意文章的结构。
比如,在开头部分,作者可能会通过设置悬念或者营造氛围来引出下文的情感;在结尾部分,往往会对全文的情感进行总结和升华。
对于描写人物的文章,我们可以从人物的语言、动作、神态、心理等描写中去揣摩作者的情感。
走进文本,走进文学世界——初中语文文本研读策略
走进文本,走进文学世界——初中语文文本研读策略发表时间:2020-11-05T14:08:28.757Z 来源:《中小学教育》2020年8月第22期作者:栾思雨[导读] “人文精神”、“语文素养”一直是新课改下语文教学的重点和中心栾思雨辽宁省朝阳市朝阳县东大屯乡初级中学辽宁省朝阳市 122000摘要:“人文精神”、“语文素养”一直是新课改下语文教学的重点和中心,部编版教材的改编也是紧扣这两条线,因此教师一定要在语文教学中有效地渗透这两部分内容。
那么如何有效地贯彻“人文精神”与“语文素养”呢?文本研读则是重要的途径和方式。
文章基于此点,对初中语文文本研读的教学策略进行探究。
关键词:初中语文文本研读策略研究只有抓住了文本,才能抓住一部文学作品的灵魂,才能真正走进作者的内心世界,和他们产生情感上的共鸣。
只有这样,才能实现学生对人文精神的领悟以及语文素养的培育。
所以教师一定要引导学生真正走进文本,认真阅读,用心去体会和感知,这样才能正确理解作品所要阐释的情感理念,才能让学生获得精神上的食粮,实现自身的全面发展。
一、初读感知,走进文本初中语文的文学作品篇目较多,内容也很长,所以教师一定要重视学生对文本的初读感受,不能想当然地让学生按照自己的喜好去阅读,而是要布置一定的阅读任务,要让他们在读完了文章之后,能够对文章有一个大致的感受,能够获得对文本内容的初步感知,为后续的深入理解奠定坚实的基础。
以人教版初中语文课本教材为例,教师在教学《济南的冬天》时,在学生阅读之前,就要对课文题目、作者以及作者创作的背景进行详细的讲解,让学生能够获得对文本内容的初步感知。
接着教师再布置一系列的阅读任务,首先要结合时代背景以及作者的生平去阅读文章;其次要借助字典或者工具书,做到流利、顺畅地阅读文本;最后,要结合上下文内容,对文章中出现的一些生字词有一个初步的理解。
比如“响晴”、“慈善”、“秀气”等词汇,这些词汇在特定的文章中有特定的含义,需要学生结合文章大意,初步判断这些词语的意思。
HITIRSYS情感分析系统
句子 文本
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
句子 极性
9
主干分析
主干成分
句子中可以强调、概括和汇总整个句子语义的 成分
领域
句子内容
汽车领域
(1)这款车的离合匹配感觉有些不习惯, (2)但是稳定还是非常不错的
10
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
有指导的方法
训练数据 特征提取 分类器的选取
12
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
自动获取训练数据
京东评论数据
数据格式
自动获取策略
4分、5分评论 优点 => 褒义句 1分、2分评论 缺点 => 贬义句 50000褒义句、50000贬义句
5 分表示强烈褒义,1 分表示强烈贬义
两方面影响因素
篇章文本的词语或短语
“非常好” “非常满意” 、“太差了”
篇章的褒义句比例
90%的句子是褒义句
18
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
总体流程
评论 文本
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
假设
上下文相似的词语具有相似的情感极性
步骤
N
候选情感词获取
构建大规模图结构
图传播算法
P
6
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
大纲
词典资源构建 句子级倾向性分析(任务一) 篇章级倾向性打分(任务三) 结论
7
哈哈工工大大社社会会计计算算与与信信息息检检索索研研究究中中心心
评价对象抽取及其倾向性分析_刘鸿宇
第24卷 第1期2010年1月中文信息学报J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN GVol.24,No.1J an.,2010文章编号:100320077(2010)0120084205评价对象抽取及其倾向性分析刘鸿宇,赵妍妍,秦兵,刘挺(哈尔滨工业大学计算机学院信息检索研究室,黑龙江哈尔滨150001)摘 要:情感分析近年来已经成为自然语言处理领域的热点问题,该文对情感分析中的两项关键技术———评价对象抽取和倾向性判断进行了深入研究。
在评价对象抽取阶段,首先使用句法分析结果获取候选评价对象,继而结合基于网络挖掘的PMI 算法和名词剪枝算法对候选评价对象进行筛选。
在倾向性判断阶段,通过分析情感句句型,归纳相应的分析规则,使用无指导的方法完成评价对象在情感句中的倾向性判断。
该系统参加了COA E2008任务三的评测,取得了较好成绩。
关键词:计算机应用;中文信息处理;情感分析;评价对象;倾向性判断;句法分析中图分类号:TP391 文献标识码:AComment T arget Extraction and Sentiment Classif icationL IU Hongyu ,ZHAO Yanyan ,QIN Bing ,L IU Ting(Information Retrieval Laboratory ,School of Computer Science and Technology ,Harbin Institute of Technology ,Harbin ,Heilongjiang 150001,China )Abstract :The research on sentiment analysis is a hot issue in natural language processing.This paper makes an intensive study of the two stages of sentiment analysis :the comment target extraction and the corresponding sentiment classification.For the first task ,we use the syntactic analysis to obtain the candidats ,and then combine PMI based on web mining and NN filtering algorithm to decide the targets.For the second task ,we design certain heuristic rules by analyzing subjective sentences ,and then apply these rules to predict the orientation of opinion in the sentences.This method performs well in Task Three of the COA E2008i.K ey w ords :computer application ;Chinese information processing ;sentiment classification ;target ;orientation judgment ;syntactic analysis收稿日期:2009205226 定稿日期:2009211206基金项目:国家自然科学基金资助项目(60675034);863计划探索类专题资助项目(2008AA01Z144);国家自然科学青年基金资助项目(60803093)作者简介:刘鸿宇(1986—),男,硕士生,主要研究方向为情感分析;赵妍妍(1983—),女,博士生,主要研究方向为情感分析;秦兵(1968—),女,教授,主要研究方向为信息抽取,多文档文摘。
初中语文教学大纲二教你用情感分析体验文本的魅力
初中语文教学大纲二教你用情感分析体验文本的魅力文本是语文教学中的重要内容之一。
在学习文本的过程中,很多学生难免会感到枯燥乏味,甚至乏味到想哭的地步。
但是,从另一个角度来看,文本也是充满了情感的。
如果我们能够用情感分析的方法来体验文本,那么一定会发现文本的魅力所在。
我们需要了解什么是情感分析。
情感分析是一种计算机科学的研究领域,旨在识别、提取和量化人类情感。
情感分析可以帮助我们了解文本中的情感、态度和观点。
基于情感分析的技术,我们可以更深入地挖掘文本内在的情感和信息。
在学习文本的过程中,我们可以利用情感分析技术来体验文本的情感。
比如,在阅读一篇散文时,我们可以利用情感分析工具来分析作者的情感和意图,这样可以更加深入地理解文章的内涵和主旨。
又比如,在学习一篇古诗时,我们可以利用情感分析技术来分析诗人的情感和思想,这样可以更好地领略诗歌的韵味与意境。
不仅如此,情感分析还可以帮助我们准确地理解文章的情感倾向。
在读一篇文章时,往往会受到自身情感的影响,导致理解失误。
而利用情感分析技术,我们可以抛开自身情感,更加客观地分析文章的情感倾向,从而更加准确地理解文章的含义。
但是,情感分析也存在着一定的局限性。
情感分析主要是基于词汇分析和统计分析的方法,对于语言中的隐喻、转义、反讽等语言手法并不能很好地分析。
而这些语言手法却恰恰是文学作品中所重要的语言元素之一。
因此,在使用情感分析技术时,也需要注意到这些局限性。
情感分析是一种有用的技术,可以帮助我们更加深入地挖掘文本的内涵和情感。
但是,在使用情感分析技术时,也需要注意到它的局限性。
最重要的是,我们应该尽力发掘文本的情感和内涵,从而体验文本的魅力。
只有这样,我们才能真正理解和欣赏文本的意义,充分发挥文本在语文教育中的作用。
基于集成学习理论的文本情感分类
三种常用的集成学习方法 B g ig o sn agn 、B ot g和 R n o Sb pc i ad m u sae对基础分类器的分类精度都有提高,并且在 不 同的基 础分类 器条件下 ,R n o u sae方法较 B g ig B ot g方法在 统计意义上更优,以上结果进一 步 a d m S bp c agn 和 o s n i
两个文件夹下 。
表 1 不 同方法在 Mo iR ve s v ei 数据集 e w 上 的分类精度
NB Ba eL a n r s e re D1 KNN s M v
8 .6 11 % 6 .5 5 5 % 5 .5 59 % 7 . % 9 21
Ba g n g ig
21 年 第 2 02 1卷 第 7 期
ht:w w. S .r. t / w c - ogc p/ -a n
计 算 机 系 统 应 用
基于集成学习理论 的文本情感分类①
方 丁 , 王 刚 ,
’ ( 上海机场集 团有 限公司,上海 20 3 ) 0 3 5 ( 合肥工业 大学 管理学院 ,合肥 2 0 0 ) 3 0 9 ( 过程优化与智 能决策教育部重 点实验室 ,合肥 2 0 0 ) 3 09
K e r s tx e tm e tca sfc t ; n e bel an n ; a ig; o si g r n o u p c y wo d : e ts n i n l si a i i on e s m l e r i g b gg n b o tn ; a d m s bs a e
定义如下 :
试析《孟子》之“情”字
试析《孟子》之“情”字
赵妍妍
【期刊名称】《莆田学院学报》
【年(卷),期】2013(20)6
【摘要】分析《孟子·告子章句上》章六之“情”字含义,比较了历代各家对这一“情”字的以下三种理解:1)作“情感”解;2)作“实”解;3)作“性”解.重点围绕三个问题展开讨论,最后指出,相较于“情”作“情感”解,“情”作“实”解和作“性”解更为合理.
【总页数】6页(P17-22)
【作者】赵妍妍
【作者单位】福建省社会科学院哲学研究所,福建福州350001
【正文语种】中文
【中图分类】B222.52
【相关文献】
1.一字一词关乎情——辨析《孟子》《史记》中的几个词义 [J], 钱兴地
2.试析孟子的性、才、情、心、智五概念 [J], 张大伟
3.《孟子》“乃若其情”章“情”字释义与发微 [J], 郑济洲
4.《孟子》中\"天\"字涵义辨析\r——兼论\"天\"在孟子哲学中的地位 [J], 张玉杰
5.道德动机视野中孟子的“情理架构”——从汉学家论辩出发为孟子“情”论辩护[J], 刘悦笛
因版权原因,仅展示原文概要,查看原文内容请购买。
在人物情感挖掘中实现文本解读
在人物情感挖掘中实现文本解读
孟泉泉
【期刊名称】《中学语文》
【年(卷),期】2024()17
【摘要】对小说人物情感进行深度挖掘,有利于实现对文本的深度解读,感知小说的文学性和艺术性。
从高中小说阅读教学的角度出发,探讨教师如何引导学生在人物情感中实现文本解读,以提升高中小说阅读教学的效果。
【总页数】3页(P53-55)
【作者】孟泉泉
【作者单位】安徽宿州市砀山中学
【正文语种】中文
【中图分类】G63
【相关文献】
1.紧扣文本“找”情感把握情感“析”手法——诗歌文本的解读方法
2.挖掘文本的"深层结构",构建解读的"深度模式"——以《鸿门宴》的人物分析为例
3.挖掘语文文本中的真善美——从《我的叔叔于勒》文本解读说起
4.把握·挖掘·解读——阅读教学中的有效文本解读方法
5.挖掘英语文本中的情感线索促进学生的情感提升
因版权原因,仅展示原文概要,查看原文内容请购买。
情感对话技术综述
情感对话技术综述
赵妍妍;陆鑫;赵伟翔;田一间;秦兵
【期刊名称】《软件学报》
【年(卷),期】2024(35)3
【摘要】情感对话技术着眼于对话机器人的“情商”,旨在让对话机器人具有像人类一样观察、理解和表达情感的能力.这项技术可以看作是情感计算和对话技术的交叉,兼顾对话机器人的“智商”和“情商”,从而实现对用户的精神陪伴、情感慰藉和心理疏导.结合对话中情感的特点,对情感对话技术进行全面解析:1)规划对话场景下的情感识别、情感管理、情感表达等3个重要的技术点,并拓展多模态场景下的情感对话技术.2)介绍情感对话4项关键技术的最新研究进展,并总结这些技术面临的主要挑战和可能解决方案.3)介绍情感对话技术的数据资源.4)分析情感对话技术的难点,展望其未来发展方向与前景.
【总页数】26页(P1377-1402)
【作者】赵妍妍;陆鑫;赵伟翔;田一间;秦兵
【作者单位】哈尔滨工业大学计算学部
【正文语种】中文
【中图分类】TP18
【相关文献】
1.与文本对话促情感共鸣——信息技术支持下的对话与共鸣
2.情感型对话机器人技术的研究综述
3.基于深度学习的情感对话响应综述
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.21, No.8, August 2010, pp.1834−1848 doi: 10.3724/SP.J.1001.2010.03832 Tel/Fax: +86-10-62562563© by Institute of Software, the Chinese Academy of Sciences. All rights reserved.∗文本情感分析赵妍妍+, 秦兵, 刘挺(哈尔滨工业大学计算机科学与技术学院信息检索研究中心,黑龙江哈尔滨 150001)Sentiment AnalysisZHAO Yan-Yan+, QIN Bing, LIU Ting(Center for Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)+ Corresponding author: E-mail: yyzhao@Zhao YY, Qin B, Liu T. Sentiment analysis. Journal of Software, 2010,21(8):1834−1848. /1000-9825/3832.htmAbstract: This paper surveys the state of the art of sentiment analysis. First, three important tasks of sentimentanalysis are summarized and analyzed in detail, including sentiment extraction, sentiment classification, sentimentretrieval and summarization. Then, the evaluation and corpus for sentiment analysis are introduced. Finally, theapplications of sentiment analysis are concluded. This paper aims to take a deep insight into the mainstreammethods and recent progress in this field, making detailed comparison and analysis.Key words: sentiment analysis; sentiment extraction; sentiment classification; sentiment retrieval andsummarization; evaluation; corpus摘要: 对文本情感分析的研究现状与进展进行了总结.首先将文本情感分析归纳为3项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳,并对它们进行了细致的介绍和分析;进而介绍了文本情感分析的国内外评测和资源建设情况;最后介绍了文本情感分析的应用.重在对文本情感分析研究的主流方法和前沿进展进行概括、比较和分析.关键词: 文本情感分析;情感信息抽取;情感信息分类;情感信息的检索与归纳;评测;资源建设中图法分类号: TP391文献标识码: A随着Web2.0的蓬勃发展,互联网逐渐倡导“以用户为中心,用户参与”的开放式构架理念.互联网用户由单纯的“读”网页,开始向“写”网页、“共同建设”互联网发展,并由被动地接收互联网信息向主动创造互联网信息迈进.因此,互联网(如博客和论坛)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息.这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等.基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法.由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息.情感分析(sentiment analysis)技术应∗Supported by the National Natural Science Foundation of China under Grant Nos.60803093, 60975055 (国家自然科学基金); theNational High-Tech Research and Development Plan of China under Grant No.2008AA01Z144 (国家高技术研究发展计划(863))Received 2009-08-14; Revised 2009-12-25; Accepted 2010-03-11赵妍妍等:文本情感分析1835运而生(本文中提及的情感分析,都是指文本情感分析).文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程.最初的情感分析源自前人对带有情感色彩的词语的分析[1],如,“美好”是带有褒义色彩的词语,而“丑陋”是带有贬义色彩的词语.随着互联网上大量的带有情感色彩的主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究.基于此,按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次[2].按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析.其中,前者处理的文本主要是新闻评论,如情感句“他坚定地认为台湾是中国不可分割的一部分”,表明了观点持有者“他”对于事件“台湾归属问题”的立场;后者处理的主要是网络在线的产品评论文本,如“Polo的外观很时尚”,表明了对评价对象“Polo的外观”的评价“时尚”是褒义的.由于基于产品评论的情感分析可以帮助用户了解某一产品在大众心目中的口碑,因此受到很多消费者和商业网站的青睐.而基于新闻评论的情感分析多用于舆情监控和信息预测中,是国内外评测中重要的评测任务.情感分析涉及多项非常有挑战性的研究任务.本文综合已有的研究成果,将情感分析归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳,如图1所示.Fig.1 Research framework of sentiment analysis图1 情感分析的研究框架情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务.如将情感句“我觉得Canon的相片质量不错”转化为如图1所示的结构化文本形式.情感信息分类则利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如喜、怒、哀、乐等).按照不同的分类目的,可分为主客观分析和褒贬分析;按照不同的分类粒度,可分为词语级、短语级、篇章级等多种情感分类任务.这些分类任务在情感分析初期吸引了大量的研究者.最高层的情感信息的检索与归纳可以看作与用户直接交互的接口,着重强调检索和归纳两项应用.该层次的研究主要在前两项任务即情感信息抽取和分类的结果的基础上进行进一步的加工处理.情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值[3−5].鉴于此,该研究课题受到国内外越来越多的研究机构的重视.本文在接下来的部分首先分别详细阐述情感分析的3个主要研究任务,重点针对各任务的主流方法和前沿进展进行对比分析;接着介绍国内外主流的评测会议以及现有的资源建设情况;然后介绍情感分析的几个重要应用点;最后,展望情感分析技术的发展趋势.1 情感信息抽取情感信息抽取旨在抽取情感文本中有价值的情感信息,它可以看作情感分析的基础任务.一直以来,学术界对它兴趣不减.纵观目前的研究现状,有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如GPS、1836 Journal of Software软件学报 V ol.21, No.8, August 2010屏幕分辨率)、观点持有者(如国家政府、台湾当局)等.在对大量的情感文本进行分析之后,不少研究者发现,某些组合搭配对于情感分析的上层任务如情感信息分类以及情感信息的检索与归纳有更直接的帮助,如评价搭配(评价对象和评价词语的搭配,如屏幕分辨率-高)、评价短语(程度副词及其修饰的评价词语的搭配,如不怎么-好)等.下面本文将一一介绍目前情感信息抽取的具体任务及其主要实现技术.1.1 评价词语的抽取和判别评价词语又称极性词、情感词,特指带有情感倾向性的词语.显然,评价词语在情感文本中处于举足轻重的地位,评价词语的识别和极性判断在情感分析领域创建伊始就引起了人们极大的兴致.基于前人大量的研究工作,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法[6].基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性.早期的一些学者发现,由连词(如and或but)连接的两个形容词的极性往往存在一定的关联性,如and连接的形容词(如lovely and beautiful)极性相同,然而but连接的形容词(如lovely but unnatural)极性相反.基于这种现象,Hatzivassiloglou和McKeown[1]从大语料库华尔街日报(Wall Street Journal)中发掘出大量的形容词性的评价词语.Wiebe等人[7]沿袭了较为相似的工作,他们使用了一种相似度分布的词聚类方法在大语料库上完成了形容词性的评价词语的获取.然而,以上的两种方法仅将评价词语的词性局限于形容词词性,却忽略了其他词性的评价词语.为了避免评价词语词性的限制,Riloff等人[8]手工制定一些模板并选取种子评价词语,使用迭代的方法获取了名词词性的评价词语.随后,Turney和Littman[9]提出了点互信息(point mutual information)的方法判别某个词语是否是评价词语.这种方法适用于各种词性的评价词语的识别,但是较为依赖种子褒/贬词语集合.鉴于此,基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳.基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语.这里的词典一般是指使用WordNet或HowNet等.很自然地,有学者想到利用词典将手工采集的种子评价词语进行扩展来获取大量的评价词语[10−12].这种方法简单易行,但是较依赖于种子评价词语的个数和质量,并且容易由于一些词语的多义性而引入噪声.为了避免词语的多义性,一部分学者使用词典中词语的注释信息来完成评价词语的识别与极性判断[13−16].此外,一些学者[17]沿用了Turney等人的点互信息的方法[9],通过计算WordNet中的所有形容词与种子褒义词代表good和贬义词bad之间的关联度值来识别出评价词语.然而,并非所有语种的情感资源都像英文一样丰富,对于某些词典资源非常稀缺的语种,有学者将词典资源丰富的语种的情感词典翻译到资源较少的语种中[18],如将英文的情感词典翻译成中文,供中文情感分析应用.但是实验显示,不少评价词语在经过翻译之后极性发生了改变.这也印证了Wiebe在文献[19]中所指出的“词语的词义和其极性有一定的关系,但是相同的词义并不一定有相同的极性”.鉴于此,基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词,如词语“好”在大多数情况下表现为“优秀”的意思,但在某些情况下扮演修饰成分(如“他跑得好快啊!”).此外,还有一部分学者采用基于图的方法来识别评价词语的极性[6,20].具体来说,该方法将要分类的词语作为图上的点,利用词语之间的联系形成边来构建图,继而采用各种基于图的迭代算法(propagation algorithm)来完成词语的分类.如,有学者考察图中两个词语的注释信息而构建图[20],继而使用Spin模型对图中的点迭代地进行概率计算,得出每个词语的极性.还有一些学者尝试使用多种图模型[6],如最小切分模型(mincuts)、随机最小切分模型(randomized mincuts)、标签迭代模型(label propagation)等完成评价词语的褒贬分类.实验证实了基于图的方法的有效性.基于图的方法是一种新颖的方法,它可以灵活地将词语间的各种联系作为特征融入图中,继而进行迭代计算.然而,寻找更为有效的词语间特征以及如何选取图算法是值得深入研究的问题.1.2 评价对象的抽取评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象,如新闻评论中的某个事件/话题或者产品评论中某种产品的属性(如“屏幕”)等.现有的研究大部分集中于产品领域的评价对象赵妍妍等:文本情感分析1837的抽取,他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别.一部分学者使用基于规则/模板的方法抽取评价对象.规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等.相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式.Yi[21]使用3条限制等级逐渐递进的词性规则从候选评价对象中抽取出真正的评价对象.还有的学者[22,23]使用关联规则挖掘的方法或是基于句法分析的结果[24]找出频繁出现的候选评价对象,继而使用两种剪枝方法去除错误样例.然而,这些方法仅能找出频繁的评价对象.为了发掘出非频繁的评价对象,有学者尝试使用含有评价词语和评价对象槽(slot)的词序列模板[22].此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板;而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高.有学者[25]从另一个角度诠释了评价对象的抽取.他们将评价对象看作产品属性的一种表现形式(如对数码相机领域而言,“相机的大小”是数码相机的一个属性,而“相机滑盖”是数码相机的一个组成部分),继而考察候选评价对象与领域指示词(如“整体-部分”关系指示词“scanner has”)之间的关联度来获取真正的评价对象.实验结果表明,这种方法取得了较好的实验效果,超过了基于规则/模板的方法,但难点在于领域指示词的获取.近年来,随着话题模型(topic model)[26,27]的逐渐兴起,很多学者将其应用到情感分析领域.由于评价对象是蕴涵于情感文本中的某些话题,因此可以使用话题模型来评价对象的识别.有学者[28]采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类.这种方法理论上能够提高评价对象抽取的召回率.但遗憾的是,还没有实验将这种方法与上述传统的基于名词短语的方法进行对比.此外,还有一部分学者从事新闻评论文本中的话题评价对象的抽取[29,30].如,对于情感句“所有人都认为政府应该加强改善医疗卫生条件”,抽取话题评价对象“政府应该加强改善医疗卫生条件”.1.3 观点持有者抽取观点持有者的抽取在基于新闻评论的情感分析中显得尤为重要,它是观点/评论的隶属者,如新闻评论句“我国政府坚定不移的认为台湾是中国领土不可分割的一部分”中的“我国政府”.很自然地,人们会想到评论中的观点持有者一般是由命名实体(如人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者[31].此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取[29].但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性.还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取.如Choi将其看作一个序列标注问题[32],并使用CRF(conditional random field)模型融合各种特征来完成观点持有者的抽取.相似地,Kim[11]将所有名词短语都视为候选观点持有者,使用ME(maximum entropy)模型来进行计算.以上的方法将观点持有者的抽取当作一个独立的任务.通过观察许多研究者发现,观点持有者一般是与观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决.Bethard[33]在抽取出情感句中的观点单元(多是由一些短语组成)之后,分析句中观点和动词的句法关系,即可同步获取观点持有者.由于产品评论中一般默认观点持有者是用户本身,因此鲜有研究者在产品评论领域研究这一任务.1.4 组合评价单元的抽取评价词语在情感分析中的作用是不言而喻的.然而在某些情况下,单独的评价词语存在一定的歧义性,如评价词语“高”在以下3个句子中的使用:• Sen 1:凯越的油耗真高.• Sen 2:捷达的性价比相当高.• Sen 3:这辆车有1米多高.Sen 1和Sen 2是情感句,但是评价词语“高”在修饰不同的评价对象时表现出不同的极性.如,“高”在Sen 1中表示贬义,而在Sen 2中则表示褒义.此外,评价词语往往也会出现在非情感句中,如Sen 3.因此,仅考虑单独的评价词语在情感分析中的应用是远远不够的.研究者们发现,有些包含评价词语的“组合评价单元”(如组合“油1838 Journal of Software软件学报 V ol.21, No.8, August 2010耗-高”、“相当-高”)对于处理情感分析的上层任务更有帮助.下面将具体来介绍各种形式的组合评价单元.1.4.1 主观表达式的抽取主观表达式(subjective clues)是指表示情感文本单元主观性的词语或词组.第1.1节的评价词语是主观表达式的一部分.此外,某些词语的组合(如village idiot或get out of here)也能很明显地标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语.如何获取这些有意义的词组是主观表达式抽取的重点.Wiebe和Wilson是这项任务的引领者[34].近几年来,他们挖掘大量的主观表达式形成主观表达式库,并基于此完成文本的主客观分类和褒贬分类.具体来说,他们首先从语料中抽取出所有的n元词语/词组(1≤n≤4)作为候选主观表达式;继而通过对比训练语料中的标准的主观表达式,为每个候选主观表达式计算出可能成为主观表达式的概率;最后通过对概率值的分析,获得这些主观表达式.Wiebe和Wilson[35]在随后的工作中又引入了“主观表达式密度”协助判断主观表达式.2004年,Wiebe和Wilson将他们前期的工作进行了总结[36],从不同的语料中扩充了大量的主观表达式,主要包括手工收集的一部分主观表达式以及自动从标注/未标注语料中学习而来的一部分主观表达式.此外,他们首次利用句法分析的结果发掘了句法主观表达式[37].随后,Wiebe和Wilson采用多种特征及机器学习方法对他们获取的大量的主观表达式的情感程度(strong或weak)进行了识别.1.4.2 评价短语的抽取评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如“very good”等.因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分.这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元.有学者采用基于一些情感词典的方法识别这种评价短语.如Whitelaw[38]结合WordNet使用半自动的方法构建了形容词性的评价词词典以及修饰词词典.对于一个含有评价词语的情感文本,该方法首先查看评价词前面的词语,如果属于修饰词词典,获取这个词组作为评价短语.根据两个词典中的属性值计算出情感极性.这种方法由于基于较为细致的词典,因此准确率较高,然而,由于词典中词语有限而限制了召回率.还有学者使用依存句法结构(如ADV,ATT以及DE结构),在句法树上获取评价短语[23].这种方法巧妙地利用了评价短语中所含词语之间的句法修饰关系,但是较为依赖句法分析的结果.评价短语考察的是连续出现的词组,然而有些表示修饰关系的词语并非总是和评价词语连续出现.如在情感句“[I did [not]− have any [doubt]− about it.]+”中,修饰词not和评价词doubt并非连续出现,但它们共同决定了情感句的最终极性.Moilanen等人[39]和Choi等人[40]将其定义为“组合语义单元(compositional semantics)”,具体表现为一组非连续的词语,通过相互作用来表达出某种情感极性.组合语义单元可以看作一种更为复杂的评价短语,大多使用人工总结或半自动生成的模板来识别.1.4.3 评价搭配的抽取评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对〈评价对象,评价词语〉,如情感句“凯越的油耗很高”中的“油耗-高”.前面所介绍的“主观表达式”和“评价短语”主要是考察含有情感极性的一些词和短语,然而情感句中出现的某些“主观表达式”和“评价短语”并非真正地表现出情感极性.如情感句s1“车跑得好快啊”中的词语“好”并不存在情感极性,需要过滤掉.此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定.“评价搭配”则可以很好地解决上述两点问题.针对评价搭配的抽取任务,大部分学者采用了基于模板的获取方法.Kobayashi等人[41]考察评价对象和评价词语之间的修饰关系,并用8个共现模板来描述.然而,由于模板过于简单且修饰关系仅仅停留在词表面,该方法产生了大量的噪声.为了深入挖掘评价对象和评价词语之间的修饰关系,一部分学者尝试使用句法关系模板. Bloom等人[42]利用Stanford Parser手工构建了31条句法规则.此外,Popescu等人[25]利用MINIPAR Parser手工构建了10条依存句法抽取模板来获取评价搭配.姚天昉等人[43]基于依存句法分析总结出“上行路径”和“下行路径”的匹配规则;后续总结出SBV(subjective-verb)极性传递规则,用于评价搭配的识别.可以看出,他们的工作融入了更多对评价对象和评价词语之间深层关系的挖掘.然而,由于匹配规则或模板的制定存在过多的人工参与,覆盖率较低.因此在未来的工作中,我们应该侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略.赵妍妍等:文本情感分析18392 情感信息分类情感信息的分类任务可大致分为两种:一种是主、客观信息的二元分类;另一种是主观信息的情感分类,包括最常见的褒贬二元分类以及更细致的多元分类[44].2.1 主客观信息分类在对情感文本进行情感分析时,往往由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量[45],因此将情感文本中的主观信息和客观信息进行分离变得非常必要.由于情感文本单元表现格式比较自由,且区分主、客观文本单元的特征并不明显,在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度.一部分学者通过考察文本内部是否含有情感知识(具体表现为第1节情感信息抽取的结果)来完成主客观信息分类[10,46].然而我们发现,许多客观句中也可能会包含评价词语,如客观句“这位英雄名叫张三丰”同样含有评价词语“英雄”.为了在更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元,如第 1.4节中提到的“主观表达式”、“评价短语”和“评价搭配”等组合信息.此外,还有学者[8]构建情感模板识别情感文本的主客观性(如贬义模板“〈x〉 drives 〈y〉 up the wall”).以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘以及各种情感知识融合的方法研究.还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性.这种方法的关键在于分类器和分类特征的选取.具体来说,Hatzivassiloglou[47]使用了词语作为特征,并采用了NB(Naïve Bayes)分类器完成篇章级情感文本的主客观分类.Yao[48]着重从一些特殊的特征角度考察了主客观文本,如标点符号角度、人称代词角度、数字角度等.Pang[49]则采用基于图的分类算法完成句子级的主客观分类.基于特征分类的方法目前还是主客观信息分类的主流方法.这种方法定义明确,其根本问题在于特征的选取.因此,尝试使用更深层、更复杂的分类特征也许是这类方法的突破方向之所在. 2.2 主观信息情感分类主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等.其中,第1节已经对词语级和短语级的情感分类方法进行了总结,因此本节将着重介绍句子级和篇章级的主观信息情感分类方法.一般而言,研究者将主观本文的极性分为褒义和贬义两类(thumbs up? thumbs down?).纵观目前的研究工作,与主客观信息分类类似,可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法.相似地,前者主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性.后者主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务.这两种研究思路有很多代表性的研究工作.文献[10,47,50,51]首先分析句子/篇章中的评价词语或组合评价单元的极性,然后进行极性加权求和.这种方法的重点一般都放在评价词语或组合评价单元的抽取和极性判断方法的研究上.在基于特征分类的方法中,Pang[52]首次将机器学习的方法应用于篇章级的情感分类任务中.他们尝试使用了n-gram词语特征和词性特征,并对比了NB,ME和SVM(support vector machine)这3种分类模型,发现unigram特征效果最好.然而,Cui[53]通过实验证明,当训练语料较少时,unigram的效果较优;但随着训练语料的增多,n-gram (n>3)发挥了越来越重要的作用.Kim[54]除了考察传统的n-gram模型之外,还引入了位置特征和评价词特征来完成句子级的褒贬分类.Zhao[55]则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用CRF模型将这些特征进行融合.类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现以及特征选择和特征融合等问题的研究.除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务.Pang[56]将褒贬等级分为3类,并使用了one-vs-all多元分类算法和回归分类算法完成情感分类.Goldberg[57]则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括4个等级的分类.2.3 观点分类与挖掘情感分类还可以体现在对某些事件的观点分类上.Lin等人[58]主要使用3种分类模型识别有关“巴以冲突”。