面向理解的文本情感分析研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向理解的文本情感分析研究
伴随着互联网的飞速发展,用户使用网络的方式悄然转变。用户
正在从单纯的信息获取者成为信息的发布者。这种转变使得大量带有个人情感的信息在网络中传播、发酵、聚集,并作用于真实社会。如
何对网络中的情感信息进行分析和理解是自然语言处理研究的重要
课题,同时,相关技术也具有广泛的应用。目前情感分析的相关研究取得了很大进展,但是依然存在一些问题:第一、在数据层面,对于面向
具体语言或领域的标注数据不足,往往影响了情感分析系统的性能。
针对这一问题,基于迁移学习的情感分析方法取得了一定的进展,但
是相关研究对于数据迁移过程中的错误累积以及由此引起的负面迁
移现象缺乏深入的研究,导致基于迁移学习的情感分析性能受到制约。第二、在语义层面,目前主流的基于表示学习的情感分析方法往往将
情感文本和情感要素作为多个孤立的研究对象,缺乏统一的计算体系
对这些对象之间的潜在语义关系进行分析和理解,影响细粒度情感分
析性能的同时,也阻碍了对文本情感理解的深入。第三、在认知层面,目前的文本情感分析研究大多数集中在对文本情感表达的分析,但对
于如何发现文本中所蕴含的情感产生原因缺乏系统地研究,阻碍了面
向理解的情感分析研究的深入。针对上述三个层面的问题,本文主要
进行了以下的研究工作:在数据层面,针对样例迁移过程中的负面迁
移问题,本文提出了一种基于高斯分布负面迁移检测的情感分析方法。该方法一方面通过基于高斯分布的类噪声估计结果对迁移过程中可
能误选的错误样本进行检测和筛选,另一方面利用类噪声估计的结果
对当前分类器进行基于近似可学习理论的性能估计,从而预估当前迁移周期之后分类器的性能变化趋势,以避免负面迁移的产生。在跨语言和跨领域情感分析数据集上的实验结果显示,基于高斯分布负面迁移检测的方法可以有效地迁移来自其他语言和领域的标注数据,有效提高了目标语言和目标领域情感分析的性能。分析显示,基于高斯分布负面迁移检测方法性能优于其他典型样例迁移方法,同时该方法可以保证分类器性能的总体上升趋势。对基于高斯分布负面迁移检测方法的理论分析显示,该方法受到稠密的数据分布以及数据先验知识要求的制约。为此,本文提出了一种基于拉德马赫和分布的类噪声估计算法。这一算法利用最大熵对噪声的先验分布进行约减,并使用拉德马赫和分布替代高斯分布进行类噪声的估计,从而规避了对稠密数据分布以及数据先验知识的要求。在此基础上,提出了一种基于类噪声估计结果的损失函数修正算法,通过理论分析证明了在训练数据足够多的前提下该算法的收敛性。在面向跨语言和跨领域的情感分析数据集上的实验结果显示,基于拉德马赫和分布的负面迁移检测方法比目前主流方法性能更为可靠,进一步提高了跨语言和跨领域情感分析的准确性与通用性。这一结果也显示在数据层面上进行迁移学习对提高文本情感分析性能的有效性。在语义层面,针对现有基于表示学习的情感分析方法往往将词语语义表示、情感持有者语义表示、情感对象语义表示作为孤立表示任务的不足,本文提出了一种面向多源异质信息的统一语义表示方法。通过构建基于共现统计信息的多源异质网络,对情感词语、情感持有者、情感对象之间的潜在关系进行基于网络结
构的描述并利用网络节点嵌入进行语义表示。在此基础上,结合卷积神经网络,将情感词语表示作为输入,将情感持有者与情感对象表示作为网络的外接特征,构建了一种基于多源异质表示学习的情感分析方法。在大规模产品评价情感分析数据集上的实验结果显示,该方法可以明显提高情感分析性能。同时,细粒度的样例分析显示通过这一方法获得的情感词语、情感持有者、情感对象的语义表示具有良好的可解释性。在此基础上,本文提出了结合多源异质网络表示学习与负面迁移检测的迁移学习的情感分析方法,实验结果显示这一方法进一步提高了情感分析的性能,达到了相关数据集上的已知最好性能,这一结果表明在数据层面和语义层面研究方法的结合可以有效提高情感分析的性能。在认知层面,针对现有的研究缺乏对情感产生原因的发现和理解研究的不足,在情感分析的基础上,本文研究了面向理解的文本情感原因发现方法。考虑到本研究缺乏相关公开标注数据集的现状,本文设计构建了文本情感原因标注语料库。在此基础上,本文提出了一种基于记忆网络的情感原因抽取方法。这一方法首先对情感文本、情感类别和情感原因进行文本表示学习,将获得的情感相关表示作为记忆网络的输入,通过记忆网络建模情感原因与情感文本之间是否存在因果关系,实现情感原因文本的抽取。由于记忆网络未考虑上下文信息在词义表达过程中的作用,本文进一步提出了一种结合卷积操作的记忆网络注意力建模算法,通过上下文对词语的语义修正,改进情感原因文本的抽取。在情感原因标注语料库上的实验结果显示,基于卷积记忆网络的方法显著提高了情感原因发现的准确率。同时,
对记忆网络注意力信号的样例分析也显示该方法具有良好的可解释性。在认知层面,这一工作有效地推进了面向理解的文本情感分析研究。此外,本文构建的世界首个公开的情感原因标注语料库也将助于促进相关研究的发展。