基于上下文感知的方面类别情感分类
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
于:a)多维度性,这里的 attention被用于计算每个特征上;b)方 向性,使用一个或多个位置 mask对 attention进行建模。这项 工作分 别 在 斯 坦 福 情 感 树 (SST)和 斯 坦 福 自 然 语 言 推 理 (SNLI)数据集上进行了实验,并取得了不错的效果。
第 38卷第 6期 2021年 6月
计算机应用研究 ApplicationResearchofComputers
Vol38No6 Jun.2021
基于上下文感知的方面类别情感分类
王晶晶,姜 明,张
(杭州电子科技大学 计算机学院,杭州 310000)
摘 要:由于一个评论往往会涉及多种方面类别及情感倾向,而传统注意力机制难以区分方面词和情感词的对 应关系,从而影响评论同时存在多种方面类别时的情感极性分析。为了解决上述问题,提出了一种基于上下文 感知的方面类别情感分类模型(MADSA)。该模型通过重构方面向量捕获句子中更多样且有效的语义特征,并 将其融入上下文向量,然后将上下文向量通过 DiSA模块进一步捕捉句子内部情感特征,确定方面词与情感词的 关系,进 而 对 指 定 方 面 类 别 进 行 情 感 分 类。在 SemEval的 三 个 数 据 集 上 的 实 验 结 果 表 明,MADSA模 型 在 Restaurant2014数据集上的三个指标值均优于基准模型,证明了该模型的有效性。 关键词:自然语言处理;方面类别情感分类;上下文信息;语义特征;多维注意力机制 中图分类号:TP391 文献标志码:A 文章编号:10013695(2021)06031177005 doi:10.19734/j.issn.10013695.2020.06.0172
Contextawarelearningforaspectcategorysentimentclassification
WangJingjing,JiangMing,ZhangMin
(SchoolofComputer,HangzhouDianziUniversity,Hangzhou310000,China)
等人[7]使用两个 LSTM 网络分别对句子和方面建模,并进一步 使用由句子生成的隐藏状态,通过池化操作来计算方面目标的 注意力,能够同时关注到句子的重要部分和方面信息。Zhu等 人 [8]提出了一种新 颖 的 方 面 感 知 学 习 框 架,使 用 情 感 记 忆 的 存储网络来进行情感分类。它接受一个方面类别作为目标,并 通过注意力机制计算目标和上下文之间的交互,内存网络中多 次利用注意力机制可以发现更复杂的语义特征。
对于方面类别情感分类的研究,早期大多数是基于规则的 方法来解决这一问题,随着深度学习的迅速发展,基于神经网 络的模型被应用于解决这类问题,如 LSTM[2],后来,为了可以 更好地捕捉句子的重要部 分,引 入 了 注 意 力 机 制,如 ATAE LSTM[5]、TDLSTM[6],这类模型将 attention与 LSTM 结合在一 起,通过 attention去获取对不同方面更重要的上下文信息,来 解决方面类别情感分析问题。Wang等人[5]使用方面嵌入来生 成注意力向量,以此来关注句子的不同部分。在此基础上,Ma
1 相关工作
11 方面类别情感分类
ABSA是情感分类的一个重要子任务,它主要关注细粒度 的情感信息。这里解决 ABSA任务的过程主要分为两个阶段: a)使用词典和 规 则 的 传 统 方 式,如 总 结 所 有 情 感 词 的 情 绪 分 数;b)采用机器学习方法。Nguyen等人[9]通过二元短语依赖 树来构造目标依赖实现构建目标的表示。Tang等人[6]用循环 神经网络模型来解决问题,提出了 TDLSTM和 ATLSTM两种 方法。Wang等人[5]提出了一种基于注意力的 LSTM 方法,它 是处理抽象的上下文记忆的最好方法。Tang等人[10]介绍了一 种基于 深 度 记 忆 网 络 的 方 法 来 解 决 ABSA任 务。Cheng等 人[11]采用了分层设计的思想,分别对句子和目标进行注意力 机制的操作,然后使用全连接,最后进行分类。He等人 首 [12] 先进行平均目标的表示,句子通过 LSTM获得上下文相关的特 征,然后句子和目标分别进行注意力机制。上面这几个模型都 使用了 LSTM或者 GRU,但是没有考虑到在长评论上是否适 用。同时,它们在处理目标的时候一般都采用平均目标特征向 量的方式,没有考虑到目标词汇不在单词表里的情况。
Abstract:Areviewofteninvolvesmultiplecategoriesandtheiremotionaltendencies,butthetraditionalattentionmechanism isdifficulttodistinguishthecorrespondencebetweenaspectwordsandemotionwords,whichaffectstheanalysisofemotional polaritywhentherearemultipleaspectcategoriesinareview.Inordertosolvetheaboveproblems,thispaperproposedancon textawarelearningforaspectcategorysentimentclassificationmodel(MADSA).Themodelcapturedmorediverseandeffec tivesemanticfeaturesinthesentencebyreconstructingtheaspectvector,andintegrateditintothecontextvector.Then,itused thecontextvectortofurthercapturetheinternalemotionalcharacteristicsofthesentencethroughtheDiSAmoduletodetermine theaspectandemotionwords.Thenthesentimentclassificationwasperformedonthespecifiedaspectcategory.Theexperimen talresultsonSemEval’sthreedatasetsshowthatthethreeindexvaluesofMADSAontheRestaurant2014datasetarebetter thanthebaselinemodel,whichprovestheeffectivenessofthismodel. Keywords: naturallanguageprocessing(NLP); aspectcategorysentimentclassification; contextinformation; semantic feature;multidimensionalattention
收稿日期:20200630;修回日期:20200824 基金项目:浙江省科技计划资助项目(2020C03105) 作者简介:王晶晶(1994),女(通信作者),安徽芜湖人,硕士,主要研究方向为自然语言处理、情感分析(hexwjj@hdu.edu.cn);姜明(1974), 男,江苏南通人,教授,博士,主要研究方向为数据挖掘、图像处理和人工智能;张(1977),男,江西崇义人,讲师,博士,主要研究方向为自然语言 处理、机器学习.
本文的主要工作如下: a)在方面类 别 情 感 分 类 的 任 务 上,首 次 引 入 多 维 度 注 意 力机制来获取最能描述方面类别的语义信息,从而能准确地寻 找到方面词和情感词。 b)把语义 特 征 和 方 面 类 别 进 行 融 合 得 到 上 下 文 感 知 向 量,加强方面类别与句子之间的联系,从而能准确地将方面词 和情感词相对应,提高情感分类器的性能。 在 SemEval的三个数据集上,该模型获得了最好的准确 率,实验结果进一步表明,使用多维度自注意力模型并获得上 下文感知向量确实可以提高模型的性能。
12 注意力机制
注意力机制可以快速提取稀疏数据的重要特征,因而被广 泛用于自然语言处理任务,特别是机器翻译。而自注意力机制 是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕 捉数据或特征的内部相关性。在情感分类任务中,自我关注有 助于将注意力集 中 在 决 定 输 入 情 绪 的 重 要 词 语 上。 文 献 [5, 7]提出基于方面的情感分类方法将与方面相关概念的额外知 识纳入模型,并 利 用 关 注 度 来 适 当 权 衡 概 念 与 内 容 本 身 的 区 别。情感分类应 用 程 序 也 引 入 了 多 种 架 构 的 使 用,如 记 忆 网 络 [5]。文献[13]提 出 了 多 维 注 意 力 机 制,并 建 立 了 一 个 轻 量 级 且 无 RNN/CNN 的 神 经 网 络———定 向 自 我 注 意 网 络 (DiSAN),用于句 子 编 码。该 机 制 与 以 前 机 制 的 不 同 语言理解中最重要也是最有挑战的主 要任务之一,有很大的研究空间和广阔的应用价值[1~4]。在给 定的句子进行情感极性分类时,若考虑到句子中不同方面,可 能会得到相反的极性,因此方面信息(aspect)不可忽略。为了 充分利用方面信息,方面类别情感分类的研究也至关重要。并 且,方面类别情感分类的相关研究已历经多年,有大量的相关 文献 [1~4]。句子层面的情 感 分 类 旨 在 为 每 个 句 子 分 配 情 感 类 别标签,它并不关心单个句子中是否存在不同的方面。而方面 类别的情感分类更加复杂,如给定一个句子,方面类别情感分 类旨在识别句子中某个特定方面的情感极性。
然而,在方面类别情感分类的应用中,利用传统的注意力 机制来获取目标方面词与上下文之间的语义信息仍然有局限 性。当句子中出现多个方面词和情感词时,传统注意力机制并 不能很好地把方面词和情感词一一对应,例如在句子“这里的 甜点很引诱我,但 是 花 费 60太 贵 了 ”中,传 统 注 意 力 机 制 会 注意到句子中重要的部分,比如“甜点”“引诱”“60”“贵”,但 是它并不能区分“贵”不 是 形 容 “甜 点 ”而 是 形 容 “60”;同 样 的,“引诱”是形容“甜点”而不是形容“60”。另一方面,由于 自然语言 的 影 响,词 语 具 有 多 义 性,对 于 句 子 序 列 x=[x1, x2,…,xn]和某 个 方 面 类 别 va 于 传 统 注 意 力 机 制 通 过 函 数 f(xi,va)获得方面类别 va和单词 xi之间的对齐分数是单一的 得分,因此无法区分同一单词在不同上下文中的含义。例如, 在句子“那个拿着棒棒糖的小女孩笑起来真甜”中,并没有表
第 6期
王晶晶,等:基于上下文感知的方面类别情感分类
·17 71 ·
达对“食物”方面明显的情感倾向,但是由于句子中“甜”的多 义性,传统注意力机制可能将捕获“棒棒糖”与“甜”之间的关 联,并将“甜”给予“食物”方面较高的注意力权重,从而错误地 判断此句话表达的是对“食物”方面正向的情感倾向。
根据以上问题,本文提出了一种基于上下文感知的方面类 别情感分类模型(MADSA)。该模型引入多维自注意力机制, 通过调整对齐函数中的权重参数获得单词在不同特征(维度) 上的注意力分数,解决一词多义带来的影响,并额外地将方面 类别与句子特征融合,从而加强方面类别与句子的联系,更加 准确地定位到方面词。具体来说,首先通过多维注意力获得句 子中与方面类别 va的语义特征,并将它融入到句子编码的输 出中,以此加强句子与方面类别的交互。然后,通过方向自注 意力机制寻找句子内部各个维度单词之间的相关性,捕获情感 词和方面词之间的联系,最终通过 softmax得到情感极性的分 数来确定该方面类别的情感极性。