基于多尺度自注意力增强的多方对话角色识别方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第35卷第5期2021年5月
中文信息学报
JO U R N A L OF CHINESE INFORM ATION PROCESSING
Vol. 35, No. 5
M a y，2021
文章编号：1003-0077(2021)05-0101-09
基于多尺度自注意力增强的多方对话角色识别方法
张禹尧，蒋玉茹，张仰森
(北京信息科技大学智能信息处理研究所，北京100101)
摘要：角色识别任务是近年来提出的一项自然语言处理任务，面向多方参与的对话场景，目标是将对话中的人物提及映射到具体的人物实体。

目前在该任务的最优系统中，只使用了较为简单的编码器，并未针对对话文本特点进行改造创新。

该文在最优系统的基础上，提出了一种基于多尺度自注意力增强的方法，借助不同尺度的自注意力，来获得更好的信息表示。

首先，通过尺度较大的全局注意力，对场景内的全部对话信息进行处理.保留了全局的对话信息；然后.通过尺度较小的局部注意力.对局部范围内的对话进行计算，捕获近距离的信息之间的关联关系；最后，将不同尺度得到的信息进行融合，达到对编码信息增强的效果。

在SemEval2018 T a s k4任务上的实验结果表明了该方法的有效性，相较于目前最优系统，在全部实体的F,值上提高了18.94%。

关键词：角色识别；多尺度自注意力；全局注意力；局部注意力
中图分类号：TP391 文献标识码：A
Multi-party Dialogue Character Identification Method Based
on Multi-scale Self-attention Enhancement
Z H A N G Y uyao, J I A N G Y u r u, Z H A N G Y an g sen
(Institute of Intelligent Information Processing, Beijing Information Science and
Technology University，Beijing 100101，China)
Abstract：The character identification task aims at mapping the person mentions in the dialogue to specific person entities in the dialogue scenarios involving multiple parties. This paper proposes a method based on multi-scale selfattention enhancement* which uses self-attention at different scales to obtain better information representation.
F irst»the global dialog information in the scene is captured through global attention with a large scope. Then,
through the small-scale local attention»the dialog in the local area is calculated to capture the association relationship between the information at close range. Finally»the information obtained at different scales is fused to enhance the encoded information. The experimental results on SemEval2018 Task4 show the effectiveness of the method by
18.94%in F i compared with the current optimal system.
Keywords：character identification；multi-scale self-attention；global attention；local attention
〇引言
角色识别（character identification)任务的目标是在多人参与的对话中，将每个人物提及（mention)映射到具体的人物实体，这里的人物提及可以是任何表示人物的名词，如“他”“阿姨”等。

由于多方对话数据中的上下文往往由多个角色轮流交替发言组成，其中包含着大量的对话场景内以及对话场景外的人物提及，因此想要正确理解上下文的内容，必须明确这些人物提及的具体指代。

换言之，角色识别任务是多方对话理解中关键性的步骤，也是后续高级自然语言处理任务（机器问答、文本摘要、信息抽取等）能应用在多方对话数据上的基础[1]。

C h e n等夂对美剧《老友记》（FWewt/.v)的剧本进行了收集、整理、标注，构建了第一个关于多方对话理解的数据集，并将其以任务的形式发布在了SemEval2018 Task4"__:。

在该评测任务中，来自庞
收稿日期：2020-01-29 定稿日期：2020-03-09
基金项目：国家自然科学基金（61602044,61772081)
102中文信息学报2021 年
培法布拉大学的A m a等:4]为了提升非高频角色的识别效果，构建了基于角色实体库的角色识别模型(A M()RE-U P F)•取得了评测的冠军。

然而，就最终的评测指标来看，该模型取得的效果似乎仍不尽如人意。

原因一定程度上来自于模型的编码器部分，该部分仅由单层的B iL S T M构成。

一方面，数据中存在着大量的长对话，尽管L S T M相较于基础的R N N结构能保留更长的记忆信息，但是对于过长的文本，同样会有信息的丢失；另一方面，对话之间是存在着信息关联的，只使用B iL S T M无法捕获这种信息之间的关联。

本文针对这两方面的问题，提出了一种基于多尺度自注意力增强的多方对话角色识另 d方法（multi-scale self-attention character i-dentification，MSA-C I)。

首先，通过尺度较大的全局注意力，对场景内的全部对话信息进行处理，保留全局的对话信息；其次，通过尺度较小的局部注意力，对局部范围内的对话进行计算，捕获近距离信息之间的关联关系，这也符合人类对话交流的特点；最后，将不同尺度得到的信息进行融合，达到对原始编码结果增强的效果。

实验结果证明了本文所提出的方法的有效性。

在主要角色的识别效果上值达到了 89.03%,相较于A i n a等人的AM ORE-U PF 模型提升了 9.67%;在全部角色的识别效果上，厂值提升了 18.94%,达到59.99%。

1相关工作
1.1角色识别
角色识别任务最早在文献[2 ]中进行了明确定义，标注整理了数据集，并给出了基于共指消解和簇映射策略的解决方法。

文献[1]对语料库中《老友记》部分的若干注释错误进行了扩充和修正，并提出了一种新的方法用于解决该问题。

首先，采用聚合卷积神经网络学习提及和提及对（mention-p air)的嵌人，然后将学到的嵌人信息应用在实体链接模型中，实现最终的角色识别。

文献[3]对数据《老友记》部分按照C〇NLL2012共享任务格式进行了格式化，将其作为SemEval2018 Task4发布。

在该评测中，文献[4]提出的基于角色实体库的角色识别模型将该任务视为一项多分类任务，整体思路是通过B iL S T M编码获得提及在对话中的表示，并与角色实体库中的实体表示计算相似度，完成角色识别，角色实体库中的表示同样通过学习得到；文献[5]则将该任务视为一项序列标注任务，使用的结构为编码
器解码器结构.编码器的输人为对话文本，解码器则按照提及出现的顺序对提及进行角色分类。

上述方法均建立在纯文本的数据之上，文献[6]则认为在某
些情况下人类也很难通过单纯的文本信息识别出提
及具体指代的角色，因此在模型中引人了视频场景
信息来进一步提高角色识别的性能。

1.2 注意力机制
近年来.随着深度学习的研究深人，基于注意力机制的神经网络成为神经网络研究中的重点。

注意力机制最早由B ah d an au等人[7]提出并将其应用在神经机器翻译中；随后，L u o n g等人[8]对注意力机制在循环神经网络中的应用方式进行了扩展，提出了全局注意力（global attention)和局部注意力（local attention)两种不同形式的注意力机制；G o o g le团队将注意力机制进一步进行了抽象描述[9]，提出了缩放点积注意力（scaled dot-product attention)，通过将缩放点积注意力重复多次得到多头注意力机制(multi-head attention)，并在完全基于注意力机制的基础上提出了T ra n s fo rm e r模型。

除机器翻译任务外，注意力机制在其他自然语言处理任务中同样有广泛的应用，如共指消解[1°11]、文本分类、情感分析[13]、关系抽取[14]、机器阅读理解[15_17]等。

2模型结构
2.1基线模型
基线模型为SemEval2018 Task4的最佳系统。

模型整体架构如图1所示，底部为模型的输人部分，最上方为模型的输出部分。

简单来说，模型通过B iL ST M对对话中的信息进行编码，并对提及进行解析，最后通过与角色实体库中的角色实体表示进行相似度计算，得到最终的预测结果，角色实体库中的向量表示会随模型训练逐渐进行
更新。

模型的输人为一个场景中全部对话信息，包括说话者以及说话的内容。

首先，将输人中的第；个词和所对应的发言者集合S,进行one-h o t表示，然后通过角色实体嵌人矩阵和词嵌人矩阵V V,分别进行嵌人编码，并将二者编码后的结果进行拼接，得到最终的向量X,。

如果发言者集合S,包含多个发言者，则将多个发言者编码后的结果进行求
张禹尧等：基于多尺度自注意力增强的多方对话角色识别方法103 5期
图1A M O R E-U P F模型结构
和。

如式（1)所示，其中V V、和V V,为可学习的参数。

t =[w", ⑴
ses,
得到输人向量x,后，将其通过一个激活函数/(=tanh)，并对输出的结果使用B iL S T M进行编码，得到包含上下文信息的编码结果/z,，如式（2)〜式（4)所示。

L S T M(/(x,))(2)
L S T M(/(jt,))(3)
Lhr,h^(4)接下来，对被标记为提及的词？，的B iL S T M编码结果心进行映射，将其映射到一个向量6尺l x t，如式（5)所示，其中V V,,和为可学习的参数。

e, =W,h, +b(5)在基线模型中，学习到的每个实体表示都被存储在角色实体库中，角色实体库中共包含N个角色实体.每个角色实体通过一个A维向量表示。

需要注意的是，这里的角色实体库与角色实体嵌人矩阵二者并不等价，权重参数相互独立，但是二者包含的角色实体的个数是一致的，并且均随着训练进行更新。

利用上一步得到的向量e,，对角色实体库中角色实体进行余弦相似度计算，并对输出的结果使用s o ftm a x函数进行概率化，得到最终的输出〇,=[0,1]1XN，如式（6)所示。

〇, =softm ax(cosine(£,e,)) (6)测试时，直接取出中最大值所对应的索引f' 即可，该索引值即对应着模型预测的最终的结果。

2.2 MSA-CI
本文所提出的基于多尺度自注意力增强的方法主要是对基线模型中的编码部分进行扩展，完整模型结构如图2所示。

r~°r
|Softmax ]
.角色实体嵌入
(Entity Embedding)
Monica:The
Monica:guy
Monica:
词嵌入
^ (Word Embedding)
图2 M S A-C I模型结构
模型输入及基本的B iL S T M编码器这两部分与基线模型中一致，设此处输人A经过K L S T M 编码后，得到包含着上下文信息的编码结果&,，整个场景的全部对话信息编码结果为H。

接下来，引入大尺度的全局自注意力机制，这里的注意力机制米用点积注意力，是T ra n s fo rm e r模型中缩放点积注意力的简化版本，如式（7)、式（8)所示。

将式中的2,K.V均替换为即可得到全局
自注意力的计算结果
H,；,=G A(Q.K.V)
(7)
=AttentionCgW^' ,K W k,: ,V W v g)
A ttention(2 .V) =softmax(QK1)V(8)
将B iL S T M的编码结果//与全局自注意力计算的结果相加，相加后的结果经过激活函数/( =^/«)后再次使用B iL S T M进行编码，如式(9)所示，此时整个场景的全部对话信息编码结果为
H’=BiLSTM(/(H+H(;a)) (9)下面，引人小尺度的局部自注意力机制，与全局自注意力机制相同，这里同样采用点乘注意力，但是需要通过一个m ask矩阵％_来限制注意力的范围，这个限制的范围可以简称为注意力的窗口大小W，为一项可以调整的超参数。

这里需要定义一项操作mask_fill(x，mask，e)，其作用是根据m a s k的值对x 进行填充，填充值为e。

首先将点乘后的结果根据m ask矩阵进行m a s k jill，而后再进行后续操作，即可实现局部自注意力的计算，如式（10)、式（11)所示。

同样的，只需要将式中的2.K.V替换为H
',便
104
t文信息学报2021 年
可以得到局部自注意力的计算结果H,.a。

H ia=L A(Q.K,V)
(10)
=M ask-A ttention(QW y,.K W K L ,VWV L) M ask-A ttention((2 <iv.V)
=softm ax(mask_fill(<2K1.M w in,e))V(11) 此时，已经得到了四部分的编码计算结果，分别是最初B iL S T M的编码结果全局自注意力的计算结果，再次B iL S T M编码的结果H'和局部自注意力的计算结果A。

这里，选择使用//，//' 和三部分进行加权求和，其权重值分别为
y,将加权求和后结果经过层归一化，得到最终的编码结果H M S A，如式（12)所示。

其中，〇、/?、/三个值为可调节的超参数。

H m h a =LayerNormalization(aff -|-/3H，+yH L A)
(12)
模型中映射的部分，直接对/f MSA中的编码结果进行映射即可。

后续部分，按照基线模型中的方式进行处理。

此外，在MSA-C I中角色实体库与角色实体嵌人矩阵共享参数。

3实验设置
3.1数据集
本文所使用的数据集来自SemEval2018 Task4, 该评测任务提供了基于《老友记》剧本标注的多方对话角色识别数据。

数据集中的数据按照类似CONLL2012评测任务进行了格式化，如图3所示。

可以看到，在样例数据中，包含着三个提及，分别是“H e”“guy”和“I”，对应的角色实体分别是284和248,其中提及“H e”和“guy”指代的是同一角色实体。

/friends-s01e0l00He PRP(T0P(S(NP*)he -M〇nica_6eller*(284) /friends-s01e0101•s VBZ(VP*be -Monica Geller
/friends-s0le0l02just RB(ADVP*)just --MonicaGeller
/friends-s0le0l03some DT(NP(NP*some M〇nica_6eller
/friends-s0le〇l04guy NN*)guy -MonicaGeller•(284)
/friends-s0l e€l05
work PRP(SBAR(S(NP*)
work
-MonicaGeller•(248)
/friends S01〇0106VBP(VP*Monica_6eller*-/friends-s0le〇l07with IN(PP*))))))with -Monica Geller
/friends-s0le©l081*))!--Monica一Geller
图3 SemEval2018 Task4 样例数据
数据中共包含448个场景的对话，不同的场景中参与对话的人可以是不同的。

此外，对话中共包含401个角色实体，15 709个提及。

训练集和测试集的数据分布如表1所示。

这里需要注意的是，在训练集和测试集中包含的角色实体是有差异的，测试集中存在训练集中未出现的角色实体29个。

表1训练集和测试集数据分布
数据集场景数量角色实体数量提及数量
训练集37437213 280
测试集74106 2 429
全部44840115 709
根据词性标注的结果，所有的提及可以大致被划分为五类，第一人称代词、第二人称代词、第三人称代词、专有名词和一般名词，其中第一、二、三人称代词可以统称为代词，测试中各种类型的提及的分布如表2所示。

其中代词所占的比例最大，高达82.99%,而其中又以第一人称为主，占比达到44.38%。

表2测试集中不同类型提及分布
提及类型数量占比/%第一人称代词107844.38
第二人称代词67827.91
第三人称代词26010.70
专有名词25310.42
一般名词138 5.68
此外，为了更好地对系统的性能进行评估，SemEval2018 Task4中按照角色不同对数据进行了进一步划分，分为“主要角色+其他”和“全部角色”。

其中，“主要角色+其他”将全部角色划分为两大类7小类，分别为“(^1«11出6[1^叩”“]0^丁1^1)- biani” “Monica Geller” “Phoebe Buffay” “Rachel Green”“Ross Geller”和 “Others”；而“全部角色”中同样包含着“其他”类，这里的“其他”类指的是在测试集中出现，但并未出现在训练集中的角色，因此，在“全部角色”这种划分中，共包含78类。

由于对数据进行了“主要角色+其他”和“全部角色”
张禹尧等：基于多尺度自注意力增强的多方对话角色识别方法105 5期
的划分，后文实验结果中将包含这两部分各自的实验结果。

3.2评价指标0.25和0.15。

在嵌人编码层与归一化后的Dropout 层丢弃率大小统一设置为0.05。

此外，B iL S T M网络中的参数进行正交初始化。

SemEval2018 Task4评价指标主要包含准确率(accuracy，A cc)和宏平均F,值（Macro-average F,)。

A c c指标计算的是整体的准确率，计算如式（13)所示。

Acc正确识别的提及个数
全部提及个数
(13)
Macro-average F,为每个角色实体的值的平均值，其中C为总的角色数，F,,表示第z个角色的F,分数，计算如式（14)〜式（17)所示。

正确识别指代第；个角色的提及个数'+预测指代第；个角色的提及个数
正确识别指代第；个角色的提及个数'+真实指代第z个角色的提及个数
2 X P,X R,
P, +R,
F,
C S F,
(16)
(17)
3.3 参数设置
本文按照文献[4 ]的设置，对训练集进行五折交叉验证，并使用五个模型的融合模型对测试集进行预测。

使用的深度学习框架为Pytorch[18],词嵌人层初始化选择使用GloVe[19]官方提供的预训练好的词向量®。

训练过程中，批量大小为32,场景内对话最大长度为757,学习率0. 001,优化器为Adam[2°],总轮数设置为50,如果损失超过5轮没有下降则训练停止。

此外，由于文本长度较长，为了防止训练时出现梯度爆炸的问题，这里加人了梯度裁剪策略，最大梯度范数设置为5.0。

在模型部分，角色实体嵌人的维度为134,B iL S T M的隐藏层维度为400,局部注意力机制的窗口大小tt•设置为50, 填充值e的值为1^9,a j、/的数值分别为0.6,3.4实验结果
3.4.1基于角色类别的实验结果
表3中给出了本文所提出的模型在测试集上的评测结果。

可以看到，本文所提出的MSA-C I模型在测试集上的表现明显优于其他模型。

在“主要角色+其他”的识别效果中，A c c值达到了 87.98%,宏平均F,达到89.03%,相较于之前最好的结果，分别提升了 2.88%和3.03%,而相较于本文使用的基线，则分别提升了 10.75%和9.67%。

此外，本文所提出的模型并未随着主要角色的识别效果提升而降低对非主要角色的识别性能。

在“全部角色”的识别中，与基线模型相比，本文所提出的模型同样展示出了巨大的性能提升，A c c值从基线模型的74.72%提升至83.29%,提升了 8.57%;宏平均F,值从41.05% 提升至59.99%,提升了 18.94%。

表3S e m E v a l20l8T a s k4评测结果
(单位：角色识别系统
主要角色+基地全部角色
Acc F,Acc F, Zuma-AR46.8544.6833.0616.09 Kampfpudding73.3673.5159.4537.37 KNU-CI85.1086.0069.4916.98
A M O R E-U PF77.2379.3674.7241.05
M S A-C I87.9889.0383.2959.99
表4中给出了“主要角色+其他”部分更为详尽的评测结果。

相较于基线模型，性能提升最低的角色“P hoebe”提升了 6. 51%，性能提升最高的“O thers”甚至提升了 21.97%。

主要角色部分的性能提升，表明本文所提出的MSA-C I模型可以较为准确地学习到高频角色实体的表示。

表 4 “主要角色+其他”测试集F,值细节（单位：％) Character Ross Rachel Chandler Joey Phoebe Monica Others Zuma-AR38.7243.0543.0436.1042.9046.4351.78 Kampfpudding73.4870.6779.2563.3879.7973.3574.61 KNU-CI85.8692.4984.9479.6788.0991.1679.79 A M ORE-U PF78.5782.9881.3679.8386.5285.2261.02
M S A-C I87.4193.2688.8985.3693.0392.3182.99
①/data/glove.840B.zip
106中文信息学报2021年3.4.2基于提及类型的实验结果
除了 SemEval2018 T ask4的官方基于角色类别的实验结果外，本文还按照文献[4]中的设置，给出了测试集中不同类型提及的评测结果。

图4和图5中对比了本文所提出模型与文献[4] 的基线模型在全部角色实体上的A c c值和宏平均F,值。

可以看到，本文所提出的模型在不同类型的提及上性能均有不同程度的提升。

其中，代词方面的Acc 和宏平均尸，相较于基线模型有较大的提升，A cc提升了 9.38%,F,值提升了 17.43%。

代词提及中，以第二人称代词和第三人称代词提升较为突出，A cc分别提升了 17.4%和24.23%,宏平均F,值的提升比Acc 的提升更为明显，第二人称代词从22.83%提升至58.29%，第三人称代词从12.09%提升至了 32.48%; 而第一人称代词在A c c上提升较小，但是在宏平均F,值上提升了 7.13%。

除代词外，其余类型提及也都有不同程度的提升，且F,值的提升均略高于Acc 的提升。

以上结果一方面证明了本文方法的有效性，另一方面说明本文方法在出现次数较低的非主要角色上有比基线模型更好的识別效果。

100 ■ A M O RE-IJPF MSA-CI
m4测试集中不同类哦提及A c c值对比
100 ■AMORE-UPF MSA-CI
90
令令令Z
图5测试集中不同类型提及F,值对比4模型分析
4.1消融研究
表5中给出了 MSA-C I模型完整的消融实验的结果，这里需要注意的是，表5中最后的结果与文献[4]中的结果并不一致，本文复现的基线模型计算结果略高于原始模型，其原因可能源于深度学习版本的更迭以及软硬件环境。

表5 MSA-C1模型消融实验结果
(单位：％)角色识别系统
主要角色+其他全部角色
Acc F,Acc F, MSA-CI87.9889.0383.2959.99权重调整86.9988.2381.8955.63 -局部注意力84.6086.1480.4051.87 -全局注意力82.0183.6878.3449.91 -共享权重80.6982.6177.6549.10 -GloVe79.5481.4076.4947.03 -参数微调78.3480.0275.4643.70以全部角色的宏平均F,值为标准，可以看到对参数的微调可以使基线模型的性能从43.70%提升至47.03%，Gl〇V e预训练词向t t和共享角色实体权重分别又带来了 2.07%和0.81%的性能提升，多尺度自注意力中的全局注意力机制使模型性能突破了 50%，达到了 51.87%,随后的局部注意力将其提升至55.63%,通过赋予不同注意力不同的权重，模型的性能达到59.99%。

总的来说，多尺度自注意力机制对模型的性能提升达到了 10.08%。

4.2 显著性检验
为保证结果的有效性，本文采用近似随机测试(approximate randomization test)[2l j检验对全部角色上的性能（A CC、F,)进行显著性检验，迭代次数为10 000.检验结果如表6所示。

表6 全部角色近似随机检验结果
实验/>-value( Acc)/>-value(Fi )
实验1<0.001<0.001
实验2<0.001<0.001
实验3<0.001<
0.001
张禹尧等：基于多尺度注意力增强的多方对话角色识别方法107 5期
表6中，实验1为MSA-C I对比基线模型，实验 2为未使用多尺度自注意力机制的模型对比基线模型，实验3为MSA-C I对比未使用多尺度自注意力机制的模型。

首先，通过实验1的对比可以看到完整模型相较于基线模型在测试数据上的表现有极其显著的统计学差异，这表明本文所提出的完整模型相较基线模型有更好的性能不是出于偶然。

接下来，通过实验2,可以看到未使用多尺度自注意力的模型相较于基线模型在测试数据上同样有极其显著的统计学差异。

进一步地，实验3则表明使用和未使用多尺度自注意力模型的系统.在测试数据上同样表现出极其显著的统计学差异，说明了本文提出的多尺度自注意力机制模型的有效性。

4.3多尺度自注意力
进一步对多尺度自注意力进行研究，可以看到单纯的全局注意力对模型的提升似乎并不明显，反而是加入了局部注意力后模型的性能有了较大提升，那么这种较大提升是单纯来自于局部注意力本身还是这种整体的设计便无法确定。

为了验证是否为本文所提出的模型的整体结构带来的提升，这里增加了一组对比实验，对比实验包含两部分，一部分用于探究仅使用单尺度注意力的模型的性能，另一部分对多尺度自注意力中两种注意力的计算顺序进行了探究，实验结果如表7所示。

其中，L为局部注意力，G为全局注意力，L+G表示先进行局部注意力再进行全局注意力，G+L则是先进行全局注意力再进行局部注意力。

表7不同注意力机制实验结果对比
(单位：
实验
主要角色+其他全部角色
Acc F,Acc F, L83.3384.6878.9251.28
G84.6086.1480.4051.87
L+G84.5285.8680.0752.93
G+L86.9988.2381.8955.63
从前两个实验的结果中可以看到，在只使用一种注意力机制的情况下，全局注意力与局部注意力之间并无明显差异；通过后两个实验结果可以看到，不同注意力之间的计算顺序，对实验结果有巨大影响，以全部角色为例，顺序（L+G)相较于顺序(G+L)的宏平均F,相差2.7%。

为了更细致地分析全局注意力和局部注意力在模型中的作用，本文统计了各种模型对不同类型提及的性能表现.结果如表8所示。

其中.L、G与表7 表示内容一致，A表示G+L的效果相对于L与G 中值的变化，“一”代表低于L和G中最低值”代表在L与G的值中间，“+”代表大于L和G中的最高值。

表8不同类型注意力机制测试集全部角色厂值
(单位：％)提及类型L G G+L△第一人称代词90.8792.2890.63—
第二人称代词49.5147.1649.37*
第三人称代词23.0925.1029.95+专有名词58.6761.0265.36+
一般名词29.7329.6732.86+
可以看到，在仅使用一种尺度注意力的模型中，局部注意力在第二人称代词上的表现更佳，在一般名词上的表现虽有优势但不明显，其余项则均不如全局注意力的结果。

当使用多尺度的注意力机制时，可以看到在第三人称代词、专有名词和一般名词上性能有显著的提升，超过了单独使用时的最优值，说明两种尺度的注意力机制在这三种提及类型中有一定的互补的效果；在第二人称代词上的性能则没有提升，但比全局注意力要高.略低于局部注意力，说明局部注意力在这里发挥了更多的作用；而第一人称代词的性能不仅没有提高，反而些许下降，出现这种情况的原因，本文分析是由于注意力机制的多次使用，使得模型更多关注了范围更大的上下文，减少了对临近上下文信息的关注。

最后，本文对局部注意力机制中的窗口大小进行了不同的尝试，以10为差值对窗口分别进行缩小和放大，实验结果如表9所示。

可以看到，当取窗口大小为50的时候，可以达到最优效果，当窗口被放大或缩小的时候.都会有不同程度的性能下降。

表9不同窗口大小实验结果对比
(单位：％)窗口大小
主要角色+其他全部角色
Acc F,Acc F, 3086.1387.2681.7256.81
4086.5487.8081.9357.90
108中文信息学报2021 年
续表窗口大小
主要角色+其他全部角色
A c c F,A c c F,
5087.9889.0383.2959.99
6087.4488.4482.4256.06
7086.6287.7081.9756.46
5 结论
面向多方对话中的角色识别任务，本文在现有模型的基础上进行了改进，提出了一种基于多尺度自注意力增强的方法，该方法能够利用不同尺度的自注意力机制，获得不同方面的信息，从而达到对最终的编码信息增强的效果。

在SemEval2018 T ask4 数据集上的实验结果证明本文提出方法的有效性。

尽管本文提出的方法已经取得了一定的效果，但是还有提升空间。

首先，本文并未加入语言模型，借助语言模型，模型的性能大概率还能进行提升；其次，在局部注意力的使用上，生硬地划定窗口大小这个方法还不够完美，可以细化改进；最后，由于数据集来自剧本，与真实场景下的多方对话可能还存在着一些差异。

因此.构建整理真实场景下的多方对话数据集，也将是我们下一步工作的重点。

参考文献
[1]C h e n H Y» Z h o u E» C h o i J D. R o b u s t c o r e f e r e n c e r e s
o l u t i o n and e n t i t y lin k in g o n d i a l o g u e s：C h a r a c t e r i d e n
tific a t io n o n T V s h o w t r a n s c r i p t s[C]//P r o c e e d i n g s o f
t h e21s t C o n f e r e n c e o n C o m p u t a t i o n a l N a t u r a l L a n
g u a g e L e a r n in g s2017：216-225.
[2]C h e n Y H* C h o i J D. C h a r a c t e r id e n tif ic a t io n o n m u l t i
p a rty c o n v e r s a t i o n：I d e n t if y in g m e n t i o n s o f c h a r a c t e r s
in T V s h o w s[C]//P r o c e e d i n g s o f t h e17t h A n n u a l
M e e t i n g o f t h e S p e c ia l In t e r e s t G r o u p o n D i s c o u r s e and
D i a l o g u e，2016:90100.
[3]C h o i J D« C h e n H Y. S e m E v a l2018t a s k4：C h a r a c t e r
i d e n tif ic a t io n o n m u l t i p a r t y d i a l o g u e s[C]//P r o c e e d i n g s
o f t h e12th In t e r n a t io n a l W o r k s h o p o n S e m a n t i c E v a l u
a t i o n,2018：57-64.
[4]A i n a L» S ilb e r e r C» S o r o d o c I. et al. A M O R E-U P F at
S e m E v a l-2018t a s k4：B i L S T M w i t h e n t i t y lib ra ry
[C]//P r o c e e d i n g s o f t h e12t h In t e r n a t io n a l W o r k s h o p
o n S e m a n t i c E v a lu a t io n*2018：65-69.[5]P ark C» S o n g H.L e e C. K N U C l s y s t e m at S e m E v a l-
2018t a s k4:C h a r a c t e r id e n tific a tio n b y s o l v i n g s e
q u e n c e-la b e lin g p r o b l e m[C]//P r o c e e d i n g s o f the 12th
In tern a tio n a l W o r k s h o p o n S e m a n t ic E v a l u a t i o n，
2018：655-659.
[6]H a n K,C h o i S H,S h in G» et al. C h a ra cter id e n tific a
tion o n m u l t i p a r t y d i a l o g u e s u s i n g m u l t i m o d a l fe a tu r e s
[C]//P r o c e e d i n g s o f t h e30t h A n n u a l C o n f e r e n c e on
H u m a n an d C o g n i t i v e L a n g u a g e T e c h n o l o g y，2018：
215-219.
[7]B a h d a n a u D» C h o K.B e n g i o Y. N e u r a l m a c h in e t r a n s
latio n b y j o i n t l y le a r n in g to alig n and tr a n sla te[ J ].
a rX iv p rep rin t a r X iv:1409.0473，2014.
[8]L u ong M T» P h a m H,M a n n in g C D. Effective approa
ches to a tten tion-b ased neural m achine translation [C]//
P roceedings o f the 2015C on feren ce on Empirical M eth od s
in Natural L an g u a g e P r o c e ss in g, 2015：1412-1421.
[9]V a s w a n i A，S h a z e e r N，P a r m a r N» et al. A t t e n t i o n is
all y o u n e e d[C]//P r o c e e d i n g s o f the 31s t A n n u a l C o n
fe r e n c e o n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s，
2017：5998-6008.
[10]L ee K，H e L* L e w i s M» et al. E n d-to-e n d n e u r a l
c o r e f e r e n c e r e s o l u t i o n[C]//P r o c e e
d i n g s o f th e2017
C o n f e r e n c e o n E m p ir ic a l M e t h o d s in N a tu ra l Lan
g u a g e P r o c e s s i n g.2017：188-197.
[11]Fei H，Li X，Li D，et al. E n d-t o-e n d d e e p r e in f o r c e
m e n t le a r n in g b a s e d c o r e f e r e n c e r e s o l u t i o n[C]//P r o-
c e e
d i n g s o f t h e57t h A n n u a l M
e e t i n g o
f t h e A s s o c i a
tio n fo r C o m p u t a t i o n a l L in g u istic s^2019：660-665. [12]Y a n g Z» Y a n g D,D y e r C* et al. H ier a r c h ic a l a t t e n
tion n e t w o r k s for d o c u m e n t c la s sif ic a tio n [ C]//P r o
c e e
d i n g s o f t h e2016C o n f
e r e n c e o
f th e N o r t h A m e r i
can C h a p t e r o f t h e A s s o c i a t i o n for C o m p u t a t io n a l
L i n g u i s t i c s，2016:1480-1489.
[13]袁和金，张旭，牛为华，等.融合注意力机制的多通道
卷积与双向G R U模型的文本情感分析研究[J].中文
信息学报，2019,33(10):109-118.
[14]赵资.吴瑶，王中卿，等.基于注意力机制与文本信息
的用户关系抽取[J].中文信息学报，2019,33(03):
87-93.
[15]W a n g W，Y a n M，W u C. M u lt i-g r a n u la r ity h ie r a r c h i
cal a t t e n t i o n f u s i o n n e t w o r k s for rea d in g c o m p r e h e n
s io n an d q u e s t i o n a n s w e r i n g[C]//P r o c e e d i n g s o f the
56t h A n n u a l M e e t i n g o f t h e A s s o c i a t i o n for C o m p u t a
tional L i n g u i s t i c s，2018:1705-1714.
[16]张禹尧，蒋玉茹，毛腾.等.M C A-R e a d e r:基于多重联
结机制的注意力阅读理解模型[J].中文信息学报，
2019,33(10):73-80.
[17]郑玉昆，李丹，范臻，等.T-R e a d e r:—种基于自注意力
机制的多任务深度阅读理解模型[J].中文信息学报，
2018,32(11):128-134.。