一种基于显式定位的机器阅读理解方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

㊀第53卷第3期郑州大学学报(理学版)Vol.53No.3㊀2021年9月J.Zhengzhou Univ.(Nat.Sci.Ed.)Sep.2021
收稿日期:2020-10-04
基金项目:国家重点研发计划项目(2020YFC2003400,SQ2019ZD090149);国家自然科学基金项目(62072465);国家科技重大专项重大新药创制(2018ZX09201-014)㊂
作者简介:邓超宇(1996 ),男,硕士研究生,主要从事自然语言处理研究,E-mail:dcy@;通信作者:肖晓强(1972 ),男,教授,主要从事无线网络与移动计算研究,E-mail:xqxiao@㊂
一种基于显式定位的机器阅读理解方法
邓超宇,㊀赵㊀山,㊀肖晓强,㊀蔡志平
(国防科技大学计算机学院㊀湖南长沙410073)
摘要:大多数机器阅读理解模型是基于具有各种注意力机制的端到端深度学习网络,但此类模型会损失句子级别
的语义信息㊂此外,现有数据集中的问题通常不需要复杂的推理,并且答案仅与背景段落中的少量句子相关㊂基
于此,提出将机器阅读理解模型划分为两层:第一层用于查找段落中与问题相关的句子并生成新的背景段落;第二
层则根据减小了规模的段落做进一步的答案提取㊂实验结果表明,在定位了相关句子后预测性能有所提高㊂
SQuAD 阅读理解数据集也被划分为两部分,以适应新的框架训练需求,并使用新的数据集测试了相关内容的长度对机器阅读理解模型效果的影响㊂
关键词:机器阅读理解;自然语言处理;深度学习;定位
中图分类号:TP181㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2021)03-0037-05DOI :10.13705/j.issn.1671-6841.2020316
0㊀引言
基于文档的自动问答(document-based question-answering,DBQA),也称机器阅读理解(machine reading comprehension,MRC),是自然语言处理领域一项十分重要的任务㊂机器阅读理解旨在让机器能像人类一样阅读文章和理解其中的具体含义,并据此回答指定的相关问题,以自然语言的形式给出答案[1]㊂早期因受数据集限制,机器阅读理解一直被视为一种很困难的任务而没有得到太大的发展㊂2013年左右,由于机器学习技术的迅速发展,出现了一批以MCTest [2]为代表的监督数据集,许多机器学习模型也由此诞生㊂但是,一方面这些模型十分依赖基于规则手工构造的特征,另一方面数据集本身规模不够庞大,因此训练结果不佳且模型泛化能力较差㊂随着深度学习技术的不断成熟以及硬件技术进步带来的算力提升,机器阅读理解技术在2015年出现了实质性的突破进展㊂从2015年开始,机器阅读理解的子任务体系逐步确立,针对各种特定任务的高质量数据集也不断涌现㊂
目前,机器阅读理解一般被划分为以下四个子任务㊂①完形填空㊂该类任务会从文章中挖去部分词汇,通过训练模型去填补这些空缺㊂此任务相关数据集有CNN /Daily Mail [3],是从新闻报道中选取的文章㊂②多项选择㊂给定一篇文章,提供相关问题并给出几个候选答案,让机器从中选择正确答案㊂此任务相关数据集有RACE [4],文章与问题从中学生英语考试阅读理解题目中选取㊂③片段抽取㊂给定背景文章,提供相关问题,要求从文章中抽取连续的词汇序列作为答案㊂此任务相关数据集有SQuAD [5],由斯坦福大学研究人员基于维基百科词条内容手工构造而成㊂④自由问答㊂提供文章与相关问题,要求机器自动生成一段文本作为答案㊂由于没有候选答案,最终答案也不一定能从文章中抽取,因此是目前最困难的子任务㊂此任务相关数据集有百度的DuReader [6]和微软的MS MARCO,分别针对中文问答与英文问答,数据集基于搜索引擎与互联网内容生成㊂
片段选择式阅读理解是研究热度较高的一项任务,该任务对应的SQuAD1.1及SQuAD2.0版本问答数据集近年来获得了大量关注,带动了一大批基于神经网络的机器阅读理解模型的发展㊂然而,当前的片段选择式机器阅读理解领域的通用方法框架及数据集存在以下问题:SQuAD 数据集中的大部分问题只需要基于
郑州大学学报(理学版)第53卷对应文章中的某几个甚至一个句子即可给出答案,而文章中的其余部分对于回答问题并无必要㊂因此,本文对基于SQuAD 数据集的片段选择式阅读理解任务进行划分,定位到文章中与问题最相关的部分,在据此提升了文本的问题相关度后,再进行下一步的答案提取,研究机器阅读理解模型在探究语义中所起到的具体作用㊂实验结果表明,在定位了相关句子后预测性能得到提升
㊂
图1㊀片段选择式机器阅读理解模型框架Figure 1㊀The architecture of span-extraction machine reading comprehension models
1㊀相关工作
片段选择式阅读理解任务发展至今,已经有了相对较为统一的
算法框架㊂图1为片段选择式机器阅读理解模型框架,其中包括嵌
入编码层㊁上下文层㊁注意力层㊁答案预测层四个模块㊂嵌入编码层
负责将自然语言转化成可操作的向量,具体方法由早期的one-hot㊁
word2vec [7]等逐渐发展为基于上下文训练的ELMo [8]㊁GPT [9]㊁Cove 等模型;上下文层负责处理编码层输出的词向量,抽取更多的上下
文特征信息,该模块常用的结构包括CNN㊁RNN 与Transformer [10]
等;注意力层的主要作用是计算文章各部分与问题之间的关联度,
该模块是传统框架主要创新工作所在,如今已发展了层次融合注意
力㊁位置注意力等多种注意力机制;答案预测层负责输出结果,为了
便于训练及预测,片段选择式机器阅读理解模型只负责输出答案在
文章中的起始位置与结束位置,这样可以将该任务转化为分类
问题㊂
文献[3]基于CNN 和Daily Mail 构建了完形填空式的机器阅读理解数据集,并将深度神经网络应用于机器阅读理解任务中,开启了机器阅读理解领域的新时代;文献
[11]提出BiDAF 模型,构建了片段选择式阅读理解模型的分层结构,即嵌入层㊁上下文层㊁注意力层与预测层;文献[12]提出QANet 模型,将自注意力和批次归一化等技巧应用到机器阅读理解中㊂自2018年谷歌团队提出BERT 模型开始,多种预训练语言模型[13-14]在机器阅读理解领域中取得了显著的效果㊂本文对机器阅读理解任务和数据集进行层次划分,将传统算法的文章-单词结构变为文章-句子-单词结构㊂2㊀数据集处理与任务定义
原始的SQuAD1.1版本数据集是由文献[5]提出的片段选择式阅读理解数据集㊂该数据集包含10万多个问题,文本来自于536篇维基百科文章,而问题和答案的构建主要是通过众包的方式,让标注人员提出最多5个基于文章内容的问题并提供正确答案,且答案出现在原文中㊂SQuAD 和其他类别的机器阅读理解数据集如CNN /Daily Mail 等最大的区别在于:SQuAD 中的答案并非一定是单个实体,也可能是一段短语,这增加了答案预测的难度㊂正如上文所述,SQuAD 数据集中的大多数问题都可以基于文章中的某几句甚至某一句即可作答㊂而当前针对该数据集设计的机器阅读理解模型,大多是基于整篇文章与问题进行答案预测的端到端系统,即便文章中大多数内容对于回答给定问题并无意义㊂如此,这类阅读理解模型的发展方向与当前阶段的阅读理解任务是存在出入的,当给定的文章整体内容和问题高度相关时,训练模型的语义分析和推理能力才更有价值㊂
本文出于以下两点考虑将数据集重新整理㊂①按人类习惯进行阅读理解的过程中,往往会基于问题迅速定位到文章中可能与之相关的句子㊂以此作为参考,可以设计与之近似的注意力机制㊂②现有阅读理解模型通常会将文章进行令牌化处理从而形成令牌序列,这种将文章级别降维到词级别的处理方式会导致所有单词处于同等地位㊂事实上,处于不同句子中的单词对于答案推断的贡献是不同的,虽然现有做法中后续也会通过注意力机制关注到文章中的相关部分,但却会损失句子这个中间级别的语义信息㊂
图2为SQuAD 数据集的一个问答示例㊂图3为原始SQuAD 数据集结构及划分后的两个数据集结构㊂
在原始数据集中,每个样本包含一篇文章全文P ㊁据此提出的数个问题Q i 以及各自对应的答案A i ,答案内83
㊀第3期邓超宇,等:一种基于显式定位的机器阅读理解方法容包含其自然语言形式及其在文章中的位置L i ㊂其中,答案位置指答案起始字符在全文字符序列中的顺序
值㊂划分后的第1个数据集中,每个样本包含一篇文章全文P ㊁数个问题Q i 以及答案所在句子的位置Lᶄi ,并
舍弃原本的答案内容㊂其中,答案所在句子位置Lᶄi 的确定方式为:统计P 中各个句子在字符层次的起始位置与结束位置,形成句子的区间集合,根据原数据集中的答案位置判定答案起始字符所处的区间,由此记录答案所在句子的句子层次的顺序值㊂划分后的第2个数据集不再保留文章全文P ,而是将针对每一个问题提取出的答案相关内容作为新的文章Pᶄ,考虑到原数据集中仍有少部分问题需要不止一个相关句子作答,以答案所在句子为中心进行不同程度的扩展:各保留其左右n 个句子(实验中n =0,1,2),以观察不同规模的文章对于模型训练及预测的影响㊂进而可以将原始规模的片段选择式阅读理解任务转换成两个新任务:根据问题选取文章中与之最相关的句子;根据预测的相关句子及其周围若干句子组成的相关内容进行答案的抽取㊂第1个任务可以形式定义为:给定一个问题q 和与之对应的背景文章P ={s 1,s 2, ,s n , ,s t },s 为文章的句子,1ɤn ɤt ,t 为文章的句子数,目标是利用模型得到文章中句子与问题的相关度r i (s i ,q ),1ɤi ɤt ,以及文章中的问题最相关句子s =arg max(r i ),并依据实验设置获取其周边句子与之共同构成新的文
章Pᶄ㊂第2个任务可以形式定义为:给定显示定位到的答案相关内容Pᶄ={p 1,p 2, ,p m , ,p u },p m 是新文章的单词,1ɤm ɤu ,目标是获取每个单词作为答案起始位置的概率start _p j 和结束位置的概率end _p j ,
并从最优结果获得答案起点a start 和终点a end ,1ɤa start ɤa end ɤu ,进而生成答案A ={p a start ,p a start +1, ,p a end }
㊂图2㊀SQuAD 数据集的一个问答示例
Figure 2㊀A question and answer example of the SQuAD
dataset 图3㊀原始SQuAD 数据集结构及划分后的两个数据集结构
Figure 3㊀The structure of original SQuAD dataset and the structure of two datasets after partition
3㊀实验结果分析
为探究将机器阅读理解任务及其模型进行分层后,在显式定位了文章中与答案相关内容的情况下模型的训练与预测效果,使用不同长度的文章对模型进行了训练,并测试了在给定不同长度相关内容的情况下模型的答案预测效果㊂使用QANet 作为本实验的基础模型,采用模糊匹配值F 1_score 与精确匹配值EM 作为测试指标㊂其中,每个问题的EM 值可以表示为
EM =0,str g ʂstr p ,1,str g =str p ,{
(1)
式中:str g 指真实答案;str p 指预测答案㊂将所有问题的EM 值相加除以问题总数即为预测的总EM 值㊂在使用EM 指标时,只有当预测答案与真实答案完全一致时才认定预测成功㊂
F 1_score 可以表示为
F 1_score =2w c w p +w g ,(2)93
郑州大学学报(理学版)第53卷式中:w p 为预测答案片段所包含单词数量;w g 为真实答案片段所包含单词数量;w c 为预测答案与真实答案重合的单词数量㊂不同规模训练样本与测试样本下模型的收敛过程如图4所示㊂i _to_j (i ,j ɪ{all,1,3,5})表示训练文本与测试文本的不同规模㊂其中:all 表示用原文长度进行训练或预测;1表示训练与测试所使用的文章中相关内容只包含答案所在的句子;3表示答案的相关内容包含答案所在句子及其左右的各一个句子;5表示答案的相关内容包含答案所在句子及其左右的各两个句子㊂当答案所在句子位于文章起始或结束位置时,则截去超出文章范围的部分㊂从图4可以看出,在使用原文本进行训练后,预测时若界定了答案的相关内容范围,测试效果明显要比不给定范围时好,且界定范围越小,预测越准确㊂表1展示了不同规模样本的预测性能结果
㊂
图4㊀不同规模训练样本与测试样本下模型的收敛过程
Figure 4㊀Convergence process of the model with different training and testing samples
表1㊀不同规模样本的预测性能结果
Table 1㊀Prediction performance results of samples with different sizes 单位:%
规模F 1_score EM
all_to_all 79.8670.58all_to_581.7173.07all_to_382.6073.69all_to_184.0874.305_to_583.6274.083_to_384.0074.161_to_183.14
73.09㊀㊀从表1可以看出,在all_to_1情况下,即预测时只给定答案相关句子,所得F 1_score 和EM 值分别比all_to_all(原始的训练与测试)高出4.22%和3.72%㊂在同时缩短训练及预测文本的长度时,最终的预测效果同样要比原文本好,其中预测准确度最高的是3_to_3,而非1_to_1或5_to_5㊂该结果表明,SQuAD 数据集中的确含有少量问题只靠单个句子无法得出正确答案,需要联动其周边的句子信息进行简单的推理,而周边句子范围限定在3个时便足以保证预测效果;当句子范围上升为5个时,因内容整体相关度有所降低,反而对模型预测造成干扰,导致精度下降㊂上述实验结果证实了提高文章内容与问题相关度对于机器阅读理解模型
04
14㊀第3期邓超宇,等:一种基于显式定位的机器阅读理解方法
预测性能的提升,并且将传统的端到端系统分为两层后,提高了模型的可解释性㊂未来机器阅读理解研究可将重点放在如何迅速准确地定位到文章的问题相关内容,以及如何在已知文本和问题强相关时设计出能够充分进行语义分析和推理的阅读理解模型㊂
4　小结
本文提出将传统的机器阅读理解任务划分为两个层次的子任务,即根据所给文章和问题选择文章中与问题相关的内容,并根据缩小规模后的文章进行答案的预测㊂实验结果表明,在显式界定了答案相关内容后,机器阅读理解模型的预测性能有所提升㊂此外,探究了不同规模训练文本和测试文本下模型的表现㊂未来将继续研究利用基于本体的语义相似度等对文章中合适规模的答案相关内容进行准确定位,并基于此探究SQuAD2.0版本中不可回答问题的判定方式㊂
参考文献:
[1]㊀张超然,裘杭萍,孙毅,等.基于预训练模型的机器阅读理解研究综述[J].计算机工程与应用,2020,56(11):17-25.
ZHANG C R,QIU H P,SUN Y,et al.Review of machine reading comprehension based on pre-training language model[J].
Computer engineering and applications,2020,56(11):17-25.
[2]㊀RICHARDSON M,BURGES C,RENSHAW E.MCTest:a challenge dataset for the open-domain machine comprehension of
text[C]ʊProceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computational Linguistics,2013:193-203.
[3]㊀CHEN D Q,BOLTON J,MANNING C D.A thorough examination of the CNN/Daily Mail reading comprehension task[C]ʊ
Proceedings of the54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:Association for Computa-tional Linguistics,2016:2358-2367.
[4]㊀LAI G K,XIE Q Z,LIU H X,et al.RACE:large-scale reading comprehension dataset from examinations[C]ʊProceedings of
the Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computational Linguistics, 2017:785-794.
[5]㊀RAJPURKAR P,ZHANG J,LOPYREV K,et al.SQuAD:100000+questions for machine comprehension of text[C]ʊ
Proceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computation-al Linguistics,2016:2383-2392.
[6]㊀HE W,LIU K,LIU J,et al.DuReader:a Chinese machine reading comprehension dataset from real-world applications[C]ʊ
Proceedings of the Workshop on Machine Reading for Question Answering.Stroudsburg:Association for Computational Linguis-tics,2018:37-46.
[7]㊀MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[EB/OL].[2020-04-
25].https:ʊ/pdf/1301.3781.pdf.
[8]㊀PETERS M E,NEUMANN M,IYYER M,et al.Deep contextualized word representations[C]ʊProceedings of the Conference
of the North American Chapter of the Association for Computational Linguistics.Stroudsburg:Association for Computational Lin-guistics,2018:2227-2237.
[9]㊀MCCANN B,BRADBURY J,XIONG C,et al.Learned in translation:contextualized word vectors[C]ʊProceedings of the
Advances in Neural Information Processing Systems.Cambridge:MIT Press,2017:6294-6305.
[10]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]ʊProceedings of the Advances in Neural Infor-
mation Processing Systems.Cambridge:MIT Press,2017:5998-6008.
[11]MINJOON S,ANIRUDDHA K,ALI F,et al.Bidirectional attention flow for machine comprehension[EB/OL].[2020-05-06].
https:ʊ/pdf/1611.01603.pdf.
[12]ADAMS W Y,DAVID D,MINH T L,et al.QANet:combining local convolution with global self-attention for reading compre-
hension[EB/OL].[2020-05-06].https:ʊ/pdf/1804.09541.pdf.
[13]YANG Z,DAI Z,YANG Y,et al.XLNet:generalized autoregressive pretraining for language understanding[C]ʊProceedings
of the Advances in Neural Information Processing Systems.Cambridge:MIT Press,2019:5753-5763.
[14]ZHANG Z Y,HAN X,LIU Z Y,et al.ERNIE:enhanced language representation with informative entities[C]ʊProceedings of
the57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:Association for Computational Linguis-tics,2019:1441-1451.
(下转第49页)
94㊀第3期张立强,等:基于ARM指针认证的信息流控制系统Information Flow Control System Based on ARM Pointer Authentication
ZHANG Liqiang,CHEN Qingsong,YAN Fei
(Key Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education, School of Cyber Science and Engineering,Wuhan University,Wuhan430072,China) Abstract:In order to solve the problems of security isolation and privacy data leakage in the internet of things(IoT)devices,the information flow control between the Unix-like operating system thread was studied.Based on the hardware security extension(ARM pointer authentication)and the decentralized information flow control(DIFC)model,the thread with security tags and integrity tags were labled,pro-viding fine-grained security isolation within the process address space and protections of sharing memory and multithreading.Some security primitives and security check hooks were added in the kernel to pre-vent unauthorized data access between threads effectively.The evaluations showed that the hardware-as-sisted information flow control system could achieve significant performance improvement.And the proto-type system induced a small memory footprint and runtime overhead in the practical IoT use case(the OpenSSL and Apache HTTP server).
Key words:pointer authentication;decentralized information flow control;thread label;security isola-tion;privacy protection
(责任编辑:王浩毅㊀方惠敏)
(上接第41页)
A Method of Machine Reading Comprehension Based on
Explicit Positioning
DENG Chaoyu,ZHAO Shan,XIAO Xiaoqiang,CAI Zhiping
(School of Computer,National University of Defense Technology,Changsha410073,China) Abstract:Most machine reading comprehension(MRC)models were based on end-to-end deep learning networks with various attention-mechanisms,but such models would lose sentence-level semantic informa-tion.Additionally,complex reasoning was unnecessary for answering questions in existing datasets,and the answers were only related to a few sentences in the background passages.Based on this,machine reading comprehension models were proposed to be divided into two stages.The first stage searched sen-tences related to questions and generated new background passages.The second stage then extracted an-swers based on these reduced passages.Experiments results confirmed that the prediction performance was improved after locating the related sentences.The SQuAD MRC dataset was also divided into two parts to adapt to the training of the new framework.The new datasets were also used to test the influence of the scale of the relevant content on the performance of MRC models.
Key words:machine reading comprehension;natural language processing;deep learning;location
(责任编辑:孔㊀薇㊀王浩毅)。