一种多模型融合的问题生成算法设计与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种多模型融合的问题生成算法设计与实现QA系统以自然语言形式的问题句为输入,从海量结构化数据或非结构化文
本中推断问题答案作为输出。目前大部分的QA系统都需要将问答对标记为训练数据,但精标数据集非常昂贵,且大小有限、领域限定。
因此,本文探索QG算法,从包含答案片段的篇章段落入手,以句子中的知识点/事实为答案,逆向生成多角度的、信息量丰富的问句。本文的主要工作如下:(1)在综述QG国内外研究现状的基础上,实现了一种多模型融合的QG算法。
给定文本段落作为输入,并行执行两种QG模型、两种QG优化模型,得到各自的生成问题句集合,将其输入多QG模型融合模块计算得分,得分前十的问题句作为输出。(2)提出并实现了基于问题模式预测的QG模型。
从社区问答网站自动抓取大规模问答对,处理后作为训练数据,通过问题模式挖掘、问题模式预测、问题主题词选择、问题排序四个步骤,实现问题生成。
(3)在序列到序列的生成式框架的基础上,实现了基于网格波束搜索的词汇约束译码算法LCD-GBS,结合自训练语义相关词表,实现端到端的问题生成。
(4)探讨了QA和QG这两大NLP任务之间的相关性。采用两种思路学习二者之间的关系,将二者看作联合学习任务,试图同时改进二者。
第一种思路视二者为对偶任务,提出并实现同时训练QA和QG模型的算法框架,并明确利用二者的概率相关性来指导训练过程。QA模型基于RNN实现,QG模型基于LCD-GBS的序列到序列生成式框架实现。
第二种思路视二者为对抗协作任务。与标准的生成对抗网络GAN不同,GCN 中QA模型(判别模型)与QG模型(生成模型)之间并不总是竞争关系。
实验表明,GCN能同时改善QA和QG任务,且在QA准确性方面,“协作”优于
“竞争”。(5)实现了多QG模型融合模块,将语法规则、主题规则、多样性、相关性四大评测标准融入线性加权模型,计算生成的候选问题句得分。
本文以随机抽取的3万条Quora问答对为测试集,以BLEU为自动评测标准,结合5名志愿者人工打分作为最终评测。相较于基础的Seq2Seq模型,本文提出的多模型融合的QG算法BLEU得分提升26.3%,相关度得分提升47.8%,类型正确得分提升52.0%,提问正确得分提升28.6%,流利度得分提升56.5%,提问明确度得分提升18.5%,问题多样性得分提升70.0%。