【CN110059160A】一种端到端的基于上下文的知识库问答方法及装置【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910306552.8
(22)申请日 2019.04.17
(71)申请人 东南大学
地址 211189 江苏省南京市江宁区东南大
学路2号
(72)发明人 周德宇 林超
(74)专利代理机构 南京苏高专利商标事务所
(普通合伙) 32204
代理人 孟红梅
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06N 3/04(2006.01)
(54)发明名称
一种端到端的基于上下文的知识库问答方
法及装置
(57)摘要
本发明公开了一种端到端的基于上下文的
知识库问答方法及装置,考虑了知识库中实体和
关系的连接关系,使得其包含的实体链接和关系
预测两个任务相互促进,共同提升。方法主要包
括:对问题进行预处理,去除特殊符号;基于知识
库构建与问题相关的候选实体集合,并根据候选
实体在知识库中相关联的关系构建候选关系集
合;对于每个候选集合中的每个实体,抽取实体
在问题中的上下文;对候选关系进行不同粒度的
划分;基于CERM模型预测主语实体和谓语关系;
利用预测的主语实体和关系在知识库中找到宾
语实体作为答案返回。本发明将知识库问答中的
实体链接与关系预测融入一个统一的预测模型
中,实现了主语实体和关系的联合预测,提高了
问答的准确率。权利要求书2页 说明书6页 附图3页CN 110059160 A 2019.07.26
C N 110059160
A
权 利 要 求 书1/2页CN 110059160 A
1.一种端到端的基于上下文的知识库问答方法,其特征在于,包括以下步骤:
(1)对自然语言问题进行预处理,过滤特殊字符;
(2)基于知识库构建与问题相关的候选主语实体集合,并根据候选实体在知识库中相关联的关系构建候选谓语关系集合;
(3)对于每个问题的候选主语实体集合中的每个实体,抽取实体在问题中的上下文;
(4)对于每个问题的候选谓语关系集合中的每个关系进行不同粒度的划分;
(5)基于CERM模型进行训练,通过训练数据学习主语实体的上下文表示和谓语关系的不同粒度的表示,使得正确的实体和正确的关系的相似度更高;在测试阶段,返回候选实体列表和候选关系列表中得分最高主语实体和谓语关系;
(6)利用预测的主语实体和谓语关系在知识库中找到宾语实体作为答案返回。
所述CERM模型包括:
实体编码器单元:利用深度神经网络模型对实体的上下文进行序列建模,将候选实体转化为一个包含问题上下文语义的低维空间的分布式向量;
关系编码器单元:将划分后的关系看作一个序列,利用深度神经网络将划分后的关系转化为包含关系语义的一个分布式向量;
实体和关系得分列表单元:将一个自然语言问题的候选主语实体和候选谓语关系分别通过所述实体编码器和关系编码器得到的特征向量进行点积运算得到实体和关系的相似度矩阵,对矩阵分别进行行方向和列方向的最大池化操作得到关系相似度得分列表和实体相似度得分列表;
实体和关系预测单元:在训练阶段,通过最小化对数归一化指数损失,使得候选实体和候选关系相似度得分列表中正确的实体和关系的得分更高;测试阶段,返回主语实体和谓语关系得分列表中得分最高的实体和关系。
2.根据权利要求1所述的端到端的基于上下文的知识库问答方法,其特征在于:所述步骤(2)中构建候选主语实体和谓语关系集合的方法包括如下步骤:
收集知识库中的实体标签名,形成待检索实体库;
在上述实体库中检索与问题q中单词或词组相匹配的实体名称,构成候选实体集合C s;
为了去除集合C s中与问题没有完全匹配或匹配的字符串不连续的冗余实体名称,抽取问题q中所有的长度为i的序列形成集合C,i=1…n,n为问题q的长度,如果上述候选实体集合C s中的实体名称未出现在集合C中,则进行过滤,得到新的候选实体集合C s;
对于候选实体集合C s中的每个候选实体,抽取知识库中与其相连接的所有关系p形成候选关系集合C p。
3.根据权利要求1所述的端到端的基于上下文的知识库问答方法,其特征在于:所述步骤(3)中,抽取候选实体在问题中的上下文的方法是:对于候选实体S,将问题q=(w1,w i,…, w l)中与候选主语实体S名称相匹配的子序列w i利用特殊字符
4.根据权利要求1所述的端到端的基于上下文的知识库问答方法,其特征在于:所述步骤(4)中,按照“关系级”、“词组级”和“单词级”对候选谓语关系进行三种粒度的划分。
5.根据权利要求3所述的端到端的基于上下文的知识库问答方法,其特征在于:所述步骤(5)中,实体编码器单元对实体上下文进行时序建模学习得到上下文中每个单词的特征
2