【CN109947921A】一种基于自然语言处理的智能问答系统【专利】

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 (43)申请公布日 (21)申请号 201910207884.0

(22)申请日 2019.03.19

(71)申请人 河海大学常州校区

地址 213000 江苏省常州市晋陵北路200号

(72)发明人 陈婧怡 陈慧萍 杜鹏 丁翰雯 

(74)专利代理机构 南京纵横知识产权代理有限

公司 32224

代理人 董建林

(51)Int.Cl.

G06F 16/332(2019.01)

G06F 16/31(2019.01)

(54)发明名称

一种基于自然语言处理的智能问答系统

(57)摘要

本发明公开了一种基于自然语言处理的智

能问答系统,包括知识库构建模块、问答对管理

模块以及问答匹配模块;所述知识库构建模块包

括文档预处理模块、构建文档结构树模块以及构

建问答对模块;所述问答对管理模块包括任务管

理模块、文档管理模块、关键词管理模块以及问

答对操作模块;所述问答匹配模块用于将用户所

提问题和知识库生成模块所创建的问答对进行

匹配,本发明从文档中提取尽可能多的高质量问

答对,

答复提高了知识库的检索效率和准确度。权利要求书2页 说明书7页 附图2页CN 109947921 A 2019.06.28

C N 109947921

A

权 利 要 求 书1/2页CN 109947921 A

1.一种基于自然语言处理的智能问答系统,其特征在于,包括知识库构建模块、问答对管理模块以及问答匹配模块;所述知识库构建模块包括文档预处理模块、构建文档结构树模块以及构建问答对模块;所述问答对管理模块包括任务管理模块、文档管理模块、关键词管理模块以及问答对操作模块;所述问答匹配模块用于将用户所提问题和知识库生成模块所创建的问答对题进行匹配。

2.根据权利要求1所述的一种基于自然语言处理的智能问答系统,其特征在于,所述文档预处理模块用于过滤文档中的无用信息,过滤过程包括:

采用正则表达式过滤所接收到文档中的无用信息输出文件集OUT1;

采用最长公共子序列算法去除文件集OUT1中的重复部分得到文件集OUT2;

将文件集OUT2按照设定的粒度进行分类,去除各分类文档中的公有部分,得到包含目录和正文的文件集OUT3;

采用最长公共子串算法对文件集OUT3进行分类,除去各分类文档的公有部分,得到正文集合OUT4。

3.根据权利要求2所述的一种基于自然语言处理的智能问答系统,其特征在于,所述构建文档结构树模块用于构建文档结构树,构建过程包括:

1)分析得到正文的HTML源码,根据深度优先遍历构建HTML树;

2)调节构建好的HTML树的结构,使树的叶子节点可以直接构成问答对的答案部分,生成文档结构树;

3)深度遍历文档结构树,生成问题关键词结构树。

4.根据权利要求3所述的一种基于文档结构树的问答对自动构建方法,其特征在于,生成问题关键词结构树的规则如下:

a)遍历到叶子节点;

b)孩子节点中存在表示句意完整的标点;

c)孩子节点存在分支,并且符合以下判定规则:

c1)各孩子节点语义近似;

c2)各孩子子树结构相同。

5.根据权利要求3所述的一种基于自然语言处理的智能问答系统,其特征在于,所述问答对模块用于构建问答对,构建过程包括:

1)问答对构建模块将得到的文档结构树进行深度优先遍历,将得到的每一条路径中的关键词集合作为问题备选关键词,并对叶子节点的父节点进行遍历去除父节点信息后构成答案,产生关键词组-答案集合;

2)生成问题后,在构建问答对时,如果关键词、问句、答案有任何一部分为null值,则舍弃该问答对;

3)去除重复的问句,初步得到问答对,以根节点作为关键词,如果关键词与问题不匹配,则利用分词与命名实体抽取方法生成关键词作为该问答对的关键词;

4)遍历过程中遇到纯问句不进入问题生成流程,直接将问句作为问题,下属节点作为答案,作为问-答对并对问句做命题实体抽取,构成关键词导出。

6.根据权利要求5所述的一种基于自然语言处理的智能问答系统,其特征在于,生成问题具体为:对于问题关键词结构树进行中文分词构建自定义词库,再通过语义模板法生成

2

相关文档
最新文档