基于自动生成知识库的智能问答系统设计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
智能问答系统的基本特征是通过语法解析及语义分析, 将庞杂的无顺序的信息进行有序分类和科学归纳,并用搜索 的方式快速查询答案返回给用户。
知识库是智能问答系统的关键部件和基础,其核心技术 方法是知识抽取、问句语义表征和答案生成。近些年我国的 研究成果,如句法分析、语法分析等自然语言处理工具,以 及讯飞语点、搜狗语音助手等语音识别工具,为汉语知识库 问答研究奠定了比较好的基础。
尽管网页比纯文本的结构层的算法是放弃对网页标签结构的研究,即把一个网 页当成纯文本形式,将所有 h 标签作为问题。h 标签和 h 标 签中间必然存在解释前者的内容,将其分割后,一一对应提 取出来,作为常用答案库对加入数据库。
数据库表格成分为:
图 3 数据库描述词样例
每个网页都存在这种索引的代码,知识库的自动生成部 分可以从中提取专业名词加入词库中。原词库由 jieb(Python 语言中作中文 nlp 分析的库)提供,将提取出的专有名词以 中等频率写词库。专有名词能够在每句话中被分出,也可在 TF-IDF 算法中被识别为关键词。
词库应尽可能贴合知识库的方向。比如“云服务器是什 么?”用普通词库分出的关键词是“云”和“服务器”,而 想要的是“云服务器”这整个词,分词错误会影响后来的一 系列操作,所以应采用相关的词库,将描述的词加进词库。 把词频设为中等频率,因为过大的词频会影响推理机部分 TF-IDF 算法提取关键词,过小的词频又不能被分出。
知识库自动生成是通过自制定规则、借助标签从网页中 提取 QA 对,并通过文本结构树的思想整合答案的类型。
推理机处理模块通过问题分析、问题聚类取得用户的期 望问题类型和关键词。在此基础上,用关键词对知识库中总 结的概述词和答案进行文本相似度计算,得到目标答案。
-50-
2018-12 最终.indd 50
2018/6/8 20:40:53
CHINA SCIENCE AND TECHNOLOGY INFORMATION Jun.2018·中国科技信息 2018 年第 12 期
31 万~ 60 万◎
图 2 华为云网站页面样例
图 1 知识库自动生成流程图
WEBQA 系统立足实际应用,完成具有现实意义的目标: (1)减轻瞬间访问量。网上购物、业务咨询等方面的 问答需求量巨大,人工回答耗时耗力,智能问答可以减少人 工构建知识库的成本; (2)WEBQA 是基于一定领域开发的,针对一个领域 的开发,这样可以减少相关算法的复杂度和准确度。
◎ 31 万~ 60 万
中国科技信息 2018 年第 12 期·CHINA SCIENCE AND TECHNOLOGY INFORMATION Jun.2018 DOI:10.3969/j.issn.1001- 8972.2018.12.016
可实现度
可替代度
link
appraisement
北京工业大学,都柏林学院软件专业
标准问题:通过规则组合关键词生成 问题类型:通过问题分类得出 答案(常用答案库) 文本库(所有网页源码) 描述词:此数据的描述,由网页中提取出(如 3 图)。
推理机处理模块
构建推理机
根据文本相似度匹配算法,从问句分析着手,使用关键 词匹配和文本相似度匹配算法从知识库提取答案,如图 4 所 示。
WEBQA 系统的基本设计思路分两个步骤,即问题分析 和问题理解:首先对于用户输入的问题进行去除停用词,分 词并提出问句的关键词。再对问题做分类,以此提高准确度。 比如“服务器多少钱?”这种问题期望的答案是一个数字。 目前问题类型的识别方法有很多。在抽取问题的答案之前, 识别该问题的语义类型,再用关键词进行基于文本相似度匹 配的答案查询,其中将用到知识库中的概述词和问题答案, 使得抽取的答案更加精确。
行业曲线 industry
影响力
真实度
行业关联度
王飞鸿 基于自动生成知识库的
智能问答系统设计
本技术是一种基于自动生成知识库的智能问答系统。利 用爬虫知识从网页爬取有用信息作为 QA 对;通过关键词匹 配的算法改进制作推理机;在生成知识库时,将 QA 对的答 案提取出关键词,并存储到知识库中,作为用户匹配 QA 对 的关键数据。若网页中有描述即直接取,没有描述则用算法 提取;通过与用户的交互,自动反馈更新知识库,使知识库 越用越准确。
WEBQA 系统具有以下几个特征: (1)自动根据数据集生成知识库,通过文档结构树的 方法提取 QA 对。无需从大量篇幅中做语句分析或是实体识
别,从而提高系统效率和准确度; (2)自动收录专业名词训练词库。对用户提出的问题,
更准确地提取关键信息,从而使命中问答对数增高; (3)实现两种匹配方式:主题匹配和文本相似度匹配,
自动生成知识库
目前,自动生成知识库已作为实现实用的问答系统的一 个基本组成部分。WEBQA 系统针对网页形式的数据集自动 生成知识库,主要通过网页的标签进行答案的提取,并采用 创新的文本结构树算法对答案和问题进行分割,如图 1 所示。
WEBQA 系统基于网站生成知识库,利用网页中已有的 标签、结构进行实体提取。以华为云网站为例(图 2)。
现阶段知识库问答性能受到问句语义表征准确性、问答 对训练数据规模等因素的影响,在基于问句的搜索引擎中, 返回的答案准确性过低,不能对专业领域和同一类问题作精 准判别,阻碍了智能问答系统的发展。
为此,本文立足自动生成知识库的研究,通过模型构建, 设计并实现了网站型智能问答系统(简称为 WEBQA 系统)。 与其他问答系统实现相比,WEBQA 系统提出的方法尝试从 多重角度查找答案。通过测试,相对于基于关键字匹配方法, 系统具有更高的查询准确率;而对比基于模板匹配方法,系 统更加灵活。
不同于常规的关键词匹配; (4)通过与用户的交互实现知识库自我更新,使其提
供用户友好性。
系统模型
对于网站型智能问答的动态知识库系统,构建智能问答 系统模型,主要包括两个部分,一是自动生成知识库,建立 问题与答案的关系;二是创建推理机,知识推理需要知识库 所存储的知识作为基础,不同的知识表达方式在一定程度上 决定了特定的知识运用方式。
知识库是智能问答系统的关键部件和基础,其核心技术 方法是知识抽取、问句语义表征和答案生成。近些年我国的 研究成果,如句法分析、语法分析等自然语言处理工具,以 及讯飞语点、搜狗语音助手等语音识别工具,为汉语知识库 问答研究奠定了比较好的基础。
尽管网页比纯文本的结构层的算法是放弃对网页标签结构的研究,即把一个网 页当成纯文本形式,将所有 h 标签作为问题。h 标签和 h 标 签中间必然存在解释前者的内容,将其分割后,一一对应提 取出来,作为常用答案库对加入数据库。
数据库表格成分为:
图 3 数据库描述词样例
每个网页都存在这种索引的代码,知识库的自动生成部 分可以从中提取专业名词加入词库中。原词库由 jieb(Python 语言中作中文 nlp 分析的库)提供,将提取出的专有名词以 中等频率写词库。专有名词能够在每句话中被分出,也可在 TF-IDF 算法中被识别为关键词。
词库应尽可能贴合知识库的方向。比如“云服务器是什 么?”用普通词库分出的关键词是“云”和“服务器”,而 想要的是“云服务器”这整个词,分词错误会影响后来的一 系列操作,所以应采用相关的词库,将描述的词加进词库。 把词频设为中等频率,因为过大的词频会影响推理机部分 TF-IDF 算法提取关键词,过小的词频又不能被分出。
知识库自动生成是通过自制定规则、借助标签从网页中 提取 QA 对,并通过文本结构树的思想整合答案的类型。
推理机处理模块通过问题分析、问题聚类取得用户的期 望问题类型和关键词。在此基础上,用关键词对知识库中总 结的概述词和答案进行文本相似度计算,得到目标答案。
-50-
2018-12 最终.indd 50
2018/6/8 20:40:53
CHINA SCIENCE AND TECHNOLOGY INFORMATION Jun.2018·中国科技信息 2018 年第 12 期
31 万~ 60 万◎
图 2 华为云网站页面样例
图 1 知识库自动生成流程图
WEBQA 系统立足实际应用,完成具有现实意义的目标: (1)减轻瞬间访问量。网上购物、业务咨询等方面的 问答需求量巨大,人工回答耗时耗力,智能问答可以减少人 工构建知识库的成本; (2)WEBQA 是基于一定领域开发的,针对一个领域 的开发,这样可以减少相关算法的复杂度和准确度。
◎ 31 万~ 60 万
中国科技信息 2018 年第 12 期·CHINA SCIENCE AND TECHNOLOGY INFORMATION Jun.2018 DOI:10.3969/j.issn.1001- 8972.2018.12.016
可实现度
可替代度
link
appraisement
北京工业大学,都柏林学院软件专业
标准问题:通过规则组合关键词生成 问题类型:通过问题分类得出 答案(常用答案库) 文本库(所有网页源码) 描述词:此数据的描述,由网页中提取出(如 3 图)。
推理机处理模块
构建推理机
根据文本相似度匹配算法,从问句分析着手,使用关键 词匹配和文本相似度匹配算法从知识库提取答案,如图 4 所 示。
WEBQA 系统的基本设计思路分两个步骤,即问题分析 和问题理解:首先对于用户输入的问题进行去除停用词,分 词并提出问句的关键词。再对问题做分类,以此提高准确度。 比如“服务器多少钱?”这种问题期望的答案是一个数字。 目前问题类型的识别方法有很多。在抽取问题的答案之前, 识别该问题的语义类型,再用关键词进行基于文本相似度匹 配的答案查询,其中将用到知识库中的概述词和问题答案, 使得抽取的答案更加精确。
行业曲线 industry
影响力
真实度
行业关联度
王飞鸿 基于自动生成知识库的
智能问答系统设计
本技术是一种基于自动生成知识库的智能问答系统。利 用爬虫知识从网页爬取有用信息作为 QA 对;通过关键词匹 配的算法改进制作推理机;在生成知识库时,将 QA 对的答 案提取出关键词,并存储到知识库中,作为用户匹配 QA 对 的关键数据。若网页中有描述即直接取,没有描述则用算法 提取;通过与用户的交互,自动反馈更新知识库,使知识库 越用越准确。
WEBQA 系统具有以下几个特征: (1)自动根据数据集生成知识库,通过文档结构树的 方法提取 QA 对。无需从大量篇幅中做语句分析或是实体识
别,从而提高系统效率和准确度; (2)自动收录专业名词训练词库。对用户提出的问题,
更准确地提取关键信息,从而使命中问答对数增高; (3)实现两种匹配方式:主题匹配和文本相似度匹配,
自动生成知识库
目前,自动生成知识库已作为实现实用的问答系统的一 个基本组成部分。WEBQA 系统针对网页形式的数据集自动 生成知识库,主要通过网页的标签进行答案的提取,并采用 创新的文本结构树算法对答案和问题进行分割,如图 1 所示。
WEBQA 系统基于网站生成知识库,利用网页中已有的 标签、结构进行实体提取。以华为云网站为例(图 2)。
现阶段知识库问答性能受到问句语义表征准确性、问答 对训练数据规模等因素的影响,在基于问句的搜索引擎中, 返回的答案准确性过低,不能对专业领域和同一类问题作精 准判别,阻碍了智能问答系统的发展。
为此,本文立足自动生成知识库的研究,通过模型构建, 设计并实现了网站型智能问答系统(简称为 WEBQA 系统)。 与其他问答系统实现相比,WEBQA 系统提出的方法尝试从 多重角度查找答案。通过测试,相对于基于关键字匹配方法, 系统具有更高的查询准确率;而对比基于模板匹配方法,系 统更加灵活。
不同于常规的关键词匹配; (4)通过与用户的交互实现知识库自我更新,使其提
供用户友好性。
系统模型
对于网站型智能问答的动态知识库系统,构建智能问答 系统模型,主要包括两个部分,一是自动生成知识库,建立 问题与答案的关系;二是创建推理机,知识推理需要知识库 所存储的知识作为基础,不同的知识表达方式在一定程度上 决定了特定的知识运用方式。