智能问答系统调研

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文问答系统调研报告

目录

问答系统调研报告 (1)

1 问答系统的价值体现 (3)

1.1市场应用价值 (3)

1.2 弥补了搜索引擎的不足 (3)

1.3 总结 (3)

2 问答系统的市场应用情况 (3)

3 问答系统整体框架 (5)

3.1 问答实现流程 (5)

3.2问句分析模块 (6)

3.2.1中文分词 (6)

3.2.2关键词提取 (9)

3.2.3关键词扩展 (10)

3.2.4实体识别 (11)

3.2.5问句分类 (12)

3.3 信息检索模块 (13)

3.3.1模式匹配 (13)

3.3.2答案检索 (13)

3.3.3知识图谱 (16)

3.4答案抽取模块 (21)

3.4.1基于规则的方法 (21)

3.4.2基于统计的方法 (22)

4 问答系统的应用场景 (23)

4.1 任务型 (23)

4.2 问答型 (24)

4.3 语聊型 (24)

5 调研总结 (30)

1 问答系统的价值体现

1.1市场应用价值

问答系统是智能人机交互的技术基础,智能人机交互通过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的作用和价值。因此,各大公司都将智能聊天机器人作为未来的入口级别的应用在对待。

包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了自己的智能私人助理和机器人平台。

1.2 产品技术价值

1、搜索引擎的缺陷:

一方面,用户所输入的搜索关键词或关键句,无法真实反映用户需求;另一方面,检索系统仅仅通过几个关键词的简单逻辑组合来返回答案。两方面的误差造成检索结果很差。

检索结果不够简洁。冗余信息使用户难以快速准确定位所需信息,造成时间和精力的浪费。

缺乏对用户问句的语义理解。只靠关键词的索引或简单的匹配算法,并不能真正触及到问题的真实意思,使检索结果一般。

2、问答系统能针对搜索引擎缺陷的改进

1)问答系统允许用户以自然语言的形式询问或者输入。

2)问答系统能直接返回答案,提供给用户简洁、有效的答案。

3)问答系统能分析用户意图,提供给用户真正有用、准确的信息。

1.3 总结

无论是在日常生活中查阅资料,还是在科学研究、商业金融等领域的应用,都有智能问答的参与,所以智能问答的发展与管理将是人们不可忽视的研究方向。

2 问答系统的市场应用情况

按照市场应用情况可分为五类:在线客服,娱乐机器人,教育聊天机器人,个人助理和智能问答.

(1) 在线客服

在线客服聊天机器人系统的主要功能是和用户进行基本沟通并自动回复用户有关产品或服务的问题,降低企业客服运营成本,提升用户体验.应用场景通常为网站首页和手机终端,代表有小爱机器人,JIMI(JD)客服机器人,JIMI具有一定的拒识能力,即能够知道自己不能回答用户的哪些问题以及何时应转向人工客服.

(2) 娱乐

娱乐机器人主要同用户进行开放主题的对话,从而实现对用户的精神陪伴,情感慰藉和心理疏导等作用,主要针对社交媒体,儿童玩具,代表产品有微软小冰和腾讯的小微,小微除了能够与用户进行开放主题的聊天外,还能提供特定主题的服务,如天气预报和生活常识等.

(3) 教育

教育聊天机器人根据教育内容构建交互的语言使用环境,帮助用户学习某种语言,在学习某项专业课程时,指导用户逐步深入学习并掌握技能,用户的特定年龄阶段,帮助用户进行某种知识的辅助学习等.通常该类聊天机器人具备交互学习功能,培训软件及智能玩具等,代表有科大讯飞开心熊宝系列玩具.

(4) 个人助理

该类聊天机器人主要通过语音或文字与聊天机器人系统进行交互,实现个人事务的查询及代办,如天气查询,空气质量查询,定位,短信收发,日程提醒和智能搜索等,从而更便捷辅助用户的日常事务处理,代表有Apple的Siri,Google Now, Cortana.

(5) 智能问答

智能应答的聊天机器人主要功能包括以自然语言形式提出的事实型问题和需要计算和逻辑推理型的问题,已达到满足用户的信息需求及辅助用户进行决策的目的.代表有IBM watson.

3 问答系统整体框架

3.1 问答实现流程

图1 问答系统框架图

(一)问句分析模块

对问句做自然语言处理操作,分析意图并确定问句答案类型。对用户的提问进行处理:1)生成查询关键词(提取关键词、扩展关键词,……);

2)解析问句的实体或关系;

3)确定答案类型。

(二)信息检索模块

1、模式匹配

对于某些提问类型(某人的出生日期、原名、别称等),问句和包含答案的句子之间存在一定的答案模式,或者从已有问答对库中进行匹配得出候选答案。

2、信息检索

利用问题处理模块抽取的查询关键词,用信息检索方式,检索出和提问相关的信息(段落、也可以是句群或者句子),作为候选答案。

3、KBQA

对问句进行语义理解和解析,利用知识库进行查询、推理得出答案,把查询到的实体作为候选答案或直接作为答案。

(三)答案抽取模块:

从检索模块检索出的相关段落、或句群、或句子中抽取出和提问答案类型一致的实体,

根据某种原则(再做探究)对候选答案进行打分,把概率最大的候选答案返回给用户。或者,使用训练好的统计学习模型,对候选答案进行二分类,判别是否作为答案输出。

1基于传统方法进行答案提取

关键词匹配+相似度计算及排序

2基于统计学习模型进行答案提取

提取特征+选取机器学习模型

3.2问句分析模块

3.2.1中文分词

a)基于规则的分词方法

主要是人工建立词库也叫做词典,通过词典匹配的方式对句子进行划分。其实现简单高效,但是对未登陆词很难进行处理。主要有正向最大匹配法,逆向最大匹配法以及双向最大匹配法。

正向最大匹配法(FMM)

(1)从左向右取待分汉语句的m个字作为匹配字段,m为词典中最长词的长度。(2)查找词典进行匹配。(3)若匹配成功,则将该字段作为一个词切分出去。(4)若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配。(5)重复上述过程,直到切分所有词为止。

逆向最大匹配法(RMM)

RMM的基本原理与FMM基本相同,不同的是分词的方向与FMM相反。RMM是从待分词句子的末端开始,也就是从右向左开始匹配扫描,每次取末端m个字作为匹配字段,匹配失败,则去掉匹配字段前面的一个字,继续匹配。

双向最大匹配法(Bi-MM)

Bi-MM是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。据SunM.S.和Benjamin K.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,使用正向最大匹配法和逆向最大匹配法的切分虽然重合但是错的,或者两种方法切分不同但结果都不对(歧义检测失败)。

双向最大匹配的规则是:(1)如果正反向分词结果词数不同,则取分词数量少的那个。(2)如果分词结果词数相同:1)分词结果相同,没有歧义,返回任意一个。2)分词结果不同,返回其中单字数量较少的那个。

b)基于统计的分词方法

相关文档
最新文档