智能问答 (2)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 排序指标通常包含以下三个因素: • 相同顺序的关键词数目 • 最远关键词间距 • 未命中关键词数
经历这一步骤,检索到的文档被提炼为若干文本块,这 便于之后答案生成步骤的答案提取,使问答系统的回答 更精准。
2、结构化信息检索
• 主要侧重于一个实体(entity)的各个属性(attribute)
以及他们之间的关系。
帮自己解答疑惑,而单凭少数人很难做到‚无所不 知‛。 问等网站
• 国外著名的有Quora,国内有知乎、百度知道、搜狗问
4.4.1社区问答系统结构
• 问题——答案对,简称‚问答对‛
4.4.1社区问答系统结构
• •
社区问答系统的结构可以分为以下两部分: 问题理解 此处理解与前文含义不同,指的是在问答数据库中,检索一 个或多个与输入问题最相近的问题,作为我们‘理解’了的 问题。 • 答案生成 找到的相近问题对应有很多解答。但是答案的质量并不一定 高。 难点 :相似问题检索和答案过滤


在圈定文本范围时,通常只取一个最小的窗口,使得窗口内的文 本包含尽可能多的问题关键词。
这个局部文本块称为‚段落窗口‛(paragraph window)。问答 系统中的经典作法是采用标准基数排序(Standard Radix Sort)算 法。
标准基数排序(Standard Radix Sort)算法
生成‚北京‛‚面积‛这两个关键词
若用百科全书作为知识来源,那么问题就应组织维一个主 词条及其属性。 在‚北京市‛这个词条中,检索‚面积‛这一属性信息。
答案生成

• • •
通常,检索到的知识并不能直接作为答案返回。因为最精 确的答案往往混杂在上下文档中,我们需要提取其中与问 题最相关的部分。 例如:利用搜索引擎搜索到若干相关文章,我们需要从这 些文档的大量内容中提取核心段落、句子、甚至词语; 百科全书的知识结构可能与问题并不能一一对应; 例如:‚北京面积有多大‛,我们可以取最新数值作为答 案;但如果加上限定词‚建国初期‛,则还需要针对这些 约束条件选取最佳答案。
• 主要的结构化知识有以下类别: • 百科类知识 • 关系类知识:两个事物A、B及它们之间的关系R,即三
元组(A,R,B)。可以理解为问答领域中的一些事实类 问题。例如:北京的面积是多少?(北京,面积, 16801平方公里)。
4.3.3答案生成
• 若知识库的结构化特性不强,则还需要进一步的筛选
过滤,提取出其中最精准的答案。
• 模板匹配方法和自然语言处理技术
模板匹配方法
• 优势在于逻辑清晰直观,易于理解和编写。 • 劣势也显而易见:对于千变万化的自然语言不容易灵
活适应——直到用户编写了模板。
• 例如:对于菜谱查询,人们的描述方法会有很多:红
烧肉怎么做,怎么做红烧肉,红烧肉的烹制方法是什 么,红烧肉的制作过程等等。
• 实际应用中还会涉及开头和结尾的虚词,例如:‚怎
智能问答
——智能助手是如何练成的
4.1 概述
• 如何变得更聪明?
• 随着大数据时代的到来,越来越多的人类知识已经被
数据化。随着互联网和搜索引擎技术的发展,‘大数 据’已经做到了‘上有天文,下有地理’
4.1 概述
‚王府井有什么川菜馆?‛
‚有家某某餐厅很不错(餐厅名称),位置就在王府井 百货大楼隔壁(地址)‛。
件是基于这项技术编写的。
• 专家系统依赖于精确组织的知识结构(例如:昆虫有
六条腿、哺乳动物有脊椎等),这又称为本体 (Ontology)
• 近年来利用互联网语料自动挖掘实体关系、知识图谱
的思路为这项技术注入了新鲜的血液。在之后也会看 到结构化的知识仍然是问答系统的重要知识来源之一。
将问答看成是检索任务
问题理解的内容
• 分类体系:
<一>、UIUC分类体系:这是一个双层的层次结构体系,主 要针对事实类问题,设计了6个大分类和50 个小分类。 1、缩写(Abbreviation):缩写或缩略形式。 2、实体(Entity):指问题的答案是某种事物,例如: 动植物、颜色、货币、食物、语言、体育、科技等;
4.3.1问题理解
• • •
1、问题理解的内容 ‚时间‛‚地点‛‚人物‛ 有的研究者把问答系统的目标定义为解答这样一个问题:
谁(Who)对谁(Whom)在何时(When)何地(Where)做了 什么(What),是怎么做的(How),为什么这样做(Why)? 研究者们总结了提问的目标和要素,整理出了若干分类体系 (taxonomy),既有平面分类又有层次分类。
但在个别问题上反映困难,尤其是只包含很少提示的问题。对于
每一个问题,Watson会在屏幕上显示3个最有可能的答案。 Watson 4TB磁盘内,包含200万页结构化和非结构化的信息,包 括维基百科的全文。在比赛中Watson没有链接到互联网。
4.2问答系统的主要组成
• 与进行提问——思考——回答的思维过程相近。 • 1、问题理解 • 2、知识检索 • 3、答案生成
问题提取关键词——查询索引——筛选提取——最终答案 Siri:输入句子无法识别——搜索引擎——列出文档,用户自 行选择
• • •
1、非结构化信息检索


在问答系统中,如果一篇文档包含与关键词相关的答案,那么这 些关键词在文档中的位置应当较为靠近。常用的方法是以段落为 单位衡量,计算连续的少量段落内是否出现了所有的关键词。 类似地,在挑选出的多篇文档的多个段落中,也要找出更可能包 含答案的段落或局部文本,因此也要对这些文本块进行排序。
智能问答技术(Question Answering)
• 智能问答技术就是对于用户提出的问题予以理解,并
找到答案回答给用户。
• 例如: • 苹果公司2011年推出的手机应用‘Siri’是一个基于问
答技术的助手。
• 类似的手机助手还有搜狗语音助手,百度的‘小度机
器人’等
• 另外值得一提的是一些以对话为目的的系统,可以表
• 究竟哪个词、哪个短语是答案呢? • 1、在问题理解时除了理解问题是在‚问什么‛(提取
关键词之外)还可以理解问题的类型,例如:问的是 人物还是数值。依助自然语言处理技术,我们可以分 析答案文本块中的词语,例如命名实体识别、词性标 注等,从中筛选出更可能是答案的词语或词组。
4.3.3答案生成
• 2、由问题的关键词和答案词之间必然存在某种联系,
问答系统结构图
• 以上概述是关于问答系统的基本流程,但根据知识组
织形式不同,问答系统还有多种不同的技术 细节。
4.3文本问答系统
• 一、问题理解 • 核心:理解用户在‚问什么‛ • 1):理解问的是什么事情; • 2):理解问题是什么类型; • 由于一个问题可能有多种不同的问法,问答系统还需
要进行适当的扩展,以便找到所有相似的问法。
因此我们可以考虑问题和候选答案的相似度,如问题 关键词和答案词之间语义联系的远近。
• 北京的面积是多少? • 在答案文本中寻找类似问题的句式‚北京的面积是XX‛
的句子。
• 3、借助其它工具来验证答案可信程度。例如采用其他
的信息源(知识库)。
4.4社区问答系统
• 当人遇到问题时,希望有一个无所不知的大学问家来
4.4.2相似问题检索
• 用问题去找问题,这就需要词义的扩展,句式的扩展。 • 与之前的问题扩展类似,但问题扩展是用原始问题生
成多个候选问题;而这里的问题相似性衡量是在初步 检索到候选问题后进行的,因此计算规模大大减小了。
问题相似性度量的方式
模板匹配 • 基于词典方法
‚什么是XXX‛和‚XXX是什么 ‛。除了人工书写模板, 基于同义词知识扩展关键词。 也可借助自然语言处理技术对句子结构或依存关系进行 • 基于信息距离 分析,从而自动生城更多模板。 ‚你可不可以告诉我某某是什么‛和‚某某是什么‛。 • 基于统计机器翻译 借助信息论中的柯尔莫哥洛夫复杂性(Kolmogorov 思路是事先找到句子的平行语料。学习同一种含义的不 Complexity)来定义一系列语义度量。 同问法。
么做呀‛‚是什么呀‛以及‚请问‛‚我想知道‛
自然语言处理技术
• 优势:可以更灵活地分析不同的问句,特别是基于机
器学习方法在大数据(大规模语料)上训练出的语义 分析模型,通常可以较准确地分析出句子及其各类变 种。
• 劣势:当出现某些词,某些句型比较罕见时,则模型
任然可能分析出错误的结果,影响后续步骤;并且不 够直观,不容易干涉机器自动处理的结果,一旦出错, 我们甚至不知道如何修改;要求技术储备较多,门槛 高,未必适合小规模系统的快速开发和部署。
• 根据问题所属的垂直领域(主题)进行分类,如:天
例如:天气问题则交由天气数据接口回答,导航类问 题则切换至导航算法处理。
气类、导航类、餐馆类等。这样做的目的是采用特定 垂直领域的功能来处理相应问题
问题理解
• 2、问题理解的方法 • 理解问题即从自然语言提问的问题中提取出关键成分
的过程(主要涉及自然语言处理的语义分析技术)
2011年,IBM公司推出了名为Watson的人工智能系统。
Watson参加综艺节目危险边缘(Jeopardy)来测试它的能力,这 是该节目有史以来第一次人与机器对决。Watson打败了最高奖 金得主布拉德·鲁特尔和连胜纪录保持者肯·詹宁斯。 Watson在比赛节目中按下信号灯的速度始终比人类选手要快,
现为‘你有来言,我有去语’的自然交互方式,但其 应答的目的不同。如(微软的聊天机器人‚小冰‛)
专家系统(Expert System)
• 从人类的思维上讲,对于问题的理解是基于一系列推
理进行的,通过推理匹配到现有知识,进而做答。
• 例如:‚蜜蜂有几条腿?‛ • 昆虫——6条腿 • 20世纪80年代十分流行。在我国已有一些中医诊疗软

4.3.2知识检索
• 知识库:人工整理的结构化数据或非结构化的方式存

• 在大数据时代,结构化的数据少而精,非结构化的数
据多而全。可以利用这两方面优势。
• 1、非结构化信息检索 • 2、结构化信息检索
1、非结构化信息检索

非结构化信息:通常是指没有或很少标注的整篇文档组成 的集合。在这些文档中,信息蕴含在文本中,并没有组织 成实体、属性这样的结构。这时可以借助信息检索技术挖 掘与问题相关的信息。 最直观的理解是搜索引擎。
问题扩展
• 自然语言的复杂性增加了问题理解的难度 • 句式变化、同义词等都提高了理解的难度,对于不同
的问题理解方法和知识组织形式,有的可能更适应句 式变化,有的可能更易于理解词义。 子歧义,并针对相同意思扩展原始问题。
• 通常我们还需使用其他的自然语言分析工具来消除句
问题扩展
• •
例如:‚谁是贝克汉姆的老婆?‛和‚小贝妻子叫什么‛
问题理解
• 输入:自然语言 • 例解决的问题:理解问题问的是什么(词语定义、查
询某项智力知识、检索周边生活信息、某件事发生原 因)
• 如:问:北京的温度是多少wk.baidu.com • 太阳的温度是多少?
知识检索

• •
理解问题后,通常会组织成为一个计算机可理解的检索式。 具体检索式的格式则有知识库的结构决定。
例如:若采用搜索引擎作为知识来源,那么理解后的问题 就可以是若干关键词;
4.3.1问题理解
3、描述(Description):询问某个东西的定义、描 述,某件事的原因等。
4、人物(Human):询问某个、某些人,人物的
称号描述等。 5、地点(Location):包括城市、国家、省份、州、 山脉等。 6、数值(Numeric):包括数目、日期、距离、次
序、温度、价钱等。
问题理解的内容
• <二>、Moldovan 等人的分类体系:也是双层次的
层次结构体系,但第一层主要针对问句形式(疑 问词),第二层针对答案的类别。
问题理解的内容
• 单层平面分类如(Radev,et al 2005)等设计了17个类
别,包括人物、数字、描述、原因、地点、定义、缩 写、长度、日期等。
在词的级别上可以借助《同义词词林》、知网这样的同义 词词典及词语知识图谱可以扩展我们的词库,或者从语料 中学习新词的词义 例如:‚贝克汉姆‛别名‚小贝‛;在句子级别上可以借 助句子复述技术(Paraphrase)可以识别同一含义的不同表 达方式,如上句例子中‚谁是+某人关系‛与‚某人物关系 +叫什么‛是同一含义。
• 近年来比较流行的问答系统可以说是围绕‚检索‛展
开的
• 过程:理解问题、 在合适的知识库中检索 、筛选检索
的答案并整理输出。
• 不同之处:用户问的不再是若干关键词,而是整句话;
系统回复的也不再是若干包含关键词的文档,而是更 精确的答案
• 答案来源:知识也多种多样,既有结构化的信息又有非
结构化的信息。因此问答系统的难度更大。
相关文档
最新文档