问答系统研究现状
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
问答系统研究现状
作者:宋华丽,张玉芳
来源:《计算机光盘软件与应用》2011年第15期
摘要:问答系统是信息检索的高级形式,也是该领域的研究重点和热点。该文首先给出问答系统的定义,然后对现有各类问答系统进行了介绍,并对其核心技术、测评标准进行了分析,最后对问答系统的发展方向进行了展望。
关键词:问答系统;聊天机器人;问答式检索系统;测评标准
中图分类号:TP391 文献标识码:A文章编号:1007-9599 (2011) 15-0000-01
Q&A System Research Status
Song Huali1,Zhang Yufang2
(1.Southwestern University Yucai College Institute of
Technology,Chongqing401524,China;2.School of Computer Science,Chongqing
University,Chongqing400044,China)
Abstract:Q&A system is an advanced form of information retrieval,but also in the field of research priorities and focus.This paper first gives the definition of Q system,then the existing types of question answering system was introduced,and its core technologies,measurement standards were analyzed,and finally on the answering system development was predicted.
Keywords:Question answering system;Chat robot;Questions and answers retrieval
system;Evaluation criteria
一、引言
問答系统是指能够对计算机用户输入的用自然语言描述的问句做出回答的计算机程序。这种回答通常是一小段文字,其中显式或隐式地包含问题的答案。作为自然语言处理技术的一个重要的应用,问答系统必须具备对自然语言进行分析和处理的能力。随着网络在线文档的急剧增加,人们对于迅速从网上获取信息的需求越来越迫切,这极大促进了基于国际互联网的问答系统的发展。这类问答系统研究的目的是全自动地直接从网络文档中获取用户关心的问题的答案,而用户的问题通常用自然语言来描述。
二、早期问答系统
早在60年代人工智能的研究起步时,人们就提出了让计算机用自然语言来回答人们的问题的设想。但是,由于当时所有的实验都是在非常受限的领域,甚至是固定段落上进行的,所以自动问答一直被视为特殊领域的专家系统而少有人问津。在此问答领域上最早进行的尝试是1972年Winograd研制的SHRDLU系统,该系统仅能够回答地球物理领域里的简单问题。除此之外,早期比较著名的问答系统还包括Dyer的BORIS系统。Lehnert等人对自然语言问句分类方面也进行了有益探索。早期问答系统的不足在于它们通常以手工编写的领域知识,用户经常询问的问题以及一些报刊文章作为该类系统的基础数据库,这无疑需要耗费大量的人力资源。限于当时的技术条件,问答技术的研究在很长的一段时间里发展十分缓慢。
三、问答系统分类
(一)聊天机器人(ChatBot)。所谓聊天机器人,是指这样的问答系统:它模仿人的语言习惯,给出的答案较为人性化。ALICE由Richard S.Wallac开发的聊天机器人。它使用AIML(Artificial Intelligence Mark-up Language)表示其知识,用Java作为引擎对用户输入进行分析,在知识库中寻找最合适的回答并返回给用户。通过对聊天记录的分析,ALICE可以得到还没有明确答案的问题,并给出建议的模式。(二)基于知识库的问答系统。拥有一个或多个知识库,存储一个或多个领域的知识,并利用检索、推理等技术,来理解与求解用户问题的问答系统,称为基于知识库的问答系统。和聊天机器人不同的是,这类系统擅长于知识问答,对于不能回答的问题,就老实回答说“不知道”,而非故意转移话题。(三)问答式检索系统。根据以自然语言方式提交的用户查询,从系统文档集合或WWW中,检索出相关文本或网页,并将其返还给用户,这种系统称为问答式检索系统,也称问答式搜索引擎、智能搜索引擎。问答式检索系统需要正确理解自然语言形式的用户查询,充分领会用户的查询意图,并检索出与用户需求最相关的文本或网页。Start是世界上第一个基于Web的问答系统。Start只能回答有关地理、历史、文化等方面的简单问题,并且对连续的问句缺乏关联处理能力,即还不能处理语义的上下文理解。Encarta是由Microsoft公司开发的。作为一个在线百科全书式的问答式搜索引擎,也提供了多种语言的支持。其回答问题速度较快,答案也比较准确。问答式检索系统主要需要两种技术:用户查询处理技术、信息检索(IR)技术。后者目前已经比较成熟,而前者的实现主要有两种方法。第一种方法,对问句进行分词处理,识别出其中的关键词,利用查询扩展技术,借助HowNet等语义词典,将关键词的同义词、近义词,一并交给后继检索系统。第二种方法,就是使用问句模板,对于系统面向的领域非常狭窄的情况,该方法的好处显而易见。(四)基于自由文本的问答系统。自由文本又称非结构化文本,指未经人工处理的原始文档、网页等。现有基于自由文本的问答系统,很多都是利用搜索引擎来设计的。基于自由文本的问答系统,是目前检索和问答系统的主流。不需要建立大规模知识库,节省大量人力物力,而且系统返回的是具体的答案,使用非常方便,受到用户欢迎。
四、问答系统的评测