第10章 问答系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
User: You are like my father in some way. Eliza: What resemblance do you see? User: You are not very aggressive but I think you don't
want me to notice that. Eliza: What makes you think I am not aggressive? User: You don't argue with me. Eliza: Why you think I don't argue with you? User: You are afraid with me. Eliza: Does it please you to believe I am afraid of you?
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• Did anything unusual happen at the restaurant? • John discovered that he couldn’t pay the check and so he has to wash dishes. • Why couldn’t John pay the check? • Because John did not have any money. • Why didn’t John have any money? • Because a thief picked John’s pocket. • How did John get back to New Haven? • John went from Leone’s by subway and then he went to New Haven by bus. • How was John able to take the bus to New Haven? • Probably John had a ticket.
• 研究领域 – 限定领域→开放领域;
• 研究对象 – 固定语料库→互联网(Google)
• 真正的面向Web开放域的问答系统的正确率和精确性都不 高,还不能提供良好的商业服务
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• Start – 世界上第一个基于Web的问答系统,自从1993年12月开始,它持 续在线运行至今。 – MIT人工智能实验室InfoLab Group的Boris Katz及其同事。 – 不同于信息检索系统(例如搜索引擎),Start旨在提供给用户“ 准确的信息”,而不是仅提供一系列简单的链接。 – 现在,Start能够回答数百万的多类英语问题,包括“place”类(城 市、国家、湖泊、天气、地图、人口统计学、政治和经济等), 电影类(片名、演员和导演等),人物类(出生日期、传记等) ,词典定义类等。
• 问答系统能够提供用户真正的有用、精确的信 息,它将是下一代的搜索引擎的理想选择。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
提纲
• 10.1 引言 • 10.2 问答系统的历史 • 10.3 问答系统的分类 • 10.4 基于常问问题集的问答系统实现 • 10.5 基于大规模文档集的问答系统实现
• GUS (1977年) – Bobrow等人开发 – 旅行信息咨询
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
阅读理解系统
• SAM(20世纪70年代)
– Script Applier Mechanism – 耶鲁大学人工智能实验室开发 – SAM的能力限制于必须要有脚本来描述对问题的回
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
10.1 引言
• 当前搜索引擎主要问题 – 检索结果不够简洁 – 检索需求的表达不够准确 • 用户的检索需求往往是非常复杂而特殊的无法以几 个关键词的简单逻辑组合来表达用户的检索需求 – 缺乏语义处理技术的支撑 • 传统信息检索以关键词为基础的索引、匹配算法尽 管简单易行,但毕竟停留在语言的表层,而没有触 及语义,因此检索效果差强人意,很难进一步提高
了合理的推测
• 脚本可以对一个简单故事进行扩展,使其包含在 某个特定场景中经常发生的事情
– 饭馆、公共汽车、地铁
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
基于大规模文档集的问答
• 时间 – 20世纪90年代 • TREC于1999年开始了问答技术的评测 • 2000年10月,ACL以“开放域问答系统”为专题
答。但脚本不存在时或者尚未准备好时,系统将无法 工作
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
Example
• John went to New York by bus. On the bus he talked to an old lady. When he left the bus, he thanked the driver. He took the subway to Leone’s. On the subway his pocket was picked. He got off the train and entered Leone’s. He had some lasagne. When the check came, he discovered he couldn’t pay. The management told him he would have to wash dishes. When he left, he caught a bus to New Haven.
– 一个很重要的原因是缺乏一个公认的,相对成熟的汉 语问答系统评测平台。
国内问答系统现状
• 和国际研究相比,近年来国内从事问答系统的研 究机构也在增加
– 中科院计算所、复旦大学都在往届的TREC QA Track 评测中也都获得了良好的成绩。
– 中科院计算所、哈尔滨工业大学、复旦大学等在汉语 问答技术的研究中也作了有益的探索。
– 但相比于国外,国内从事问答系统尤其是汉语自动问 答技术研究的科研机构还是很少,而且基本没有成型 的汉语自动问答系统问世。
Example Q:How many people in China? A:1,286,975,468 (July 2003 est.)
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
国外问答系统现状
• 目前,比较成功的问答式检索系统有Ask Jeeves,AnswerBus和START等。
信息检索
第10章 问答系统
软件学院教研室 陈鄞
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
本章内容
• 10.1 引言 • 10.2 问答系统的历史 • 10.3 问答系统的分类 • 10.4 基于常问问题集的问答系统实现 • 10.5 基于大规模文档集的问答系统实现
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
问答系统的定义
• 问答式信息检索是一种允许用户以自然语言方式 询问,系统从单语或多语文档集中查找并返回确 切答案或者蕴含答案文本片断的新型信息检索的 方式。 – 问答系统允许用户以自然语言的形式查询信息 • 例如:世界上最大的宫殿是什么宫殿? – 系统则直接提供用户准确、简洁的答案 • 例如:紫禁城/故宫
– “图灵测试”可以看作是问答系统的蓝图.
• Q: Please write me a sonnet on the topic of the Forth Bridge. • A: Count me out on this one. I never could write poetry. • Q: Add 34957 to 70764. • A: (30秒之后给出回答)105621.
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
源自文库期的两个比较著名的问答系统
• BASEBALL (1961年)可用来回答美国一个季度 棒球比赛的时间、地点、成绩等自然语言问题。
• LUNAR (1973年)可帮助地质学家方便的了解、 比较和评估阿波罗登月计划积累的月球土壤和岩 石的各种化学分析数据
• Did anything unusual happen on the bus? • I don’t remember anything.
• Did anything unusual happen on the subway? • A thief picked John’s pocket.
• What did John order? • John ordered lasagne.
– Ask Jeeves虽然接受自然语言提问,但返回的结果还是 和提问相关的文章;
– AnswerBus是一个句子级的多语言的问答系统,对于 用法语、西班牙语、德语、意大利语或葡萄牙语表述 的用户提问,系统返回可能包含答案的8个句子;
– START则直接向用户的自然语言提问提供简洁答案。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
10.2 问答系统的历史
• 图灵测试, 1950年
– 问答系统的研究可追溯到20世纪50年代。1950年,英国著名数学 家A.M.Turing在其论文《Computing Machinery and Intelligence》中提到测试机器是否具有智能的问题:“机器能思考 吗?”,并提出了判定机器能否思考的方法——图灵测试。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
可进行对话的系统(续)
• SHRDLU(1971年) – Terry Winograd用MACLISP语言开发的 – 积木游戏 – 在图形界面呈现的虚拟世界,系统根据和用户的对 话,按照用户的要求来移动不同形状和大小的彩色木 块
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• Why did John go to New York? • Because John wanted to go to Leone’s.
• How did John get to Leone’s? • John took a bus to New York and then he took the subway to Leone’s.
• 它们的后台有一个数据库,保存系统可提供的各 种数据。而在用户提问时,系统把用户的问题转 换成SQL查询语句,从数据库中查询到数据提供 给用户
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
可进行对话的系统
• Eliza(1966年) – Jaseph Weizenbaum开发 – 系统扮演心理学专家的角色 – ELIZA用的是模式及关键字匹配和置换的方法,没有发展成一套 系统的技术.
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• SAM可以返回在故事中隐含表达的信息
– SAM推测出John点了烤面条(lasagne)给自己吃 – SAM也了解到,如果不能付账单,就必须要洗碟子等 – 对于最后两个问题,SAM根据故事中给出的信息作出
want me to notice that. Eliza: What makes you think I am not aggressive? User: You don't argue with me. Eliza: Why you think I don't argue with you? User: You are afraid with me. Eliza: Does it please you to believe I am afraid of you?
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• Did anything unusual happen at the restaurant? • John discovered that he couldn’t pay the check and so he has to wash dishes. • Why couldn’t John pay the check? • Because John did not have any money. • Why didn’t John have any money? • Because a thief picked John’s pocket. • How did John get back to New Haven? • John went from Leone’s by subway and then he went to New Haven by bus. • How was John able to take the bus to New Haven? • Probably John had a ticket.
• 研究领域 – 限定领域→开放领域;
• 研究对象 – 固定语料库→互联网(Google)
• 真正的面向Web开放域的问答系统的正确率和精确性都不 高,还不能提供良好的商业服务
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• Start – 世界上第一个基于Web的问答系统,自从1993年12月开始,它持 续在线运行至今。 – MIT人工智能实验室InfoLab Group的Boris Katz及其同事。 – 不同于信息检索系统(例如搜索引擎),Start旨在提供给用户“ 准确的信息”,而不是仅提供一系列简单的链接。 – 现在,Start能够回答数百万的多类英语问题,包括“place”类(城 市、国家、湖泊、天气、地图、人口统计学、政治和经济等), 电影类(片名、演员和导演等),人物类(出生日期、传记等) ,词典定义类等。
• 问答系统能够提供用户真正的有用、精确的信 息,它将是下一代的搜索引擎的理想选择。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
提纲
• 10.1 引言 • 10.2 问答系统的历史 • 10.3 问答系统的分类 • 10.4 基于常问问题集的问答系统实现 • 10.5 基于大规模文档集的问答系统实现
• GUS (1977年) – Bobrow等人开发 – 旅行信息咨询
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
阅读理解系统
• SAM(20世纪70年代)
– Script Applier Mechanism – 耶鲁大学人工智能实验室开发 – SAM的能力限制于必须要有脚本来描述对问题的回
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
10.1 引言
• 当前搜索引擎主要问题 – 检索结果不够简洁 – 检索需求的表达不够准确 • 用户的检索需求往往是非常复杂而特殊的无法以几 个关键词的简单逻辑组合来表达用户的检索需求 – 缺乏语义处理技术的支撑 • 传统信息检索以关键词为基础的索引、匹配算法尽 管简单易行,但毕竟停留在语言的表层,而没有触 及语义,因此检索效果差强人意,很难进一步提高
了合理的推测
• 脚本可以对一个简单故事进行扩展,使其包含在 某个特定场景中经常发生的事情
– 饭馆、公共汽车、地铁
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
基于大规模文档集的问答
• 时间 – 20世纪90年代 • TREC于1999年开始了问答技术的评测 • 2000年10月,ACL以“开放域问答系统”为专题
答。但脚本不存在时或者尚未准备好时,系统将无法 工作
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
Example
• John went to New York by bus. On the bus he talked to an old lady. When he left the bus, he thanked the driver. He took the subway to Leone’s. On the subway his pocket was picked. He got off the train and entered Leone’s. He had some lasagne. When the check came, he discovered he couldn’t pay. The management told him he would have to wash dishes. When he left, he caught a bus to New Haven.
– 一个很重要的原因是缺乏一个公认的,相对成熟的汉 语问答系统评测平台。
国内问答系统现状
• 和国际研究相比,近年来国内从事问答系统的研 究机构也在增加
– 中科院计算所、复旦大学都在往届的TREC QA Track 评测中也都获得了良好的成绩。
– 中科院计算所、哈尔滨工业大学、复旦大学等在汉语 问答技术的研究中也作了有益的探索。
– 但相比于国外,国内从事问答系统尤其是汉语自动问 答技术研究的科研机构还是很少,而且基本没有成型 的汉语自动问答系统问世。
Example Q:How many people in China? A:1,286,975,468 (July 2003 est.)
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
国外问答系统现状
• 目前,比较成功的问答式检索系统有Ask Jeeves,AnswerBus和START等。
信息检索
第10章 问答系统
软件学院教研室 陈鄞
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
本章内容
• 10.1 引言 • 10.2 问答系统的历史 • 10.3 问答系统的分类 • 10.4 基于常问问题集的问答系统实现 • 10.5 基于大规模文档集的问答系统实现
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
问答系统的定义
• 问答式信息检索是一种允许用户以自然语言方式 询问,系统从单语或多语文档集中查找并返回确 切答案或者蕴含答案文本片断的新型信息检索的 方式。 – 问答系统允许用户以自然语言的形式查询信息 • 例如:世界上最大的宫殿是什么宫殿? – 系统则直接提供用户准确、简洁的答案 • 例如:紫禁城/故宫
– “图灵测试”可以看作是问答系统的蓝图.
• Q: Please write me a sonnet on the topic of the Forth Bridge. • A: Count me out on this one. I never could write poetry. • Q: Add 34957 to 70764. • A: (30秒之后给出回答)105621.
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
源自文库期的两个比较著名的问答系统
• BASEBALL (1961年)可用来回答美国一个季度 棒球比赛的时间、地点、成绩等自然语言问题。
• LUNAR (1973年)可帮助地质学家方便的了解、 比较和评估阿波罗登月计划积累的月球土壤和岩 石的各种化学分析数据
• Did anything unusual happen on the bus? • I don’t remember anything.
• Did anything unusual happen on the subway? • A thief picked John’s pocket.
• What did John order? • John ordered lasagne.
– Ask Jeeves虽然接受自然语言提问,但返回的结果还是 和提问相关的文章;
– AnswerBus是一个句子级的多语言的问答系统,对于 用法语、西班牙语、德语、意大利语或葡萄牙语表述 的用户提问,系统返回可能包含答案的8个句子;
– START则直接向用户的自然语言提问提供简洁答案。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
10.2 问答系统的历史
• 图灵测试, 1950年
– 问答系统的研究可追溯到20世纪50年代。1950年,英国著名数学 家A.M.Turing在其论文《Computing Machinery and Intelligence》中提到测试机器是否具有智能的问题:“机器能思考 吗?”,并提出了判定机器能否思考的方法——图灵测试。
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
可进行对话的系统(续)
• SHRDLU(1971年) – Terry Winograd用MACLISP语言开发的 – 积木游戏 – 在图形界面呈现的虚拟世界,系统根据和用户的对 话,按照用户的要求来移动不同形状和大小的彩色木 块
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• Why did John go to New York? • Because John wanted to go to Leone’s.
• How did John get to Leone’s? • John took a bus to New York and then he took the subway to Leone’s.
• 它们的后台有一个数据库,保存系统可提供的各 种数据。而在用户提问时,系统把用户的问题转 换成SQL查询语句,从数据库中查询到数据提供 给用户
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
可进行对话的系统
• Eliza(1966年) – Jaseph Weizenbaum开发 – 系统扮演心理学专家的角色 – ELIZA用的是模式及关键字匹配和置换的方法,没有发展成一套 系统的技术.
PDF 文件使用 "pdfFactory Pro" 试用版本创建 www.fineprint.cn
• SAM可以返回在故事中隐含表达的信息
– SAM推测出John点了烤面条(lasagne)给自己吃 – SAM也了解到,如果不能付账单,就必须要洗碟子等 – 对于最后两个问题,SAM根据故事中给出的信息作出