高级人工智能-8自然语言理解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
模式匹配 词典结构 扩 展 转 移 网 络 (ATN),CF规则 产生式规则、概念相 依理论、脚本、框架 、语义网络、逻辑
Artificial Intelligence
NLP: 13
自然语言理解的一般问题(11)
• 应用
– 机器翻译或机器辅助翻译。 – 文本理解:将输入文本转换成某种数据库格式。 – 文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内 的各种信息。 – 自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机 交互。 ……
Artificial Intelligence
NLP: 5
自然语言理解的一般问题(3)
• 自然语言理解 –自然语言理解是语言信息处理技术的一个高层次的重要 方向。是人工智能领域关注的核心问题之一。 –自然语言理解的困难原因: • 目标表示的复杂性 • 映射类型的多样性 • 源表示中各元素间交互程度的差异性
Artificial Intelligence
NLP: 6
自然语言理解的一般问题(4)
• 语言学的研究
–自然语言理解是哲学(philosophy),语言学(linguistics), 语言心理学(psycholinguistics), 认知科学(cognitive science), 计算机科学(computer science),数学 (mathematics),逻辑学(logic)及相关学科发展和结合而 形成的一门交叉学科。
Artificial Intelligence
NLP: 7
自然语言理解的一般问题(5)
• 语言学的研究
– 语言学家:只关心词组成短语,短语组成句子,句法如何。即语言 理论 – 哲学家:词怎么能表示万物万事。如何用词来描述。
– 心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络 。
– 计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等 语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自 然语言相关的各项任务。
Biblioteka Baidu
数据库
NLP: 18
自然语言理解的一般问题(16)
80年代以来的实用化和工程化
• 主要特点是开始走向实用化和工程化。其重要标志之一是 有一批商品化的自然语言人机接口系统和机器翻译系统推 向了市场。 • 另一方面,人们已经开始对大规模真实文本进行理解 • 句法-语义分析为主的思想来自于规则的方法,而规则不 可能把所有的知识表示出来 –自然语言在数量上浩瀚无际 –在性质上具有不确定性和模糊性。
人工智能 Artificial Intelligence
Artificial Intelligence
NLP: 1
自然语言理解
The Principles of AI
NLP: 2
本章主要内容
• 自然语言理解的一般问题
• 词法分析 • 句法分析
• 语义分析
• 大规模真实文本的处理 • Web信息抽取
Artificial Intelligence
NLP: 20
自然语言理解的一般问题(18)
• 在当今计算技术条件下,要想把处理自然语言所需 要的知识都用现有的知识表示技术明确表达出来, 是不可能的。这既是由于这种知识的“数量”巨大 ,有时由于它们在“质”的方面高度的不确定性和 模糊性。
• 最近十几年来新提出的语料库语言学,它顺应了大 规模真实文本处理的需要,提出了以计算机语料库 为基础的语言学研究及自然语言处理的新思想。 ……
Artificial Intelligence
NLP: 10
自然语言理解的一般问题(8)
• 语言学的研究-理解的层次
– 语义分析:通过分析找出词义,结构意义及其结合意义,从而确定 语言所表达的真正(实际)含义或概念。在语言自动理解中,语义 越来越成为一个重要的研究内容。(尤其是对话系统)
你打我 我打你
Artificial Intelligence
NLP: 3
自然语言理解的一般问题(1)
• 自然语言
– 自然语言:人类交流的语言,口语、书面语、手语、 – 人造语言:机器语言,包括C++, BASIC等 旗语等
世界语 – 到目前为止的人类知识有80%以上使用自然语言文字记载下来的。 但将来,可能用计算机语言形式记载的知识将会越来越多。因此说 ,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家 现代化水平的重要标志之一。 – 相比较人工智能其它领域,自然语言理解是难度大,进展小的。至 今为止未能达到很高的水平。
Artificial Intelligence
NLP: 16
自然语言理解的一般问题(14)
• 60年代以关键词匹配为主流 特点:
– 没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入 句子的意义 – 在系统中事先存放了大量包含某些关键词的模式,每个模式与一个 或多个解释(响应式)相对应。 – 每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功, 系统就输出相应的解释,不考虑其他成分对句子意义的影响 – 是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致 错误
Artificial Intelligence
NLP: 22
自然语言理解的一般问题(20)
发展快的原因:
• 计算机的发展:高速、统计处理。
• 需求:机器人能听懂人的话,与人交谈,自动学习 。
但是,因为自然语言是开放集,每天都有新词产生,用规 则描述马上可以找出反例。 所以,很难。
Artificial Intelligence
Artificial Intelligence
NLP: 12
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论
模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论、 篇章语法
层次结构
语音 词汇 语法 语义 语用
实现技术
Artificial Intelligence
NLP: 8
自然语言理解的一般问题(6)
• 语言学的研究-理解的层次 –语音分析:找出最小可独立的声音单元----音素 –词法分析:找出词汇的各个词素(词根),从中获得语 言学信息 例:我们研究所有东西;把手放在桌上 我们--研究所--有--东西 (交叉歧义) 我们--研究--所有--东西 把--手--放在--桌上 (组合歧义) 把手--放在--桌上
Artificial Intelligence
NLP: 17
自然语言理解的一般问题(15)
70年代句法语义分析为主流
• 采用句法-语义分析技术
典型例子 • LUNAR
– 允许用普通英语和数据库对话的人机接口
句法分析
语义解释
数据检索
ATN语法
Artificial Intelligence
词典
语义规则
Artificial Intelligence
NLP: 4
自然语言理解的一般问题(2)
• 什么是“自然语言理解”?
–与“智能”一样,存在各种各样的理解和解释。 –利用计算机对自然语言进行理解 • 自然语言“理解”的准则:
给计算机输入一段自然语言文本,如果计算机能 – 问答(question-answering)-机器能正确地回答输入 文本中的有关 问题; – 文摘生成(summarizing)-机器有能力产生输入文本 的摘要; – 释义(paraphrase)-机器用不同的词语和语句复述输入文本; – 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言( 目标语言)
– 语用分析:研究语言所在的外界环境对语言使用所产生的影响。描 述语言的环境知识、语言与语言使用者在某个给定语言环境中的关 系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块 )
Artificial Intelligence
NLP: 11
自然语言理解的一般问题(9)
• 研究目标
–建立一个足够精确的语言数学模型使计算机通过编程来 完成自然语言的相关任务。如:听、读、写、说,释义 ,翻译,回答问题等。通过语言索取信息,由此能力则 说明该系统对语言已理解了 。
Artificial Intelligence
NLP: 15
自然语言理解的一般问题(13)
• 自然语言理解的研究大体上经历了三个 时期
– 萌芽时期 – 发展时期
• 早期: 60年代以关键词匹配为主流 • 中期: 70年代以句法-语义分析为主流 • 近期: 80年代以来开始走向实用化和工程化
– 大规模真实文本处理时期 • 比较成功的系统处理都是受限的自然语言子集 – 句法受限:句子结构的复杂性方面受到限制 – 语义受限/领域受限:所表达的事物的数量方面受到限制
NLP: 23
本章主要内容
• 自然语言理解的一般问题
• 词法分析
• 句法分析
• 语义分析
• 大规模真实文本的处理 • Web信息抽取
Artificial Intelligence
NLP: 24
词法分析(1)
• 词法分析是理解单词的基础,其主要目的是从句子中切分 出单词,找出词汇的各个词素,从中获得单词的语言学信 息并确定单词的词义 例如unchangeable是由un-change-able构成的,其词义由 这三个部分构成。
Artificial Intelligence
NLP: 21
自然语言理解的一般问题(19)
• 基于语料库的处理思想能够在工程上、在宽广的语言覆盖 面上解决大规模真实文本处理这一极其艰巨的课题,对传 统的处理方法的一个强有了的补充。 • 新型的智能计算机和多媒体计算机均要求设计出更为友好 的人机界面,使自然语言、文字、图像和声音等信号都能 直接输入计算机。要求计算机能以自然语言与人进行对话 交流,就需要计算机具有自然语言能力,尤其是口语理解 和生成能力。
Artificial Intelligence
NLP: 14
自然语言理解的一般问题(12)
• 应用 – 网 络 方 面 : 信 息 检 索 ( information retrieval), 提 出 ( extraction), 过滤(filtering), 分类(classification), 汇总 (summarization)等 如:网上信息检索,电子图书馆(digital library), 电子商务( e-commerce) 等 例: 和服 | 务 | 于三日后裁制完毕。(kimono must) 这个酒店的设施 | 和 | 服务 | 是一流的。(and service) 未登录词(unknown word processing): 如:高海燕 (storm petrel)
Artificial Intelligence
NLP: 19
自然语言理解的一般问题(17)
• 语料库语言学(corpus linguistics) • 语言学知识的源泉是大规模活生生的语料,要想让计算机 理解自然语言,首先要让计算机能从库存的大规模语料中 自动或半自动地获取语言理解所需的各种知识,对语言现 象作出客观的、细致的描述。 • 目前采用的主要手段是建立各种统计模型,可用于词类的 自动标注,以及句法语义的更高层次的分析。该方法可以 和规则方法相互补充。
Artificial Intelligence
NLP: 25
词法分析(2)
语言构成
语言 词汇 语法
词
熟语
词法
句法
词素
构形法
构词法
词组构造法
造句法
Artificial Intelligence
NLP: 26
词法分析(3)
• 在英语等语言中,因为单词之间是以空格自然分开的,切 分一个单词很容易,所以找出句子的一个个词汇就很方便 。但是由于英语单词有词性、数、时态、派生、变形等变 化,要找出各个词素就复杂的多,需要对词尾或词头进行 分析。如importable,它可以是im-port-able或importable,这是因为im、port、able这三个都是词素。 • 汉语中的每个字就是一个词素,所以要找出各个词素是相 当容易的,但要切分出各个词就非常困难,不仅需要构词 的知识,还需要解决可能遇到的切分歧义。如“我们研究 所有东西”。可以是“我们—研究所—有东西”,也可以 是“我们—研究—所有—东西”。
Artificial Intelligence
NLP: 9
自然语言理解的一般问题(7)
• 语言学的研究-理解的层次 –句法分析:对句子和短语的结构进行分析,找出词、短 语等的相互关系以及各自在句子中的作用等。在语言自 动处理的研究中,句法分析的研究是最为集中的,这与 乔姆斯基(Chomsky)的贡献是分不开的。主要方法有 :短语结构语法、格语法、扩充转移网络、功能语法等 。 –语法分析:将单词之间的线性次序变换成一个显示单词 如何与其它单词相关联的结构。确定语句是否合乎语法
Artificial Intelligence
NLP: 13
自然语言理解的一般问题(11)
• 应用
– 机器翻译或机器辅助翻译。 – 文本理解:将输入文本转换成某种数据库格式。 – 文本生成:根据用户需要以某种自然语言的方式输出储存在计算机内 的各种信息。 – 自然语言接口:人类直接用自然语言与数据库、专家系统等进行人机 交互。 ……
Artificial Intelligence
NLP: 5
自然语言理解的一般问题(3)
• 自然语言理解 –自然语言理解是语言信息处理技术的一个高层次的重要 方向。是人工智能领域关注的核心问题之一。 –自然语言理解的困难原因: • 目标表示的复杂性 • 映射类型的多样性 • 源表示中各元素间交互程度的差异性
Artificial Intelligence
NLP: 6
自然语言理解的一般问题(4)
• 语言学的研究
–自然语言理解是哲学(philosophy),语言学(linguistics), 语言心理学(psycholinguistics), 认知科学(cognitive science), 计算机科学(computer science),数学 (mathematics),逻辑学(logic)及相关学科发展和结合而 形成的一门交叉学科。
Artificial Intelligence
NLP: 7
自然语言理解的一般问题(5)
• 语言学的研究
– 语言学家:只关心词组成短语,短语组成句子,句法如何。即语言 理论 – 哲学家:词怎么能表示万物万事。如何用词来描述。
– 心理学家:语言产生的机制,人怎么能理解句子的意思。神经网络 。
– 计算语言学家:用数据结构、数学模型把哲学、心理学、语言学等 语言分科的知识进行表示,用恰当的算法识别句子的结构,完成自 然语言相关的各项任务。
Biblioteka Baidu
数据库
NLP: 18
自然语言理解的一般问题(16)
80年代以来的实用化和工程化
• 主要特点是开始走向实用化和工程化。其重要标志之一是 有一批商品化的自然语言人机接口系统和机器翻译系统推 向了市场。 • 另一方面,人们已经开始对大规模真实文本进行理解 • 句法-语义分析为主的思想来自于规则的方法,而规则不 可能把所有的知识表示出来 –自然语言在数量上浩瀚无际 –在性质上具有不确定性和模糊性。
人工智能 Artificial Intelligence
Artificial Intelligence
NLP: 1
自然语言理解
The Principles of AI
NLP: 2
本章主要内容
• 自然语言理解的一般问题
• 词法分析 • 句法分析
• 语义分析
• 大规模真实文本的处理 • Web信息抽取
Artificial Intelligence
NLP: 20
自然语言理解的一般问题(18)
• 在当今计算技术条件下,要想把处理自然语言所需 要的知识都用现有的知识表示技术明确表达出来, 是不可能的。这既是由于这种知识的“数量”巨大 ,有时由于它们在“质”的方面高度的不确定性和 模糊性。
• 最近十几年来新提出的语料库语言学,它顺应了大 规模真实文本处理的需要,提出了以计算机语料库 为基础的语言学研究及自然语言处理的新思想。 ……
Artificial Intelligence
NLP: 10
自然语言理解的一般问题(8)
• 语言学的研究-理解的层次
– 语义分析:通过分析找出词义,结构意义及其结合意义,从而确定 语言所表达的真正(实际)含义或概念。在语言自动理解中,语义 越来越成为一个重要的研究内容。(尤其是对话系统)
你打我 我打你
Artificial Intelligence
NLP: 3
自然语言理解的一般问题(1)
• 自然语言
– 自然语言:人类交流的语言,口语、书面语、手语、 – 人造语言:机器语言,包括C++, BASIC等 旗语等
世界语 – 到目前为止的人类知识有80%以上使用自然语言文字记载下来的。 但将来,可能用计算机语言形式记载的知识将会越来越多。因此说 ,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家 现代化水平的重要标志之一。 – 相比较人工智能其它领域,自然语言理解是难度大,进展小的。至 今为止未能达到很高的水平。
Artificial Intelligence
NLP: 16
自然语言理解的一般问题(14)
• 60年代以关键词匹配为主流 特点:
– 没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入 句子的意义 – 在系统中事先存放了大量包含某些关键词的模式,每个模式与一个 或多个解释(响应式)相对应。 – 每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功, 系统就输出相应的解释,不考虑其他成分对句子意义的影响 – 是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致 错误
Artificial Intelligence
NLP: 22
自然语言理解的一般问题(20)
发展快的原因:
• 计算机的发展:高速、统计处理。
• 需求:机器人能听懂人的话,与人交谈,自动学习 。
但是,因为自然语言是开放集,每天都有新词产生,用规 则描述马上可以找出反例。 所以,很难。
Artificial Intelligence
Artificial Intelligence
NLP: 12
自然语言理解的一般问题(10)
自然语言的层次划分及对应技术
理论
模板匹配、基于规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论、 篇章语法
层次结构
语音 词汇 语法 语义 语用
实现技术
Artificial Intelligence
NLP: 8
自然语言理解的一般问题(6)
• 语言学的研究-理解的层次 –语音分析:找出最小可独立的声音单元----音素 –词法分析:找出词汇的各个词素(词根),从中获得语 言学信息 例:我们研究所有东西;把手放在桌上 我们--研究所--有--东西 (交叉歧义) 我们--研究--所有--东西 把--手--放在--桌上 (组合歧义) 把手--放在--桌上
Artificial Intelligence
NLP: 17
自然语言理解的一般问题(15)
70年代句法语义分析为主流
• 采用句法-语义分析技术
典型例子 • LUNAR
– 允许用普通英语和数据库对话的人机接口
句法分析
语义解释
数据检索
ATN语法
Artificial Intelligence
词典
语义规则
Artificial Intelligence
NLP: 4
自然语言理解的一般问题(2)
• 什么是“自然语言理解”?
–与“智能”一样,存在各种各样的理解和解释。 –利用计算机对自然语言进行理解 • 自然语言“理解”的准则:
给计算机输入一段自然语言文本,如果计算机能 – 问答(question-answering)-机器能正确地回答输入 文本中的有关 问题; – 文摘生成(summarizing)-机器有能力产生输入文本 的摘要; – 释义(paraphrase)-机器用不同的词语和语句复述输入文本; – 翻译(translation)-机器把一种语言(源语言)翻译为 另一种语言( 目标语言)
– 语用分析:研究语言所在的外界环境对语言使用所产生的影响。描 述语言的环境知识、语言与语言使用者在某个给定语言环境中的关 系。为确定真正含义,对表达的结构重新加以解释。(故宫、一块 )
Artificial Intelligence
NLP: 11
自然语言理解的一般问题(9)
• 研究目标
–建立一个足够精确的语言数学模型使计算机通过编程来 完成自然语言的相关任务。如:听、读、写、说,释义 ,翻译,回答问题等。通过语言索取信息,由此能力则 说明该系统对语言已理解了 。
Artificial Intelligence
NLP: 15
自然语言理解的一般问题(13)
• 自然语言理解的研究大体上经历了三个 时期
– 萌芽时期 – 发展时期
• 早期: 60年代以关键词匹配为主流 • 中期: 70年代以句法-语义分析为主流 • 近期: 80年代以来开始走向实用化和工程化
– 大规模真实文本处理时期 • 比较成功的系统处理都是受限的自然语言子集 – 句法受限:句子结构的复杂性方面受到限制 – 语义受限/领域受限:所表达的事物的数量方面受到限制
NLP: 23
本章主要内容
• 自然语言理解的一般问题
• 词法分析
• 句法分析
• 语义分析
• 大规模真实文本的处理 • Web信息抽取
Artificial Intelligence
NLP: 24
词法分析(1)
• 词法分析是理解单词的基础,其主要目的是从句子中切分 出单词,找出词汇的各个词素,从中获得单词的语言学信 息并确定单词的词义 例如unchangeable是由un-change-able构成的,其词义由 这三个部分构成。
Artificial Intelligence
NLP: 21
自然语言理解的一般问题(19)
• 基于语料库的处理思想能够在工程上、在宽广的语言覆盖 面上解决大规模真实文本处理这一极其艰巨的课题,对传 统的处理方法的一个强有了的补充。 • 新型的智能计算机和多媒体计算机均要求设计出更为友好 的人机界面,使自然语言、文字、图像和声音等信号都能 直接输入计算机。要求计算机能以自然语言与人进行对话 交流,就需要计算机具有自然语言能力,尤其是口语理解 和生成能力。
Artificial Intelligence
NLP: 14
自然语言理解的一般问题(12)
• 应用 – 网 络 方 面 : 信 息 检 索 ( information retrieval), 提 出 ( extraction), 过滤(filtering), 分类(classification), 汇总 (summarization)等 如:网上信息检索,电子图书馆(digital library), 电子商务( e-commerce) 等 例: 和服 | 务 | 于三日后裁制完毕。(kimono must) 这个酒店的设施 | 和 | 服务 | 是一流的。(and service) 未登录词(unknown word processing): 如:高海燕 (storm petrel)
Artificial Intelligence
NLP: 19
自然语言理解的一般问题(17)
• 语料库语言学(corpus linguistics) • 语言学知识的源泉是大规模活生生的语料,要想让计算机 理解自然语言,首先要让计算机能从库存的大规模语料中 自动或半自动地获取语言理解所需的各种知识,对语言现 象作出客观的、细致的描述。 • 目前采用的主要手段是建立各种统计模型,可用于词类的 自动标注,以及句法语义的更高层次的分析。该方法可以 和规则方法相互补充。
Artificial Intelligence
NLP: 25
词法分析(2)
语言构成
语言 词汇 语法
词
熟语
词法
句法
词素
构形法
构词法
词组构造法
造句法
Artificial Intelligence
NLP: 26
词法分析(3)
• 在英语等语言中,因为单词之间是以空格自然分开的,切 分一个单词很容易,所以找出句子的一个个词汇就很方便 。但是由于英语单词有词性、数、时态、派生、变形等变 化,要找出各个词素就复杂的多,需要对词尾或词头进行 分析。如importable,它可以是im-port-able或importable,这是因为im、port、able这三个都是词素。 • 汉语中的每个字就是一个词素,所以要找出各个词素是相 当容易的,但要切分出各个词就非常困难,不仅需要构词 的知识,还需要解决可能遇到的切分歧义。如“我们研究 所有东西”。可以是“我们—研究所—有东西”,也可以 是“我们—研究—所有—东西”。
Artificial Intelligence
NLP: 9
自然语言理解的一般问题(7)
• 语言学的研究-理解的层次 –句法分析:对句子和短语的结构进行分析,找出词、短 语等的相互关系以及各自在句子中的作用等。在语言自 动处理的研究中,句法分析的研究是最为集中的,这与 乔姆斯基(Chomsky)的贡献是分不开的。主要方法有 :短语结构语法、格语法、扩充转移网络、功能语法等 。 –语法分析:将单词之间的线性次序变换成一个显示单词 如何与其它单词相关联的结构。确定语句是否合乎语法