第十章自然语言理解优秀课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章自然语言理解
10.1 自然语言理解概述
什么是语言和语言理解?自然语言理解与人类的哪些智 能有关?自然语言理解的系统如何组成?等等。这些问题是 我们开始研究自然语言理解时感兴趣的。
10.1.1 语言和语言理解
语言是用于传递信息的表示方法、约定和规则的集合, 它由语句组成,每个语句又由单词组成;组成语句和语言时, 应遵循一定的语法与语义规则。如果没有各种口语和书面语, 如英语、华语、法语和德语等,人类之间思想、感情和技术 交流就难以想象。语言是随着人类社会和人类自身的发展而 不断进化的。
10.1.5 自然语言理解过程的层次
语言虽然表示成一连串的文字符号或者一串声音流,但 其内部事实上是一个层次化的结构,从语言的构成中就可以 清楚的看到这种层次性。一个文字表达的句子是由词素→词 或词形→词组或句子,而用声音表达的句子则是由音素→音 节→音词→音句,其中每个层次都是受到语法规则的制约。 因此,语言的分析和理解过程也应当是一个层次化的过程。 许多现代语言学家把这一过程分为5个层次:语音分析、词法 分析、句法分析和语义分析和语用分析。虽然这种层次之间 并非是完全隔离的,但是这种层次化的划分的确有助于更好 地体现语言本身的构成。
语法是语言的组织规律。语法规则制约着如何 把词素构成词,词构成词组和句子。语言正是在这 种严密的制约关系中构成的。用词素构成词的规则 叫构词法,如教+师→教师。一个词又有不同的词 形、单数、复数、阴性、阳性等等。这种构造词形 的规则称为构形法,如教师+们→教师们。这里只 是在原来的词后面加上一个复数意义的词素,所构 成的并不是一个新的词,而是同一词的复数形式。 构形法和构词法称为词法。
3、句法分析 是对句子和短语的结构进行分析。自动句法分析的方法很多, 有短语结构语法、格语法、扩充转移网络、功能语法等等。句法 分析的目的就是找出词、短语等的相互关系以及各自在句子中的 作用等,并以一种层次结构来加以表达。这种层次结构可为反映 从属关系,直接成分关系,也可是语法功能关系。 4、语义分析 通过分析找出词义、结构意义及其结合意义,从而确定语言 所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为 一个重要的研究内容。 5、语用分析 研究所在外界环境对语言使用所产生的影响。描述了语言的 环境知识、语言与语言使用者在某个给定语言环境中的关系。
1、语音分析
在有声语言中,最小可独立的声音单元是音素,音素是一个 或一组音,它可与其他音素相区别。语音分析则是根据音位规则, 从语音流中区分出一个个独立的音素,再根据音位形态规则找出 一个个音节及其对应的词素或词。
2、词法分析
其 主 要 目 的 是 找 出 词 汇 的 各 个 词 素 。 如 unchangeable 是 由 un-change-able构成的。在英语语言中,找出句子中的词汇是一 件很容易的事,因为词与词之间是由空格来分隔的。但要找出各 个 词 素 就 复 杂 得 多 , 如 importable , 它 可 以 是 im-port-able 或 improt-able。而在汉语中要找出一个个词素则是很容易的,每 个字就是一个词素。但要切分出各个词就远不是那么容易。如 “我们研究所有东西”,可以是“我们—研究所—有—东西”也 可以是“我们—研究—所有—东西”。
研究自然语言理解,必须对自然语言构成有基本认识。
语言是音义结合的词汇和语法体系,是实现思 维活动的物质形式。语言是一个符号体系,但与其 他符号体系又有所区别。
语言是以词为基本单位的,词汇又受到语法的 支配才可构成有意义的句子,句子按一定的形式再 构成篇章等。词汇又可分为词和熟语。熟语就是一 些词的固定组合,如汉语中的成语。词又由词素构 成,“教师”是由“教”和“师”这两个词素所构 成的。词素是构成词的最小的有意义的单位。“教” 这个词素本身有教育和指导的意义,“师”则包含 了“人”的意义。
语法中的另一部分就是句法。句法也可分成两部分: 词组构造法和造句法。词组构造法是词搭配成词组的规则, 如红+铅笔→红铅笔。这里“红”是一个修饰铅笔的形容词, 它与名词“铅笔”组合成了一个新的名词。造句法则是用 词或词组造句的规则,“我是计算机科学系的学生”,这 是按照汉语造句法构造的句子。下图就是上述语法构造的 一个完整的图解。
新型的智能计算机要求设计出更为友好的人机界面,使自 然语言、文字、图象和声音等信号能直接输入计算机。
口语理解研究促进人机对话系统走向实用化。自然语言是 表示知识最为直接的方法。因此,自然语言理解的研究也为专 家系统的知识获取提供了新的途径。
此外,自然语言理解的研究已促进计算机辅助语言教学 (CALI)和计算机语言设计(CLD)等的发展。
另一方面,语言是音义结合的,每个词汇有其语音形 式。一个词的发音由一个或多个音节组合而成,音节又由 音素构成,音素分为元音音素和辅音音素。音素是指一个 发音动作所构成的最小的语音单位。
语言
词汇
语法
词 熟语
词法
句法
词素
构形法 构词法 词组构 造法
语言的构成图
造句法
从微观上讲,语言理解是指从自然语言到计算机系统内 部之间的一种映射。从源自文库观上看,语言理解是指机器能够执 行人类所期望的某些语言功能。这些功能包括:
(1)回答有关提问;
(2)提取材料摘要;
(3)文本释义;
(4)不同语言翻译。
自然语言理解是语言学、逻辑学、生理学、心理学、计 算机科学和数学等相关学科发展和结合而形成的一门交叉学 科;它能够理解口头语言或书面语言。语言交流实际上是一 种基于知识的通信。
对自然语言的理解是一个十分艰难的任务,即使建立一 个只能理解片言断语的计算机系统,也是很不容易的。这中 间有大量的极为复杂的编码和解码问题。一个能够理解自然 语言的计算机系统就像一个人那样需要上下文知识以及根据 这些知识和信息进行推理的过程。自然语言不仅有语义、语 法和语音问题,而且还存在模糊性等问题。具体地说,自然 语言理解的困难是由下列3个因素引起的:
(1)目标表示的复杂性;
(2)映射类型的多样性;
(3)源表达中各元素间交互程度的差异性。
10.1.4 自然语言理解研究的进展
机器翻译是自然语言理解最早的研究领域。
70年代初期,语言理解对话系统的研究取得进展。伍兹的 LUNAR系统、威诺甘德的SHRDLU系统和香农的MARGIE系 统等是语言理解对话系统的典型实例。
10.1 自然语言理解概述
什么是语言和语言理解?自然语言理解与人类的哪些智 能有关?自然语言理解的系统如何组成?等等。这些问题是 我们开始研究自然语言理解时感兴趣的。
10.1.1 语言和语言理解
语言是用于传递信息的表示方法、约定和规则的集合, 它由语句组成,每个语句又由单词组成;组成语句和语言时, 应遵循一定的语法与语义规则。如果没有各种口语和书面语, 如英语、华语、法语和德语等,人类之间思想、感情和技术 交流就难以想象。语言是随着人类社会和人类自身的发展而 不断进化的。
10.1.5 自然语言理解过程的层次
语言虽然表示成一连串的文字符号或者一串声音流,但 其内部事实上是一个层次化的结构,从语言的构成中就可以 清楚的看到这种层次性。一个文字表达的句子是由词素→词 或词形→词组或句子,而用声音表达的句子则是由音素→音 节→音词→音句,其中每个层次都是受到语法规则的制约。 因此,语言的分析和理解过程也应当是一个层次化的过程。 许多现代语言学家把这一过程分为5个层次:语音分析、词法 分析、句法分析和语义分析和语用分析。虽然这种层次之间 并非是完全隔离的,但是这种层次化的划分的确有助于更好 地体现语言本身的构成。
语法是语言的组织规律。语法规则制约着如何 把词素构成词,词构成词组和句子。语言正是在这 种严密的制约关系中构成的。用词素构成词的规则 叫构词法,如教+师→教师。一个词又有不同的词 形、单数、复数、阴性、阳性等等。这种构造词形 的规则称为构形法,如教师+们→教师们。这里只 是在原来的词后面加上一个复数意义的词素,所构 成的并不是一个新的词,而是同一词的复数形式。 构形法和构词法称为词法。
3、句法分析 是对句子和短语的结构进行分析。自动句法分析的方法很多, 有短语结构语法、格语法、扩充转移网络、功能语法等等。句法 分析的目的就是找出词、短语等的相互关系以及各自在句子中的 作用等,并以一种层次结构来加以表达。这种层次结构可为反映 从属关系,直接成分关系,也可是语法功能关系。 4、语义分析 通过分析找出词义、结构意义及其结合意义,从而确定语言 所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为 一个重要的研究内容。 5、语用分析 研究所在外界环境对语言使用所产生的影响。描述了语言的 环境知识、语言与语言使用者在某个给定语言环境中的关系。
1、语音分析
在有声语言中,最小可独立的声音单元是音素,音素是一个 或一组音,它可与其他音素相区别。语音分析则是根据音位规则, 从语音流中区分出一个个独立的音素,再根据音位形态规则找出 一个个音节及其对应的词素或词。
2、词法分析
其 主 要 目 的 是 找 出 词 汇 的 各 个 词 素 。 如 unchangeable 是 由 un-change-able构成的。在英语语言中,找出句子中的词汇是一 件很容易的事,因为词与词之间是由空格来分隔的。但要找出各 个 词 素 就 复 杂 得 多 , 如 importable , 它 可 以 是 im-port-able 或 improt-able。而在汉语中要找出一个个词素则是很容易的,每 个字就是一个词素。但要切分出各个词就远不是那么容易。如 “我们研究所有东西”,可以是“我们—研究所—有—东西”也 可以是“我们—研究—所有—东西”。
研究自然语言理解,必须对自然语言构成有基本认识。
语言是音义结合的词汇和语法体系,是实现思 维活动的物质形式。语言是一个符号体系,但与其 他符号体系又有所区别。
语言是以词为基本单位的,词汇又受到语法的 支配才可构成有意义的句子,句子按一定的形式再 构成篇章等。词汇又可分为词和熟语。熟语就是一 些词的固定组合,如汉语中的成语。词又由词素构 成,“教师”是由“教”和“师”这两个词素所构 成的。词素是构成词的最小的有意义的单位。“教” 这个词素本身有教育和指导的意义,“师”则包含 了“人”的意义。
语法中的另一部分就是句法。句法也可分成两部分: 词组构造法和造句法。词组构造法是词搭配成词组的规则, 如红+铅笔→红铅笔。这里“红”是一个修饰铅笔的形容词, 它与名词“铅笔”组合成了一个新的名词。造句法则是用 词或词组造句的规则,“我是计算机科学系的学生”,这 是按照汉语造句法构造的句子。下图就是上述语法构造的 一个完整的图解。
新型的智能计算机要求设计出更为友好的人机界面,使自 然语言、文字、图象和声音等信号能直接输入计算机。
口语理解研究促进人机对话系统走向实用化。自然语言是 表示知识最为直接的方法。因此,自然语言理解的研究也为专 家系统的知识获取提供了新的途径。
此外,自然语言理解的研究已促进计算机辅助语言教学 (CALI)和计算机语言设计(CLD)等的发展。
另一方面,语言是音义结合的,每个词汇有其语音形 式。一个词的发音由一个或多个音节组合而成,音节又由 音素构成,音素分为元音音素和辅音音素。音素是指一个 发音动作所构成的最小的语音单位。
语言
词汇
语法
词 熟语
词法
句法
词素
构形法 构词法 词组构 造法
语言的构成图
造句法
从微观上讲,语言理解是指从自然语言到计算机系统内 部之间的一种映射。从源自文库观上看,语言理解是指机器能够执 行人类所期望的某些语言功能。这些功能包括:
(1)回答有关提问;
(2)提取材料摘要;
(3)文本释义;
(4)不同语言翻译。
自然语言理解是语言学、逻辑学、生理学、心理学、计 算机科学和数学等相关学科发展和结合而形成的一门交叉学 科;它能够理解口头语言或书面语言。语言交流实际上是一 种基于知识的通信。
对自然语言的理解是一个十分艰难的任务,即使建立一 个只能理解片言断语的计算机系统,也是很不容易的。这中 间有大量的极为复杂的编码和解码问题。一个能够理解自然 语言的计算机系统就像一个人那样需要上下文知识以及根据 这些知识和信息进行推理的过程。自然语言不仅有语义、语 法和语音问题,而且还存在模糊性等问题。具体地说,自然 语言理解的困难是由下列3个因素引起的:
(1)目标表示的复杂性;
(2)映射类型的多样性;
(3)源表达中各元素间交互程度的差异性。
10.1.4 自然语言理解研究的进展
机器翻译是自然语言理解最早的研究领域。
70年代初期,语言理解对话系统的研究取得进展。伍兹的 LUNAR系统、威诺甘德的SHRDLU系统和香农的MARGIE系 统等是语言理解对话系统的典型实例。