第十章 自然语言理解

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

湖南科技大学计算机学院
戴祖雄
4
语言是音义结合的词汇和语法体系,是实现思维活动的物质 形式。语言是一个符号体系,但与其他符号体系又有所区别。 语言是以词为基本单位的,词汇又受到语法的支配才可构成 有意义的、可理解的句子,句子按一定的形式再构成篇章等。词 汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的 成语。词又由词素构成,如“教师”是由“教”和“师”这两个 词素构成。同样在英语中“teacher"也是由"teach"和"-er"这两 个词素所构成。词素是构成词的最小的、有意义的单位。“教”
形、单数、复数、阴性、阳性和中性等。这种构造词形的规则称为构形法,
如教师+们→教师们,teacher+s→teachers。这里只是在原来的词后面加上 一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。
构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两
部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅 笔→红铅笔,red+pencil→red pencil.这里“红”是一个修饰铅笔的形容词, 它与名词“铅笔”组合成了一个新的名词。造句法则是用词或词组造句的 规则,“我是计算机科学系的学生”,这是按照汉语造句法构造的句子,“I am a student in the department of computer science"是英语造句法产生的同等 句子。虽然汉语和英语的造句法不同,但它们都是正确和有意义的句子。图
10.1就是上述构造的一个完整的图解。
湖南科技大学计算机学院
戴祖雄
6
语言 词汇 词 词素 熟语 词法 语法 句法
构形法 构词法 词组构造法 造句法 图10.1 语言的构成
湖南科技大学计算机学院 戴祖雄 7
另一方面,语言是音义结合的,每个词汇有其语音 形式。一个词的发音由一个或多个音节组合而成,音节 又由音素构成,音素分为元音音素和辅音音素。自然语 言中所涉及的音素并不多,一种语言一般只有几十个音 素。由一个发音动作所构成的最小的语音单位就是音 素。 迄今为止,对语言理解尚无统一和权威的定义。按 照考虑问题角度的不同而有不同的解释。从微观上讲, 语言理解是指从自然语言到机器(计算机系统)内部之 间的一种映射。从宏观上看· ,语言理解是指机器能够 执行人类所期望的某些语言功能。这些功能包括:① 回答有关提问;②提取材料摘要;③不同词语叙述; ④不同语言翻译。
湖南科技大学计算机学院
戴祖雄
16
4.语义分析
对于语言中的实词而言,每个词都用来称呼事物,表 达概念。句子是由词组成的,句子的意义与词义是直接 相关的,但也不是词义的简单相加。“我打他”和“他 打我”的词是完全相同的,但表达的意义是完全相反的。 因此,还应当考虑句子的结构意义。英语中a red table(一张红色的桌子),它的结构意义是形容词在名词 之前修饰名词,但在法语中却不同,one table rouge(一 张桌子红色的),形容词在被修饰的名词之后。语义分 析就是通过分析找出词义、结构意义及其结合意义,从 而确定语言所表达的真正含义或概念。在语言自动理 解中,语义越来越成为一个重要的研究内容。 湖南科技大学计算机学院 戴祖雄 17
湖南科技大学计算机学院
戴祖雄
13
10.1.3自然语言理解过程的层次
语言虽然表示成一连串的文字符号或者一串声音流,但其内 部实际上是一个层次化的结构,从语言的构成中就可以清楚地看 到这种层次性。一个文字表达的句子是由词素→词或词形→词 组或句子构成,而用声音表达的句子则是由音素→音节→音词 →音句构成,其中每个层次都受到语法规则的制约。因此,语言 的分析和理解过程也应当是一个层次化的过程。许多现代语言 学家把这一过程分为三个层次:词法分析、句法分析和语义分 析。如果接收到的是语音流,那么在上述三个层次之前还应当加
入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是 这种层次化的划分的确有助于更好地体现语言本身的构成。
湖南科技大学计算机学院
戴祖雄
14
1.语音分析 在有声语言中,最小的、可独立的声音单元是音素,音素是一个或一组音, 它可与其他音素相区别。如pin和bin中分别有/p/和/b/这两个不同的音素,但 pin, spin和tip中的音素/p/是同一个音素,它对应了一组略有差异的音。语音 分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形 态规则找出一个个音节及其对应的词素或词。 2.词法分析 词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如 unchangeable是由un-change-able构成的。在英语等语言中,找出句子中的 一个个词汇是一件很容易的事情,因为词与词之间是由空格来分隔的。但是 要找出各个词素就复杂得多,如importable,它可以是im-port-able或importable。这是因为im, port和import都是词素。而在汉语中要找出一个个词素 则是再容易不过的事情,因为汉语中的每个字就是一个词素。但是要切分出 各个词就远不是那么容易。如“我们研究所有东西”,可以是“我们—研究 所—有—东西”也可以是“我们—研究—所有—东西”。
湖南科技大学计算机学院
戴祖雄
11
到了20世纪70年代初期,对语言理解对话系统的研究取得进 展。伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU 系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典 型实例。其中,SHRDLU系统是一个限定性的人机对话系统,它把 句法、语义、推理、上下文和背景知识灵活地结合于一体,成功 地实现了人机对话,并被用于指挥机器人的积木分类和堆叠试验。 机器人系统能够接受人的自然语言指令,进行积木的堆叠操作, 并能回答或者提出比较简单的问题。 进入20世纪80年代之后,自然语言理解的应用研究广泛开展, 机器学习研究又活跃起来,并出现了许多具有较高水平的实用化 系统。其中比较著名的有美国的METAL和LOGOS,日本的PIVOT 和HICAT,法国的ARIANE以及德国的SUSY等,这些系统是自然语言 理解研究的重要成果,表明自然语言理解在理论和应用上取得了
ห้องสมุดไป่ตู้
湖南科技大学计算机学院
戴祖雄
9
自然语言理解是语言学、逻辑学、生理学、心理学、 计算机科学和数学等相关学科发展和结合而形成的一门 交叉学科:它能够理解口头语言或书面语言。语言交流 是一种基于知识的通信。怎样才算理解了语言呢?归纳 起来主要包括下列几个方面: (1)既能够理解句子的正确词序规则和概念,又能理解不含 规则的句子。 (2)知道词的确切含义、形式、词类及构词法。 (3)了解词的语义分类以及词的多义性和歧义性。 (4)指定和不定特性及所有(隶属)特性。 (5)问题领域的结构知识和时间概念。 (6)语言的语气信息和韵律表现。 (7)有关语言表达形式的文学知识。 (8)论域的背景知识。
这个词素本身有教育和指导的意义,而“师”则包含了“人”的 意义。同样,英语中的“-er”也是一个表示“人”的后缀。
湖南科技大学计算机学院
戴祖雄
5
语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词 组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规 则叫做构词规则,如教+师→教师,teach+er→teacher。一个词又有不同的词
湖南科技大学计算机学院
戴祖雄
10
10.1.2自然语言理解研究的进展
随着计算机技术和人工智能总体技术的发展,对自然语言的 理解不断取得进展。 由于电子计算机的出现才使得自然语言理解和处理成为可 能。由于计算机能够进行符号处理,所以有可能应用计算机来处 理和理解语言。 机器翻译是自然语言理解最早的研究领域。20世纪40年代 末期,人们期望能够用计算机翻译剧增的科技资料。美苏两国在 1949年开始俄-英和英-俄的机器翻译研究。由于早期研究中理 论和技术存在一定的局限性,所开发的机译系统的技术水平较低, 不能满足实际应用的要求。1966年在美国科学院发表的一份报 告中,认为全自动机译在较长时期内不会取得成功。此后,机器 翻译研究工作进入低潮。
人工智能及其应用
(第三版)
研究生用书
蔡自兴
第十章 自然语言理解
第十章 自然语言理解
自然语言理解和处理是人工智能的早期的和活跃 的研究领域之一。用自然语言进行高级通信,是人类固 有的本领。现在还不知道动物界是否也能用“口语” 进行通信,例如鸟类之间是否有这种能力。至于书面语 言,那肯定只有人类才具有。 本章将首先讨论自然语言理解的概念、发展简史 以及系统组成与模型等;然后,逐一研究语言的自动分 析、句子的自动理解、语言的自动生成和机器翻译等 重要问题;最后举例介绍自然语言理解系统。 湖南科技大学计算机学院 戴祖雄 2
湖南科技大学计算机学院
戴祖雄
8
然而,对自然语言的理解却是一个十分艰难的任务。 即使建立一个只能理解片言断语的计算机系统,也是很 不容易的。这中间存在着大量的极为复杂的编码和解 码问题。一个能够理解自然语言的计算机系统就像一 个人那样需要上下文知识以及根据这些知识和信息进 行推理的过程。自然语言不仅存在着语义、语法和语 音问题,而且还存在模糊性等间题。具体地说,自然语 言理解的困难是由下列三个因素引起的:①目标表示 的复杂性;②映射类型的多样性;③源表达中各元素 间交互程度的差异性。
10.1语言及其理解的一般问题
什么是语言和语言理解?自然语言理解与 人类的哪些智能是否有关?自然语言理解研究 是如何发展的?理解自然语言的计算机系统是 如何组成的以及它们的模型为何?等等。这些 是研究自然语言理解时感兴趣的问题。
湖南科技大学计算机学院
戴祖雄
3
10.1.1语言与语言理解
语言是人类进行通信的自然媒介,它包括口语、书面语以及 动作语(如哑语和旗语)等。一种比较正规的提法是:语言是用 于传递信息的表示方法、约定和规则的集合,它由语句组成,每 个语句又由单词组成;在组成语句和语言时,应遵循一定的语 法与语义规则。如果没有各种口语和书面语,如英语、汉语、 法语和德语等,人类之间的充分而有效的交流就难以想象。语言 是随着人类社会和人类自身的发展而不断进化的。现代语言允 许任何一个具有正常语言能力的人与他人交流思想感情和技术 等。 要研究自然语言理解,首先必须对自然语言的构成有一个基 本认识。
湖南科技大学计算机学院
戴祖雄
15
通过词法分析可以从词素中获得许多语言学信息。英语中 词尾中的词素“s"通常表示名词复数,或动词第三人称单数,“ly" 是副词的后缀,而“ed"通常是动词的过去式与过去分词等,这些 信息对于句法分析都是非常有用的。另一方面,一个词可有许多 的派生、变形,如work,可变化出works, worked, working, worker, workings, workable,workability等。这些词若全部放入 词典将是非常庞大的,而它们的词根只有一个。 3.句法分析 句法分析是对句子和短语的结构进行分析。在语言自动处 理的研究中,句法分析的研究是最为集中的,这与乔姆斯基 (Chomsky)的贡献是分不开的。自动句法分析的方法很多,有短 语结构语法、格语法、扩充转移网络、功能语法等。句法分析 的最大单位就是一个句子。分析的目的就是找出词、短语等的 相互关系以及各自在句子中的作用等,并以一种层次结构来加以 表达。这种层次结构可以是从属关系、直接成分关系,也可以是 语法功能关系。
湖南科技大学计算机学院
戴祖雄
12
突破性进展。20世纪80年代以来提出和进行的智能计算机研究, 也对自然语言理解提出了新的要求。近年来又提出了对多媒体 计算机的研究。新型的智能计算机和多媒体计算机均要求设计 出更为友好的人机界面,使自然语言、文字、图像和声音等信号 都能直接输入计算机。要求计算机能以自然语言与人进行对话 交流,就需要计算机具有自然语言能力,尤其是口语理解和生成 能力。口语理解研究促进人机对话系统走向实用化。自然语言 是表示知识最为直接的方法。因此,自然语言理解的研究也为专 家系统的知识获取提供了新的途径。此外,自然语言理解的研究 已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的 发展。可以预料,21世纪自然语言理解的研究有可能取得新的突 破,并获得广泛应用。
相关文档
最新文档