第十章 自然语言理解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通过分析找出词义、结构意义及其结合意义,从而确定语言 所表达的真正含义或概念。在语言自动理解中,语义愈来愈成为 一个重要的研究内容。 5、语用分析
研究所在外界环境对语言使用所产生的影响。描述了语言的 环境知识、语言与语言使用者在某个给定语言环境中的关系。
词法分析的主要目的是从句子中切分出单词 , 找出词汇的各 个词素,从中获得单词的语言学信息并确定单词的词义。 不同的语言对词法分析有不同的要求,例如英语和汉语就有 较大的差别。汉语中每个字就是一个词素,找出各个词素相当容 易,但要切分出各个词就非常困难。在英语中单词之间用空格自 然分开,很容易找出句子的每个词汇,但英语单词有词性、数、 时态、派生、变形等,要找出各个词素就复杂得多。 例 如 program 可 变 化 出 programming, programmable, programmed, programs和programmer等。如果把某些词素的派 生、变形、数、时态等变化都收入词典将是非常庞大,但它们的 词根只有一个。支持词素分析,可以极大地压缩自然语言理解系 统中电子词典的规模。
第十章 自然语言理解 (Natural Language Understanding)
语言理解和处理是人工智能早期的和活跃的研究领域之
一。由于它的难度很大,至今仍未能达到很高的水平。
本章将首先讨论自然语言理解的概念、发展简史以及系 统组成与模型等;然后,逐一研究语言的自动分析、句子的
自动理解、语言的自动生成、机器翻译和语音识别等重要问 题;最后举例介绍自然语言理解系统。
种严密的制约关系中构成的。用词素构成词的规则 叫构词法,如教 + 师→教师。一个词又有不同的词 形、单数、复数、阴性、阳性等等。这种构造词形 的规则称为构形法,如教师 + 们→教师们。这里只
是在原来的词后面加上一个复数意义的词素,所构
成的并不是一个新的词,而是同一词的复数形式。 构形法和构词法称为词法。
功能寄存器。在特征寄存器中,每一维特征都有一个特征名 和一组特征值,以及一个缺省值来表示。如“数”的特征维 可有两个特征值“单数”和“复数”,缺省值可以是空值。 英语中动词的形式可以用一维特征来表示:
Form:present,past,present-participle,pastparticiple.Default:present.
转移网络实例图 1.并行算法 并行算法的关键是在任何一个状态都要选择所有可以到达 下一个状态的弧,同时进行试验。 2.回溯算法 回溯算法则是在所有可以通过的弧中选出一条往下走,并 保留其他的可能性,以便必要时可回过来选择之。这种方式需 要一个堆栈结构。
10.3.4 扩充转移网络
扩充转移网络 ATN 是由伍兹 (Woods) 在 1970 年提出的,之 后卡普兰 ( Kaplan) 等人对其作了一些改进。 ATN 是由一组网 络所构成的,每个网络都有一个网络名,每条弧上的条件扩 展为条件加上操作。这种条件和操作采用寄存器的方法来实 现,在分析树的各个成分结构上都放上寄存器,用来存放句
T={the, man, killed, a, deer, likes}
N={S, NP, VP, N, ART, V, Prep, PP} S=S P: (1) S→NP+VP (3) NP → ART+N (2) NP → N (4) VP → V
(5) VP → V+NP
(7) N → man | deer
语言虽然表示成一连串的文字符号或者一串声音流,但
其内部事实上是一个层次化的结构,从语言的构成中就可以 清楚的看到这种层次性。一个文字表达的句子是由词素→词 或词形→词组或句子,而用声音表达的句子则是由音素→音 节→音词→音句,其中每个层次都是受到语法规则的制约。
因此,语言的分析和理解过程也应当是一个层次化的过程。
10.3 句法分析
句法分析目的就是找出词、短语等的相互关系以及各自在 句子中的作用,并以一种层次结构来加以表达。下面介绍基于 规则的句法分析方法:
一部短语结构语法定义的语言 L(G)就是从起始符 S推导出终 结符号串W的集合,是由一系列产生式规则组成的。下面给出一 个简单的短语结构语法。 例10.1 G=(T,N,S,P)
(3)源表达中各元素间交互程度的差异性。
10.1.4 自然语言理解研究的进展
机器翻译是自然语言理解最早的研究领域。
70年代初期,语言理解对话系统的研究取得进展。伍兹的 LUNAR系统、威诺甘德的SHRDLU系统和香农的MARGIE系 统等是语言理解对话系统的典型实例。 新型的智能计算机要求设计出更为友好的人机界面,使自
功能寄存器则反映了句法成分之间的关系和功能。
分析树的每个节点都有一个寄存器,寄存器的上半部分 是特征寄存器,下半部分是功能寄存器。图 10.5 所示是一个 简单的名词短语 (NP) 的扩充转移网络,网络中弧上的条件和 操作如下:
10.1 自然语言理解概述
什么是语言和语言理解?自然语言理解与人类的哪些智
能有关?自然语言理解的系统如何组成 ? 等等。这些问题是 我们开始研究自然语言理解时感兴趣的。
10.1.1 语言和语言理解
语言是用于传递信息的表示方法、约定和规则的集合, 它由语句组成,每个语句又由单词组成;组成语句和语言时,
应遵循一定的语法与语义规则。如果没有各种口语和书面语, 如英语、华语、法语和德语等,人类之间思想、感情和技术 交流就难以想象。语言是随着人类社会和人类自身的发展而 不断进化的。
研究自然语言理解,必须对自然语言构成有基本认识。
语言是音义结合的词汇和语法体系,是实现思
维活动的物质形式。语言是一个符号体系,但与其 他符号体系又有所区别。 语言是以词为基本单位的,词汇又受到语法的 支配才可构成有意义的句子,句子按一定的形式再
许多现代语言学家把这一过程分为 5个层次:语音分析、词法 分析、句法分析和语义分析和语用分析。虽然这种层次之间
并非是完全隔离的,但是这种层次化的划分的确有助于更好
地体现语言本身的构成。
1、语音分析
在有声语言中,最小可独立的声音单元是音素,音素是一个 或一组音,它可与其他音素相区别。语音分析则是根据音位规则, 从语音流中区分出一个个独立的音素,再根据音位形态规则找出 一个个音节及其对应的词素或词。 2、词法分析 其主要目的是找出词汇的各个词素。如 unchangeable 是由 un-change-able构成的。在英语语言中,找出句子中的词汇是一 件很容易的事,因为词与词之间是由空格来分隔的。但要找出各 个词素就复杂得多,如 importable ,它可以是 im-port-able 或 improt-able 。而在汉语中要找出一个个词素则是很容易的,每 个字就是一个词素。但要切分出各个词就远不是那么容易。如 “我们研究所有东西”,可以是“我们—研究所—有—东西”也 可以是“我们—研究—所有—东西”。
语法中的另一部分就是句法。句法也可分成两部分:
词组构造法和造句法。词组构造法是词搭配成词组的规则, 如红+铅笔→红铅笔。这里“红”是一个修饰铅笔的形容词,
它与名词“铅笔”组合成了一个新的名词。造句法则是用
词或词组造句的规则,“我是计算机科学系的学生”,这 是按照汉语造句法构造的句子。下图就是上述语法构造的 一个完整的图解。 另一方面,语言是音义结合的,每个词汇有其语音形 式。一个词的发音由一个或多个音节组合而成,音节又由 音素构成,音素分为元音音素和辅音音素。音素是指一个 发音动作所构成的最小的语音单位。
q1 q0
q2
adj
pron.
verb
q4
pron.
q3
noun verb
q
q5
adj noun
T
转移网络(TN)
用 TN 来识别句子 The little orange ducks swallow flies 的过程如表10.1。(这里忽略了词法分析,网络如图所示) 表 10.1 句子识别过程
转移网络实例图
然语言、文字、图象和声音等信号能直接输入计算机。
口语理解研究促进人机对话系统走向实用化。自然语言是 表示知识最为直接的方法。因此,自然语言理解的研究也为专
家系统的知识获取提供了新的途径。
此外,自然语言理解的研究已促进计算机辅助语言教学 (CALI)和计算机语言设计(CLD)等的发展。
10.1.5 自然语言理解过程的层次
法功能和句法特征,条件和操作将对它们不断地进行访问和
设置。 ATN 弧上的标记也可以是其他网络的标记名,因此 ATN 是一种递归网络(任何一个网络都可以调用包括它自己在内
的任何其他网络)。在ATN中还有一种空弧jump,它不对应一
个句法成分也不对应一个输入词汇。
ATN的每个寄存器由两部分构成:句法特征寄存器和句法
(6) ART → the| a
(8) V → killed | likes
10.3.3 句法模式匹配和转移网络
句法分析最为简单、直观的方法也许就是模式匹配。句法
模式匹配就是采用句法模式来对语言的句子进行匹配从而进行 的 句 法 分 析 。 例 如 : bears love honey 可 用 句 法 模 式 noun+verb+noun 来 匹 配 ; 句 子 的 主 语 有 许 多 模 式 noun , adj.+noun , adj.+adj.+noun , adj.+adj.+adj+noun , …, 对此 可采用形式化的表达方式(adj.*noun),其中*表示可有可无 且可重复出现。一个句子可以表示成:
构成篇章等。词汇又可分为词和熟语。熟语就是一
些词的固定组合,如汉语中的成语。词又由词素构 成,“教师”是由“教”和“师”这两个词素所构 成的。词素是构成词的最小的有意义的单位。“教” 这个词素本身有教育和指导的意义,“师”则包含
了“人”的意义。
语法是语言的组织规律。语法规则制约着如何
把词素构成词,词构成词组和句子。语言正是在这
( pronoun∨ ( adj.*noun ) ) verb ( pronoun∨ (adj.*noun))
但是自然语言是非常多样化的,因而需要有许多模式。这些 模式可用状态转移图来表示,这种用状态转移图来表示的表达方 式称之为转移网络(TN,transition network)。如下图所示, 图中,q0,q1,…,qT是状态,q0是初态,qT是终态。弧上给出了状 态转移的条件以及转移的方向。该网络可用于分析句子也可用于 生成句子。
语言
词汇 词 词素 熟语 词法
语法 句法
构形法
构词法 词组构 造法
造句法
语言的构成图
从微观上讲,语言理解是指从自然语言到计算机系统内
部之间的一种映射。从宏观上看,语言理解是指机器能够执 行人类所期望的某些语言功能。这些功能包括: (1)回答有关提问; (2)提取材料摘要;
(3)文本释义;
(4)不同语言翻译。 自然语言理解是语言学、逻辑学、生理学、心理学、计 算机科学和数学等相关学科发展和结合而形成的一门交叉学 科;它能够理解口头语言或书面语言。语言交流实际上是一
3、句法分析
是对句子和短语的结构进行分析。自动句法分析的方法很多, 有短语结构语法、格语法、扩充转移网络、功能语法等等。句法 分析的目的就是找出词、短语等的相互关系以及各自在句子中的 作用等,并以一种层次结构来加以表达。这种层次结构可为反映 从属关系,直接成分关系,也可是语法功能关系。
4、语义分析
识别过程到达 f 状态 ( 终态 ) ,所以该句子被成功地识别了。 分析结果如下图所示。从上述过程中可以看出,这个句子还可
以在网络中走其他弧,如词 ducks 也可以走弧 ,但接下 来的 swallow 就找不到合适的弧了。此时对应于这个路径,该 句子就被拒识了。由此看出,网络识别的过程中应找出各种可 能的路径,因此算法要采用并行或回溯机制。
wenku.baidu.com种基于知识的通信。
对自然语言的理解是一个十分艰难的任务,即使建立一
个只能理解片言断语的计算机系统,也是很不容易的。这中
间有大量的极为复杂的编码和解码问题。一个能够理解自然 语言的计算机系统就像一个人那样需要上下文知识以及根据
这些知识和信息进行推理的过程。自然语言不仅有语义、语
法和语音问题,而且还存在模糊性等问题。具体地说,自然 语言理解的困难是由下列3个因素引起的: (1)目标表示的复杂性; (2)映射类型的多样性;