第8章 自然语言理解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2) 源-目映射的多样性 在自然语言理解过程中,源表示转变为目标表示有四种 方式(设目标表示为语义网络): ① 一对一映射:源语句与语义网络表示严格对应; ② 多对一映射:多个源语句映射到同一语义网络表示。 如例8-3; ③ 一对多映射:反映了自然语言固有的歧义性。如例 8-4; ④ 多对多映射:既有多对一映射,又有一对多映射。
考虑到上下文无关文法的句法分析远比上下文有关文法 的句法分析有效,因此人们希望能在增强上下文无关文法的 句法分析的基础上,实现机器的自然语言理解。
4. 无约束短语结构法 无约束短语结构法是指对重写规则没有任何限制, 但它很少用来处理自然语言问题。无约束短语结构法对 文法规则的表示形式不作任何限制,从而能使定义的语 言提供充分的描述功能。该文法不保证语言的递归性, 即不能确保语句合法的可判性,所以很少用于定义自然 语言。
2011-12-26
第8章 自然语言理解
8.1 自然语言理解的一般问题 8.2 句法分析 8.3 语义分析 8.4 自然语言理解系统应用举例 8.5 机器翻译 8.6 语音识别 8.7 信息检索
8.1 自然语言理解的一般问题
1.自然语言的构成 语言是由音义结合的词汇与语法构成的体系
图8-1 语言的构成
类型 0 1 2 3 语种 无约束短语结构法 无 上下文有关文法 上下文无关文法 正则文法 左部至少包括一个非终结符,右部符号的个 数不少于左部 左部必须是单一非终结符 左部必须是单一非终结符;右部或者是单一 终结符,或者是单一终结符跟单一非终结符 规则限制
1. 正则文法 处于乔姆斯基体系底部的是正则语言,其采用的3型 文法限定(限制最多)的文法规则。其可分为左线性文 法和右线性文法。
1
2011-12-26
熟语:一些词的固定组合(词组或句子),如:成语、惯用语、 歇后语、谚语等。 词素:如:合成词“教师”由“教”和“师”两个词素组成、 “teacher”由“teach”和“er”组成。有的词素可以独立构 成单纯词。 构词法:词素构成词的构词规则 构形法:构造词形(单、复数、阴性、阳性、中性)的规则
理论上讲,上述→形式的文法规则的定义几乎不受 限制:规则两边可以出现任意多个符号、而且规则可以递 归。 但是,规则形式不受限制会增加句法分析的复杂程度; 如果对规则形式加以限制,可以简化句法分析,但缺点是 会限制语言表达形式和描述能力。
7
2011-12-26
8.2.2 乔姆斯基体系
乔姆斯基(Noam Chomsky)依据文法规则表示形式的 受限程度,将文法(和语言)划分为四个等级,如表8-2所 示,称为乔姆斯基体系。 表8-2 乔姆斯基体系
5
2011-12-26
语义分析:分析找出词汇的含义、句子的结构意义,确定语 句的含义。 语用分析:基于环境知识来确定语句含义。如“把手放在桌 子上” 是 “把/手/…” 还是 “把手/…”? 表8-1自然语言的层次划分与对应技术
理论 模板匹配、基于音位规则 基于词素、词汇 转换生成、词汇功能语法 格语法、语义基元理论、模型理论 基于记忆的推理、语言行为理论 层次结构 语音 词汇 语法 语义 语用 模板匹配 词典结构 扩展转移网络,CF规则 产生式规则,概念相依理论 脚本、框架、语义网络、逻辑 对应技术
语音分析:根据音位规则,从语音流中区分出一个个独立的音 素(是最小的、可独立的声音单元。有:元音音素如/a:/,辅 音因素如/b/),再根据音位形态规则找出一个个音节及其对应 的词素或词。 词法分析:从句子中切分出单词、甚至从词汇中找出词素。英 语找词容易,找词素比较难(如importable可能是im-portable或 import-able);汉语找词素容易,但从句子中分出词来比较难。 句法分析:对句子或短语的结构进行分析。方法有:短语结构 语法、格语法、扩充转移网络、功能语法等。分析的目的是找 出词、短语等的相互关系以及各自在句子中的功能等,分析结 果往往用一种层次结构加以表达,这种层次结构可以是:从属 关系、直接成分关系、语法功能关系。
左线性文法的文法规则必须采用如下形式 A→Bt 或 A→t
其中,A,BN,tT,即:A,B都是单独的非终结符;t 是单独的终结符。
右线性文法的文法规则必须采用如下形式 A→tB 或 A→t
8
2011-12-26
右线性文法例子如: S→aA A→bB S a A b c B d
B→cA
B→d 图8-5 对应的状态转移图
A→y/x_z
其中,AN,yV+,x,zV*。这条规则的意思是:如果A出现在上下文 “x z”中,即前面紧挨着符号串x,后面紧挨着符号串z,则A可以重写为y。 即有 xAz→xyz。 第二种标记体现了:一个符号的重写依赖于其上下文;这也是“上下 文有关”这个名称的由来。
10
2011-12-26
4
2011-12-26
4.自然语言理解过程的层次 语言虽然表示为一连串的文字符号,但其内部实际上是 一个层次化的过程。现代语言学家把这一过程分为3个层次: 词法分析、句法分析和语义分析。如果接收到的是语音流, 那么在上述3个层次之前还应当加入一个语音分析层。虽然 这种层次之间并非是完全隔离的,但是这种层次化的划分的 确有助于更好地体现语言本身的构成。 (1) 语音分析 (2) 词法分析 (3) 句法分析 (4) 语义分析 (5) 语用分析
<SENTENCE><SUBJECT><VERB PHRASE> Mary<VERB PHRASE> Mary<VERB> <OBJECT> Mary eats <OBJECT>
Mary eats cheese
SUBJECT
SENTENCE VERB PHRASE VERB Mary eats OBJECT cheese
例如:S→aSb,S→x。
如果令: S→(S),S→x;则可生成:x, (x), ((x)), … 上下文无关文法正是以这种方式解决了正则文法无法解 决的嵌套结构。
9
2011-12-26
上下文无关文法的语言的句法分析可以采用基于有限状 态自动机的转移网络技术或产生式推导技术。分析的结构可 以表示为句法分析树。 例如:“Mary eats cheese”的分析推导和句法分析树如下:
2
2011-12-26
(1) 目标表示的复杂性 简单情况下,只需语句中出现的预定类型单词与指定关 键词进行匹配、然后查找、最后反馈用户,就可以实现 肤浅的理解。例8-1: “有从<起点>到<终点>的<车种>的车票吗?” “有从上海到北京的特快车的车票吗?” 复杂情况下,要从已有的语言知识推得目标结果,从而 表现出对语言的理解,就要困难得多,需要更多的背景 知识(如:人类情感常识、两人是情侣)。例8-2: 已有:“小王告诉小丽:他不想和她一起去看电影:小 丽觉得很伤心。” 问:“为什么小丽很伤心?”
3
2011-12-26
(3) 源表示成分间的语义相关性 自然语言是上下文相关的语言,体现为语言成分之间的 语义相关性。譬如:在语句中处于相同位置的同类词组, 可能因为语义不同而导致语法结构的较大差异。
例8-5 “John saw the boy in the park with a telescope.” 和 “John saw the boy in the park with a dog.”
12
2011-12-26
8.2.4 句法模式匹配和转移网络
句法分析最为简单、直观的方法也许就是模式匹配。 如:“bears love honey” 可以用句法模式 noun+verb+noun来匹配。 而“wooly bears”或“ferocious wooly bears” 可以用模式(adj. * noun)来匹配(*表示可以有 零个或多个形容词在名词前面)。
正则文法的规则形式高度受限,可以用有限状态自 动机程序做高效的句法分析。 在对应的有限状态转移 图(图中状态节点的数量有限)上,每一条从起始节点 到最终节点的路径都对应于正则语言的一个句子。 因 此,正则文法又称有限状态文法。
2. 上下文无关的文法 上下文无关的文法已广泛应用于定义程序设计语言, 它的文法生成能力强于正则文法。其形式为: A→x 其中,AN,xV*,即每条产生是的左侧必须是一个单 独的非终结符。在这种形式体系中,规则不依赖于符号A 所处的上下文,所以称上下文无关文法。
图8-6 句法分析树
3. 上下文有关文法
自然语言是上下文有关的文法,上下文有关的语言需要用1型文法加以 定义,文法规则允许其左部有多个符号(至少包括一个非终结符),以指 示上下文相关性;但要求规则右部符号的个数不少于左部,以确保语言的 递归性(即语句合法的可判性)。上下文有关的文法有两种标记方法。 第一种标记为:上下文有关文法满足于 x →y 其中,y的长度大于或等于x,而且y,xV*。例如,AB→CDE 第二种标记为:
词组构造法:词构成词组的规则,如:红+铅笔 红铅笔
造句法:用词或者词组造句的规则。 另外,语言是音义结合。每个词的发音是由一个或多个音节组 合而成,音节又由音素构成,音素是最小的、可独立的声音单 元;有:元音音素如/a:/,辅音因素如/b/。
2.自然语言理解的困难 导致自然语言理解存在困难的主要因素有三个: (1) 目标表示的复杂性 (2) 源-目映射的多样性 (3) 源表示成分间的语义相关性
3. 自然语言理解研究的发展 20世纪40年代末期。 20世纪60年代中期:主要依靠关键词匹配。在自然语言理解 系统中预先存放大量的包含某些关键词的模式,每个模式和 一个或多个语义解释相对应。 输入的关键词及语句和模式 进行匹配,从而得到对应的解释。 这种方法比较死板,往 往导致错误的分析和解释。 例子系统有:MIT的ELIZA。 20世纪70年代后:句法-语义分析取得进展。例子系统如: MIT的SHRDLU系统(把句法分析、语义分析、逻辑推理结 合起来)、斯坦福大学的MARGIE系统;这些系统融合句法、 语义、推理、上下文和背景知识。 80年代后:更多应用。
11
2011-12-26
8.2.3 句法分析的策略
1. 句法分析方式 依据文法的形式定义,句法分析可分为两大类:
– 自顶向下:从树顶的根节点开始建立句法分析树;从
推导的顺序看,是从起始符开始向句子进行推导(正 向运用句法规则) 。
– 自底向上:从树底的叶节点(即词或词类)开始建立
句法分析树;从推导的顺序看,是从句子开始直至到
达起始符(句法规则被倒过来用)。
2. 句法分析中的搜索方法
(1) 所有路径法:对逐个输入的单词可能充当的所有角色都 进行分析。由于许多不可能成功的分析路径都被搜索,因此, 会导致搜索效率低下 。 (2) 带回溯的最优路径法:用启发式对搜索路径进行排序; 搜索失败时进行回溯(应减少回溯处理的工作量)。 (3) 带修补的最优路径法:搜索失败时并不进行回溯,而是 改变句子成分对应的语法结构。 (4) 等待观察法:在分析输入的句子时,对于任何句子成分, 如果没有足够信息用于得到确定的分析结果,就暂不要判定, 等待后续输入提供足够的信息。这种方法在很大程度上避免 回溯,但缺点是在分析复杂句子的时候必须暂存许多角色待 定的句子成分。例子系统有PARSIFAL。
Байду номын сангаас8.2 句法分析
8.2.1 文法和语言的形式定义 8.2.2 乔姆斯基体系 8.2.3 句法分析的策略 8.2.4 句法模式匹配和转移网络 8.2.5 句法分析的确定性算法 8.2.6 词汇功能语法 8.2.7 基于统计方法的句法分析方法
6
2011-12-26
8.2.1 文法和语言的形式定义
自然语言的文法属于所谓的短语结构文法,它可以形 式地表示为一个4元组: G=(T, N, P, S) 其中,T是终结词汇表(确定了该语言中合法语句可用的单 词符号),N是非终结词汇表(可以是描述文法的词汇), T和N的并构成了V称为总词汇表,而且两者不相交;P是文 法规则的有穷集(约束句子中单词符号的排序),每条文 法规则形如→,V,VNV (指示来自总词汇表 V的符号,可以出现0或任意多次);S称为起始符,SN。 能被以这种方式定义的某种文法接收的(识别的)所 有合法语句构成遵从该文法的语言。