计算语言学讲义打印稿(11)形式语法理论II

合集下载

第二章 形式语言概论

第二章 形式语言概论

语言的有穷表示有两个途经
生成方式(文法)
语言中的每个句子可以用严格定义的 规则来构造。
识别方式(自动机)
用一个过程,当输入的一任意串属于 语言时,该过程经有限次计算后就会停止 并回答“是”,若不属于,要么能停止并回 答“不是”,要么永远继续下去。
§2.2 文法及其分类
2.2.1 文法的定义
A*=∪Ai(i≥0)=A0∪A1∪A2∪A3∪…
例如:A={a,b}
则A*={ε,a,b,aa,ab,ba,bb, aaa,aab,aba,abb, …}
A*与A+的关系:
A*=A0∪A+
A+=AA*=A*A
由此得出结论:n语言是由句子组成的集 合,是由一组符号所构成的集合。换言之,字 母表S上的一个语言是S上的一些符号串的 集合。(字母表S上的每个语言是S*的一个 子集)。
的规则(或说是P中的一个产生式),和 是V*中的任意符号,若有符号串v,w,满 足v= ,w= ,则称v (应用规则 )直接产生w,或v直接推导出w,或 w是v的直接推导,或w直接归约到v,记 作v w。
例:
文法G[S]由如下规则组成: SA A AB|B B 0|1|2|…|9 其中S是文法 G [S] 的识别符号,该文法的 字母表为:V={S,A, B,0,1,…,9} 用这些规则和直接推导的定义可以推出所有 正整数,如可推导出24:
P15~P16例2.6~例2.10的文法类型。

2型文法可改写成3型文法。
例:将如下的上下文无关文法改写为等价的 正规文法。 G[S]:SabcA AbcB Ba 改写后G[S]: AbE SaM EcB MbN Ba NcA
文法分类的意义
文法分类对于实现程序设计语言的编译 程序具有重要意义。

计算语言学Part2高级语言及其语法描述

计算语言学Part2高级语言及其语法描述

文法的直观概念
关于文法的定义
定义3.1
文法G定义为四元组(VN, VT, P, S)。 其中VN为非终结符号(或语法实体,或变量)集;VT为终结符 号集;P为产生式(也称规则)的集合;VN, VT和P是非空有穷 集。S称做识别符号或开始符号,是一个非终结符(S∈ VN), 至少要在一条规则中作为左部出现。 VN和VT不含公共元素,即VN∩VT=Φ。通常V表示VN∪VT,V称 为文法G的字母表或字汇表。
Part2 高级语言及其语法描述
授课:胡静
内容提要
预备知识——形式语言基础 程序语言的定义(语法定义、语义定义) 高级语言的一般特性(程序结构、数据类型和操作、 语句与控制结构) 程序语言的文法
文法的类型 上下文无关文法及其语法树 有关文法实用中的一些说明
预备知识
更多的概念和一些约定
A, B, C, … 用来表示非终结符 a, b, c, … 表示终结符 …, X, Y, Z 可以用来表示终结符或者非终结符 …, w, x, y, z 表示终结符号串 α, β, γ, δ, … 表示由终结符或非终结符构成的符号串 在产生式A→α中,
语句与控制结构
表达式:一个表达式是由运算量(操作数,即数据引 用或函数调用)和算符组成的。 语句:不同程序语言含有不同形式和功能的各种语句
执行语句:描述程序的动作,分为赋值语句、控制语 句、输入/输出语句; 说明性语句:定义各种不同数据类型的变量或运算 从形式上分,语句可以分为简单句、复合句和分程序 等。
程序语言的定义
程序语言的语法定义
所谓一个语言的语法是指这样一组规则,用它可以形 成和产生一个合式的程序。这些规则一部分称为词法 规则则,另一部分称为语法规则(或产生规则)

第二章形式语言的基本知识

第二章形式语言的基本知识

第二章形式语言的基本知识第二章形式语言的基本知识2-1什么是形式语言2-2字母表和符号串的基本概念2-3用文法产生法描述语言2.3.1通过文法产生语言的方式2.3.2为已知的语言构造相应的文法2-4句型分析2.4.1短语和简单短语2.4.2文法的二义性和语言的二义性2-5文法和语言的分类2-6文法的其他表示方法2-7C--语言的形式定义2-8小结2-1什么是形式语言2-2字母表和符号串的基本概念2-3用文法产生法描述语言2.3.1通过文法产生语言的方式2.3.2为已知的语言构造相应的文法2-4句型分析2.4.1短语和简单短语2.4.2文法的二义性和语言的二义性2-5文法和语言的分类2-6文法的其他表示方法2-7C--语言的形式定义2-8小结2- 1什么是形式语言一、形式语言的提出目标程序源程序编译程序如何确切地描述或定义高级程序设计语言形式语言2-1什么是形式语言一、形式语言的提出形式语言是研究符号的语言,它仅考虑符号间的关系,不考虑含义。

即用数学方法(主要是代数方法)对语言进行形式化描述。

从非形式化的角度来讲,语言是人们交流思想的工具,从语言学本身来说,也是一门古老的科学,在很早以前人们就用数学方法开始对语言学进行研究。

1847年,俄国数学家布拉库夫斯基就用概率论进行语法词源及语言历史比较研究。

1904年,波兰语言学家指出,语言学家不仅要掌握初等数学而且还要掌握高等数学。

1931年,俄国数学家就用概率论研究俄语元音字母和辅音字母序列。

特别是1946年电子计算机问世以来更加促使数学和语言学结合研究。

2-1什么是形式语言一、形式语言的提出1956年,28岁的N.Chomsky(乔姆斯基)在《信息论杂志》上发表了《语言描写的三个模型》,他首次采用Markov模型来描写自然语言,对于有限状态模型、短语结构模型和转换模型等三个模型,从语言学和数学的角度进行了理论上的分析,建立了形式语言理论,具有划时代意义。

语言学概论课程讲义目录及部分课程讲义

语言学概论课程讲义目录及部分课程讲义

语言学概论课程讲义目录及部分课程讲义《语言学概论》课程目录第一章语言和语言研究第一节语言和语言学一、语言的内涵与外延二、语言的若干属性三、语言学第二节语言功能一、社会文化方面的功能二、心理方面功能第三节语言历史一、语言起源二、语言分化三、语言的接触和融合四、语言发展的原因和特点第四节西方语言学简史一、传统语言学二、历史比较语言学三、现代语言学四、当代语言学第二章语言结构第一节语言的结构系统一、语言的层级与层面二、语言结构的共性和个性三、语言结构类型第二节语音一、语音和语音学二、音素和音位三、语音特征四、语音组合第三节语义一、语义和语义学二、语义单位三、义素分析四、语义场五、语义的组合第四节语汇一、语汇和语汇学二、语汇层级三、语汇聚类四、语汇构成第五节语法一、语法和语法学二、语法形式和语法意义三、词类四、短语五、句子六、语段第三章语言运用第一节言语交际一、语言运用与语用学二、言语交际的过程三、言语交际的原则四、言语交际的制约因素第二节言语行为一、言语行为的概念二、言语行为的类型三、间接言语行为第三节话语表达和话语理解一、话语表达二、话语理解第四节交际变体和语用对策一、交际变体二、语言交际障碍三、社会语用对策第四章语言学习第一节第一语言获得一、第一语言获得理论二、儿童语言的发展第二节第二语言获得一、第二语言获得理论二、中介语三、对比分析和偏误分析四、第二语言教学法附录世界语言谱系分类表参考文献语言学概论课程名称:语言和语言研究(一)教学目标:掌握语言的内涵和外延;知识点:语言与言语、口语与书面语、共同语与方言、自然语言与其他符号系统重难点:语言与言语、自然语言与其他符号系统课程内容:第一章语言和语言研究第一节语言和语言学一、语言的内涵与外延(一)语言是什么语言学界至今对语言还没有一个清晰而统一的定义。

因为不同的时代、不同的学派对语言有不同的看法。

一般来说,可以把语言定义为:人类用于交际和思维的最重要的符号系统。

第2章形式语言概论

第2章形式语言概论
G=(VN,VT,P,S) 其中: VN={I, L, D} VT={a,b,c, … x,y,z,0,1,2,…
,P9=}{ I→L| I L| I D L→a | b | c | … | x | y | z D→0 | 1 | 2 | 3 | … | 9
S=I }
文法的形式定义
若将定义标识符的文法设计成: G=(VN,VT,P,S )
1. 字母表 元素的非空有穷集合。 例如,∑={ a, b, c } 根据字母表的定义,Σ是字母表,
它由a、b、c三个元素组成。
字母表和符号串
注意: (1) 字母表中至少包含一个元素。 (2) 字母表中的元素, 可以是字母、 数字或其他符号。 例如,∑' ={0, 1} 是一个字母表,由0、1两个元素 组成。
第2章 形式语言概论
形式语言理论是编译的重要理论 基础。本章主要介绍编译理论中用到 的有关形式语言理论的最基本概念, 重点介绍如何采用形式化的方法描述 程序设计语言。
第2章 形式语言概论
字母表和符号串 文法和语言的形式定义 文法和语言的分类 短语、直接短语和句柄 语法树和文法的二义性
概述
当n=1 L={aa, bb} L={a2n, b2n | n≥1}
当n=2 L={aaaa, bbbb} 当n=3 L={aaaaaa, bbbbbb}
…… L={aa, bb, aaaa, bbbb, aaaaaa, bbbbbb, … …} 即语言L是由偶数个a,偶数个b这样的 符号串组成的集合。
幂运算定义为:
A0={} A1=A A2=AA
… An= AA … A=AAn-1(n>0)
n
符号串的运算
例如,设A={ a, b },则 A0={} A1=A={ a, b } A2=AA={ aa, ab, ba, bb } A3=AAA=A2A

语言学概论讲义第四章 语法二

语言学概论讲义第四章  语法二
2019年2月3日 语言学概论-第四章-基本内容
(一)语素
2、语素的分类 (1)按音节分:单音节语素/双音节语素 我 /me 咖啡/table (2)根据语素在词中的不同作用可以分成三 类,词根、词缀和词尾。 词根是体现一个词的的基本意义的语素,如桌 子、石头中的桌和石,阿姨、老虎中的姨和虎, 手表中的手和表。又如英语worker \ teacher 中的work和 teach。
2019年2月3日
语言学概论-第四章-基本内容
(一)语素
从语素和汉字的关系看:首先汉语的字不一定 都有意义。 a.“人、车、我、看”; b.“泳、吝、躬、企”; c.“的、了、吗”; d.“子、儿、头(轻声)” e.“葡、萄、咖、啡”; f.“沙、发、巧、克、力”。
2019年2月3日 语言学概论-第四章-基本内容
语言学概论-第四章-基本内容
(一)语素
2、语素的分类 词缀在构词时位置是固定的. 前缀在词中总是在词根语素之前,如汉语的 “阿姨、老虎、第一、初二”中的“阿-、老 -、第-、初-”等,英语的 return ,unhappy , incorrect中的“re-,un-,in-” 等。 后缀总是位于词根语素之后,如汉语的“-子” (桌子)、“-儿”(刀儿)、“-头”(石 头),英语的-er(driver),-ful(useful),- 2019 年2月3日 (usefulness 语言学概论 -第四章-基本内容 ness )等。
第四章 语法
4.1语法和语法单位 4.1.3语法单位 4.1.3.1语素 自由语素与粘着语素,自由语素是指能单独 成词、成词后能处于单说地位的语素。如:灯、 笔、吃、看、好等。粘着语素是指不能单独成 词的语素以及虽能单独成词但成词后不能处于 单说地位的语素。前者如“杏、机、子、吝” 等;后者如“也、刚、了、吗、吧”等。

语言学概论讲义(按章节整理)

语言学概论讲义(按章节整理)

导言部分一、语言学:以语言为研究对象的科学、研究探索语言的本质、结构和发展规律。

二、语言的三大发源地:中国、印度、希腊-罗马三、小学:小学是我国古代语文学的统称,由训诂学、文字学、音韵学组成。

四、语言交际的过程:编码-发送-传递-接受-解码五个阶段。

五、根据研究对象的不同把语言学分为专语语言学和普通语言学。

五、1共时语言学:以同时的静态分析的方法、研究语言相对静止的状态。

描写分析语言在某一个时期、某一个阶段的状况,时从横的方面研究语言。

(如现代汉语、当代英语)五、2历时语言学:从历时的、动态的角度研究语言发展的历史,观察一种语言的各个结构要素在不同发展阶段的历史演变,是从纵的方面研究语言的历史。

(如汉语史)五、3专语语言学:又称具体语言学、个别语言学,是以一种或几种有联系的语言为研究对象,研究某一语言的结构。

五、4普通语言学:以人类一般语言为研究对象,研究人类语言的性质、结构特征、发展规律,是综合众多语言研究成果而建立起来的。

五、5现代语言学之父:瑞士索绪尔代表作《普通语言学教程》六、语言学流派:1历史比较语言学:是比较方言或亲属关系语言的这种成系统的差异,重建语言史的一门学科。

历史比较语言学在语言学史上具有重要地位:历史比较语言学,为后来的结构主义和描写语言学的产生和发展创造了有利条件,它在19世纪进入了系统的研究,是语言学走上独立发展道路的标志。

历史比较语言学代表人物:初期:丹麦拉斯克;中期:德国施莱歇尔2、结构语言学的分支:布拉格学派、哥本哈根学派、美国描写语言学派。

美国描写语言学代表人物:布龙菲尔德代表作《语言论》七、语言的三要素:主要是语音、词汇和语义、语法三部分第一章语言的功能第一节语言是人类最重要的交际工具一、语言是音义结合的符号系统,是人类最重要的交际工具和思维工具。

一、1语言的作用:语言是人类社会的交际工具,每个社会无论经济发达还是落后,都必须有属于自己的语言,都离布开语言这个交际工具。

计算语言学

计算语言学

计算语言学计算语言学(computer-aidedgrammars)又称“电脑辅助语言学”或“计算机辅助语言研究”。

它是计算机科学和人工智能技术与语言学相结合的产物,是20世纪50年代末到60年代初语言学中一个新兴的分支学科。

计算语言学的主要任务是利用现代科学技术手段来研究人类的自然语言及其形成过程。

它的研究对象就是大量的自然语言材料,通过建立各种模型、方法、理论来进行定量研究。

计算语言学作为当前语言学中一个崭新的领域,得到了很多语言学家和数学家们的重视。

语言是人类最重要的交际工具,社会上绝大部分的交际活动都需要借助语言才能完成。

人们也离不开语言,可以说没有语言就没有人类社会。

人类的自然语言也在发展变化,人们总结出许多的规律,我们将这些规律运用到语言教学之中,使教学更加符合实际,更加有效。

这是人们对自然语言规律的研究,在此基础上出现了语言教学法,现在应用的还只是一小部分,而且,目前还没有普及化,还不是每个学校都能普及的。

但随着时间的推移,它必将普及。

计算机作为人类科学文化发展的一个标志,已经深入到人类生活的各个角落,深入到生产和科研等领域,并且逐渐走向了社会的各个层面。

然而,如果有一天,计算机不再被当作某种工具,而真正成为人类的一种思维工具,计算机语言也就将成为一种有血有肉的社会语言,以后人们讲话也就将不再是那么困难。

从此,人们不仅可以像今天这样把语言看作是一门科学,而且,还可以像数学那样将语言视作人类智慧的结晶。

这种改变是革命性的,是人类历史上划时代的事件。

语言学家和语言学爱好者正是因为有了这种客观精神,所以才坚持走语言研究的道路,因为这条路可以给他们带来希望。

即使是这种希望并非一定会成功,但至少它会使人们意识到人类文明的进步与伟大,同时,也使他们在探索过程中感到幸福,感到充实。

语言学家们的每一次发现,语言学上的每一点进步,都会促使他们感受到真正的快乐。

每一项科研成果都会带来社会的进步和文明的提高,这种科研和探索本身是幸福的。

计算语言学(全套课件114P)

计算语言学(全套课件114P)
11
计算语言学的发展简史
• 1950 - 1960年代 Warren Weaver(1949) Turing Test(1950)The first MTs(1954) • 1960 - 1970年代 ALPAC(1964-1966) • 1970 - 1990年代 Searle’s Chinese Room(1980) The first PC version of MTs(early 1980s) • 1990 - 至今 MT is available on the Web(1994)
主要的技术和方法基于知识的方法17上下文无关文法的扩充hpsg文法headdrivenphrasestructuregrammar对文法增加复杂特征主要的技术和方法基于知识的方法18上下文无关文法的扩充hpsg主要的技术和方法基于知识的方法19上下文无关文法的扩充hpsg主要的运算合一运算1检查特征属性是否兼容2如果兼容那么将两个负责特征集的信息合并主要的技术和方法基于知识的方法20上下文无关文法的扩充hpsg主要的技术和方法基于知识的方法21树邻接文法初始树i树
6
思考 • 人用来交际的“语言”具有什么样的性质? 这些性质又是如何影响交际过程的? • 人用来交际的“语言”跟机器可以“理解” 的语言有什么样的关系? • 人是如何运用“语言”进行交际的? • 人运用语言进行交际的过程是否可以描述 为一个机械的过程? • 什么叫做“理解”一种语言?
7
机器语言 vs自然语言
我是四川大学的老师。
27
主要的技术和方法 – 基于知识的方法(7) • 汉语句子切分存在的问题 交集型歧义 AB和BC都是词典中的词,如果待切分字串 中包含ABC,则可能切分成AB和C,以及A 和BC。如 网球场 组合型歧义 AB和A,B都是词典中的词,如果待切分字 串中包含AB,则可能切分为AB以及A和B。 如 个人

计算语言学

计算语言学
0型语法
1型语法
2型语法
3型语法
计算语言学讲义(03上)形式语言与自动机
10
乔姆斯基0型语法
• 短语结构语法,无限制重写语法 PSG:Phrasal Structure Grammar • 对规则形式的约束
– 对于规则形式没有任何限制
计算语言学讲义(03上)形式语言与自动机
11
乔姆斯基1型语法
• 上下文有关语法,上下文敏感语法 CSG:Context Sensitive Grammar • 对规则形式的约束:
……
· · · …… · ·
词典正文

啊哈
啊呀
啊哟
啊唷

阿Q
……
酣睡
• 索引结构简单,占用空间小 • 不能实现增量式索引:每增加一个词需重新排序
计算语言学讲义(03上)形式语言与自动机
30
词典顺序索引的查找算法
• 整词二分查找
– 时间复杂度O(log2N) – 无法按前缀查找:查找时精确匹配
• 改进的整词二分查找
6
计算语言学讲义(03上)形式语言与自动机
形式语法 (1)
• 形式语法:四元组 G = < VT, VN, S, P > • 终结符(Terminals)的有限集合VT
– 终结符是句子中实际出现的符号 – 相当于单词表(有时也称为字母表)
• 非终结符(Non-terminals)的有限集合VN
– 非终结符在句子中不实际出现 – 但在推导中起变量作用 – 相当于语言中的语法范畴
14
乔姆斯基语法层级-例子
• P={S A1, A A0, A 0}
– L(G)={0m1|m>=1} – 是正则语法

公共基础知识计算语言学基础知识概述

公共基础知识计算语言学基础知识概述

《计算语言学基础知识概述》一、引言计算语言学是一门融合了语言学、计算机科学和数学等多学科的交叉领域,旨在利用计算机技术来处理和分析自然语言。

随着信息技术的飞速发展,计算语言学在自然语言处理、机器翻译、语音识别、信息检索等众多领域发挥着至关重要的作用。

本文将对计算语言学的基本概念、核心理论、发展历程、重要实践以及未来趋势进行全面的阐述与分析。

二、基本概念1. 自然语言自然语言是人类日常交流所使用的语言,如汉语、英语、法语等。

它具有复杂性、歧义性和多样性等特点。

与形式语言不同,自然语言的语法和语义规则较为灵活,且存在大量的模糊性和不确定性。

2. 计算语言学计算语言学是研究如何利用计算机技术来处理和分析自然语言的学科。

它涉及自然语言的理解、生成、翻译、检索等多个方面,旨在实现人与计算机之间的自然语言交互。

3. 语言模型语言模型是计算语言学中的一个重要概念,它用于描述自然语言的概率分布。

语言模型可以预测一个句子或文本序列出现的概率,从而为自然语言处理任务提供基础。

常见的语言模型有 n-gram 语言模型、神经网络语言模型等。

三、核心理论1. 形式语言理论形式语言理论是计算语言学的基础理论之一,它主要研究形式语言的语法和语义。

形式语言是一种严格定义的语言,具有明确的语法规则和语义解释。

形式语言理论为自然语言的形式化表示和分析提供了方法和工具。

2. 统计语言模型统计语言模型是基于统计方法的语言模型,它通过对大量文本数据的统计分析来学习语言的概率分布。

统计语言模型在自然语言处理中得到了广泛的应用,如机器翻译、语音识别、信息检索等。

3. 深度学习理论深度学习是近年来发展迅速的一种机器学习方法,它在计算语言学中也取得了显著的成果。

深度学习模型如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)等被广泛应用于自然语言处理任务中,如文本分类、情感分析、机器翻译等。

四、发展历程1. 早期阶段计算语言学的早期发展可以追溯到 20 世纪 50 年代,当时人们开始尝试利用计算机来进行自然语言处理。

语言学概论讲义第四章 语法二

语言学概论讲义第四章 语法二

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 语言学概论讲义第四章语法二第四章语法本章基本内容本章重点和难点第一节语法的性质第二节语法研究的内容、类别和单位第三节语法形式和语法意义第四节语法单位的聚合和组合2011年7月13日第三章-语音1/ 18本章基本内容语法的性质和特点、语法研究的内容、语法现象的分类和语法成分的单位;语法形式与语法意义及其关系,语法形式的主要手段和语法意义的主要范畴;语法单位的聚合规则与组合规则。

2011年7月13日语言学概论-第四章-基本内容---------------------------------------------------------------最新资料推荐------------------------------------------------------ 第一节语法的性质一、语法是组词造句的规则二、语法规则的性质和特点三、语法和其他一些现象的关系2011年7月13日语言学概论-第四章-第一节3/ 18一、语法是组词造句的规则语法本质上是说本族语的人头脑中潜在的一种直觉知识,是人们说话时的一种约定习惯,是组词造句的规则。

组词造句的规则例:1、我认识这个人。

2、人我这认识个。

3、我这认识个人。

4、这个我人认识。

√2011年7月13日语言学概论-第四章-第一节---------------------------------------------------------------最新资料推荐------------------------------------------------------二、语法规则的性质和特点1、语法的抽象性。

2、语法的递归性。

形式语言与自动机理论第二章蒋宗礼

形式语言与自动机理论第二章蒋宗礼
第32页/共106页
2.2 形式定义
• 例 2-5 设G=({S,A,B},{0,1},{SA|AB,A0|0A,B1|11},S)
对于n≥1,
A n 0n
首先连续n-1次使用产生式;A0A, 最后使用产生式A0;
A n 0nA
连续n次使用产生式A0A;
B1
使用产生式B1;
B 11
使用产生式B11。
第24页/共106页
2.2 形式定义
• 推导(derivation) 设G=(V,T,P,S)是一个文法,如果αβ∈P,γ,δ∈(V∪T)*,则称γαδ在G中直接推导出 γβδ。 γαδG γβδ 读作:γαδ在文法G中直接推导出γβδ。 “直接推导”可以简称为推导(derivation),也称推导为派生。
号组成的行
第23页/共106页
2.2 形式定义
•例 2-3 四元组是否满足文法的要求。
• ({A,B,C,E},{a,b,c},{SABC|abc, De|a,FBc,AA,E abc|ε},S) • 4种修改
(1) ({A,B,C,E,S,D,F},{a,b,c,e}, {SABC|abc,De|a,FBc,AA,E abc|ε},S)。 (2) ({A,B,C,E,S },{a,b,c}, {SABC|abc,AA,E abc|ε},S)。 (3) ({A,B,C,E},{a,b,c},{ AA,E abc|ε},A)。 (4) ({A,B,C,E},{a,b,c},{ AA,E abc|ε},E)。
第28页/共106页
2.2 形式定义
(4)αG* β:表示α在G中经过若干步推导 出β;β在G中经过若干步归约成α。 分别用、+、*、n代替
G
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算语言学第11讲 形式语法理论II 刘群中国科学院计算技术研究所 liuqun@ 中国科学院研究生院2002~2003学年第二学期课程讲义内容提要• 基于简单范畴的语法– 树粘接语法 – 定子句语法• 基于复杂范畴的语法 • 不使用范畴的语法 • 工程性语法中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第2页树粘接语法 1• 树粘接语法、树邻接语法 Tree Adjoining Grammar,Tree Adjunct Grammar • A. Joshi, L. Levy, & M. Takahashi, 1975, Tree Adjunct Grammar, Journal of Computer & System Science, 1975, 10(1): pp136-163. • Anne Abeillé, Owen Rambow, 2000, Tree Adjoining Grammars : Formalisms, Linguistic Analysis and Processing, CSLI Publications. • /~xtag/中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第3页树粘接语法 2• 形式定义:– 树连接语法是树改写系统,由五元组G=(VN, VT,S,I,A)来表示; – VN为非终结符(nonterminal)的有限集合; – VT为终结符(terminal)的有限集合; – S为起始符,是VN的一个元素; – I为初始树(Initial Tree)的有限集合; – A是辅助树(Auxiliary Tree)的有限集合。

中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第4页树粘接语法 3• I是初始树(Initial Tree)的有限集合,初始树定义 如下:– 非叶结点都是非终结符 – 叶子结点可以是终结符或者非终结符,非终结符的叶子结点 都标记为“替换(Substitution)”,用下箭头↓表示;• A是辅助树(Auxiliary Tree)的有限集合,辅助树定 义如下:– 非叶结点都是非终结符; – 叶子结点可以是终结符或者非终结符,非终结符的叶子结点 除了一个足结点(foot node)外都标记为“替换”,足结点用 一个星号*表示,足结点的标记必须与根结点一致。

中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第5页树粘接语法 4• 基本树和导出树– 基本树(elementary tree):初始树和辅 助树又统称为基本树; – 导出树(derived tree):由两棵树组合成 的新树成为导出树;• 树的组合操作– 替换(substitution) – 粘接(adjoining)中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第6页树粘接语法 5• 替换操作(substitution)将一棵树A的一个标记为“替换”的叶结点n用另外一 棵树B来取代,B的根结点标记必须于结点n的标记 相同;• 粘接操作(adjoining)对于一棵树A和一棵辅助树B执行以下操作: – 将A的某一个子树t摘下; – 将A中原来子树t所在的位置用辅助树B替换,要求 子树t的标记必须与B的根结点标记相同; – 将辅助树B上足结点用子树t替换;中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第7页树粘接语法 6粘 接 操 作中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第8页树粘接语法 7替 换 操 作中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第9页树粘接语法 8• 例子:假设有以下语法G=(I,A):中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第10页树粘接语法 9假设有一棵树: 将β1作用于S:星号*表示将要执行 粘接操作的位置中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第11页树粘接语法 10将 β1 作 用 于 S:中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第12页树粘接语法 11将 β2 作 用 于 T:中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第13页树粘接语法 12• 树粘接语法是一种“温和(mild)”的上下 文有关语法,其描述能力介于上下文有 关语法和上下文无关语法之间; (如上 述例子中交叉序列依赖就不可能由上下 文无关文法产生) • 树粘接语法的识别算法的时间复杂度是 句子长度的6次方,相比之下,上下文无 关语法的识别算法的时间复杂度是句子 长度的3次方。

中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第14页XTAG项目:LTAG理论针对英语的实践• XTAG是宾州大学开展的一个采用LTAG来描述英 语语法的项目 • LTAG是“词汇化树粘接语法(Lexicalized TAG)”, 与普通树粘接语法的区别在于要求每一个初始树和 辅助树都至少有一个终结符结点 • 一个LTAG树结构中的“词”节点被称作是这个树的 “锚点”(anchor) • LTAG中加入了基于合一的特征约束(unificationbased features,参见后面介绍的特征结构与合一)中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第15页XTAG系统的结构统计信息 数据库基于词的 句法结构 数据库树信息 数据库树的选择 树的嫁接中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学 形式语法理论II 第16页XTAG系统的基本组成与规模• 形态分析器与形态数据库:大约317000个词汇(含各 种屈折形式),其中根词大约90000个,所以记录以屈 折形式建立索引,带有根词形式和词性信息及词缀信 息 • 词性标注器(POS Tagger)和句法分析器(Parser) • 句法数据库(Syn Database):超过31000个词,每个 词包含词性信息,它所属的树结构信息和特征约束信 息; • 树数据库(Tree Database):1004棵树,由53个树家族 (Tree Family)和221个其他类型的树结构(Individual Tree)组成;中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第17页定子句语法 1• • • • 定子句语法、Definite Clause Grammar 定子句语法是对CFG的一种简单扩充 定子句语法可以直接转换成Prolog语句 现在大部分Prolog语言都实现了对定子句 语法的支持 • 在Prolog语言的支持下,定子句语法可以 直接实现语言的识别、生成、分析,而 不需要另外编程计算语言学 形式语法理论II 第18页中国科学院研究生院课程讲义(2003.2~2003.6)定子句语法 2• Prolog语言中对定子句语法的形式定义<definite-clause> ::= <LHS> --> <RHS> . <LHS> ::= <non-terminal> <nonterminal> ::= <identifier> ( <arg> { , <arg> } ) <RHS> ::= <RHS-item> { , <RHS-item> } <RHS-item> ::= <nonterminal> | <terminal-list> | <logic> <terminal-list> ::= [ <terminal> { , <terminal> } ] <logic> ::= “{” <goal> “}”• 上面最后一行<goal>表示Prolog语言中的其他目标。

花括号用引号括住表示它不是表示重复多次的含义, 而是语言中直接出现花括号。

中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第19页定子句语法 3• 从上面的定义可以看到,定子句语法在非终结符中引入了多 个参数,这样可以简化上下文无关文法的表达。

如下例所示:• 如果用上下文无关语法表示,那么分别要将单数和复数形 式的NP、VP、PN、IV、TV等定义为不同的非终结符,并 写出几套不同的规则,规则多而且重复。

中国科学院研究生院课程讲义(2003.2~2003.6) 计算语言学 形式语法理论II 第20页中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学形式语法理论II 第21页•定子句语法可以直接翻译成标准Prolog 语句:–将单个方括号中的终结符列表替换成多个独立方括号的列表,每个方括号中只有一个非终结符。

例如将[and, then]变成[and], [then];–在上面的基础上,计算规则右部RHS-item 的项数,计算时跳过花括号中的逻辑子句(<goal>);–在规则左边的非终结符的参数列表中增加两个参数:L 0和L n ;–对于规则右部的第i 个RHS-item ,如果是非终结符,那么在非终结符的参数表中增加两个参数L i -1, L i ;–对于规则右部的第i 个RHS-item ,如果是终结符t ,那么将它替换成目标:'C'(L i -1, t , L i )。

–对于花括号中的RHS-item (<goal>)不做任何变化;–将符号-->替换成:-。

–说明:谓词‘C’(L 1,t,L 2)成立的条件是L 1=[t|L 2]。

定子句语法5•例子:给出定子句语法及其对应的Prolog 语句:S --> NP, VP NP --> det, N VP --> V, NP det --> the N --> boy N --> girl V --> likesS(L0,L2) :-NP(L0,L1), VP(L1,L2)NP(L0,L2) :-det(L0,L1), N(L1,L2)VP(L0,L2) :-V (L0,L1), NP(L1,L2)Det(L0,L1) :-‘C’(L0,the,L1)N(L0,L1) :-‘C’(L0,boy,L1)N(L0,L1) :-‘C’(L0,girl,L1)V(L0,L1) :-‘C’(L0,likes,L1)•给定上述语法,求解:|?-s([the,boy,likes,the,girl],[]).Yesor|?-s(S,[]).S = [the,boy,likes,the,boy] ;S = [the,boy,likes,the,girl] ;S = [the,girl,likes,the,boy] ;S = [the,girl,likes,the,girl] ;no中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学形式语法理论II 第23页定子句语法7•对于上述第一个查询,调用过程为:call: s([the,boy,likes,the,girl],[])call: np([the,boy,likes,the,girl],T1)call: det([the,boy,likes,the,girl],T2)exit: det([the,boy,likes,the,girl],[boy,likes,the,girl])call: n([boy,likes,the,girl],T1)exit: n([boy,likes,the,girl],[likes,the,girl])call: vp([likes,the,girl],[])...中国科学院研究生院课程讲义(2003.2~2003.6)计算语言学形式语法理论II 第25页定子句语法8•通过给DCG 子句添加一个表示句法结构的参数,还可以使用Prolog 来进行句法分析。

相关文档
最新文档