第2章 形式语言的基本知识

合集下载

第2章形式语言的基本知识

第2章形式语言的基本知识
例:Σ ={a,b} Σ *={ε ,a,b,aa,ab,ba,bb,aaa,aab,…} Σ +={a,b,aa,ab,ba,bb,aaa,aab,…}
• 7.符号串的 前缀:s为符号串,把s从尾部删去若干个 (包括0个)符号后所余下的部分称为s的前缀。
符号串abc的前缀是什么?
• 8.符号串的 后缀:s为符号串,把s从前部删去若干个 (包括0个)符号后所余下的部分称为s的后缀。
文法
<赋值语句>::=<标识符>“=”<表达式> <表达式>::=<表达式>“+”<表达式> | <表达式>“*”<表达式 > <表达式>::=“(”<表达式>“)” | <标识符> | <整数> | < 实数>
赋值语句
标识符
表达式
=
y
表达式 + 表达式
y =x+r*6
标识符 表达式
表达式
*
x 标识符
推导方法:从一个要识别的符号 开始推导,即用相应规则的 右部来替代规则的左部, 每次仅用一条规则去进行推导。
<句子> => <主语><谓语> => < 代词><谓语>
<句子>::=<主语><谓语> <主语>::=<代词>|<名词> <代词> ::=你|我|他 <名词>::= 王民|大学生|工人|英语 <谓语>::=<动词><直接宾语> <动词>::=是|学习 <直接宾语>::=<代词>|<名词>

第2章 形式语言基础

第2章 形式语言基础

研究符号串集合的表示方法、结构特性 以及运算规律。
第2章 形式语言基础
【内容提要】
2.1 形式语言是符号串集合 2.2 形式语言是由文法定义的 2.3 各种语法成分的定义 2.4 两类特性文法 2.5 文法变换方法 2.6 形式语言的分类
2.1 形式语言是符号串集合
【形式语言】是字母表上的符号按一定的 规则组成的所有符号串集合;其中的每个符号串 称为一个句子。
【例2.2】 L2={ abmc,bn | m>0,n≥0 } 字母表∑2= {a,b,c},
▪句型1: abmc 有句子:abc, abbc, abbbc,…
▪句型2: bn 有句子:, b, bb, bbb,…
【注】 (1) b0=(空符号串),b1=b,b2=bb,b3=bbb,…
(2) L1 为有限语言; L2 为无限语言。
5.固有头,固有尾
对于每个符号串s, s和ε两者都是符号串s的前缀, 后缀和子串。 符号串s的固有头,固有尾:
z=xy,x是z的头,y是z的尾,如果x非空则y是固 有尾,如果y非空则x是固有头。 例:在Z=abc Z的头:ε,a,ab,abc;其中固有头:ε,a,ab
Z的尾:ε,c,bc,abc;其中固有尾:ε,c,bc
则该集合的文法是:
(1) A->aBa B->b|Bb|bB
(2) Z->ABC A->a C->a B->bB|Bb|b
(3) A->aB B->ba|bB 练习2. Σ={a,b,c}上的字符串集
A={ancbn|n>=0} 该集合的文法是:
A->aAb|c
【例2.8】标识符的文法
【标识符】指字母开头的字母、数字序列。

第二章 形式语言概论

第二章 形式语言概论

语言的有穷表示有两个途经
生成方式(文法)
语言中的每个句子可以用严格定义的 规则来构造。
识别方式(自动机)
用一个过程,当输入的一任意串属于 语言时,该过程经有限次计算后就会停止 并回答“是”,若不属于,要么能停止并回 答“不是”,要么永远继续下去。
§2.2 文法及其分类
2.2.1 文法的定义
A*=∪Ai(i≥0)=A0∪A1∪A2∪A3∪…
例如:A={a,b}
则A*={ε,a,b,aa,ab,ba,bb, aaa,aab,aba,abb, …}
A*与A+的关系:
A*=A0∪A+
A+=AA*=A*A
由此得出结论:n语言是由句子组成的集 合,是由一组符号所构成的集合。换言之,字 母表S上的一个语言是S上的一些符号串的 集合。(字母表S上的每个语言是S*的一个 子集)。
的规则(或说是P中的一个产生式),和 是V*中的任意符号,若有符号串v,w,满 足v= ,w= ,则称v (应用规则 )直接产生w,或v直接推导出w,或 w是v的直接推导,或w直接归约到v,记 作v w。
例:
文法G[S]由如下规则组成: SA A AB|B B 0|1|2|…|9 其中S是文法 G [S] 的识别符号,该文法的 字母表为:V={S,A, B,0,1,…,9} 用这些规则和直接推导的定义可以推出所有 正整数,如可推导出24:
P15~P16例2.6~例2.10的文法类型。

2型文法可改写成3型文法。
例:将如下的上下文无关文法改写为等价的 正规文法。 G[S]:SabcA AbcB Ba 改写后G[S]: AbE SaM EcB MbN Ba NcA
文法分类的意义
文法分类对于实现程序设计语言的编译 程序具有重要意义。

第二章 形式语言概述

第二章 形式语言概述
– E + T * i,i,(E + T)都是G的句型。 – i + i * i,(i + i) * i,i都是G的句子。
2.3 文法的分类
0型文法(短语文法):
– 对产生式无限制。
1型文法(上下文相关文法): – 文法中任意的产生式→,则存在1,2 (VNVT)*; (VNVT)*;AVN;使得 = 1A2, = 12。
– A+ = A1 A2 … … – A+ = A A*
例:
– { 0, 1 }+为所有二进制串的集合。
2.1 基本概念
语言
– 一个语言为满足一定规律的串的集合。
语言的表示方法
– 集合表示:{ 1, aa, b }, { anbn| n > 0 }。 – 串集合的运算:a+{1, a}*。
推导:如果存在一个直接推导序列 = 0 = ,n > 0,则称为的一个推导,记为
''。1


n
''* 表示 '' 或者 =
例:10为S的推导,1100为S的推导,111S000为1S0的推 导。
2.2 文法与语言
最左推导:如果A ,VT*,AVN, , (VNVT)*,则称为A的一个最左推导。
– 符号的有穷序列称为符号串 – 不包含任何符号的串称为空串,记为
– 串α中符号的个数称为串α的长度,记为||
2.1 基本概念
串集合的乘积 – 令A、B为两个串集合,则A与B的乘积A·B = { | A, B },也可以缩写为AB – {} ·A = A ·{} = A, Ø·A = A ·Ø = Ø

编译原理实践2—形式语言基本知识

编译原理实践2—形式语言基本知识
问题一:回溯Backtracking ---〉编译器效率严重低下,一般都在指数 的数量级上,只有理论上的意义而无实 际意义 问题二: 文法的左递归性 例:S→Sa ---〉可能陷入无限循环 怎么办?
3.简单辨认算法
简单辨认算法(LL(1)分析法):采用自 顶向下的分析方法,语句分析的每个步 骤仅允许由当时的分析状态(追踪的目 标)和下一个要读入的符号决定,不允 许有回溯的步骤。 LL(1) :第一个L是指对输入符号串的分 析总是自左(left)向右,第二个L是指对 生成式目标的追踪也是自左(left)向右, 括号中的1是指不论目标符号的追踪,还 是对终结符号的读入都只是一个符号, 从而决定生成规则的选择。
20世纪50年代语言学家noamchomsky乔姆斯基提出了一个用来描述语言的数学系统把用一组数学符号和规则来描述语言的方式叫做形式描述而把能用数学符号和规则描述的语言称为形式语言
编译原理实践 --形式语言基本知识
编译过程的核心就是翻译,这是一个 十分复杂的信息加工过程,其加工的 对象是用某种高级语言编写的程序。 对于一个英文翻译来说,首先必须对 英文有很深的了解,掌握英文的语法 和词汇,才能进行翻译。而编译程序 的任务就是将高级语言编写的程序翻 译成机器语言程序,因此,在学习和 掌握编译技术之前,就需要对高级语 言有深刻的了解。
自底向上:从所给符号串x开始 ,在其中寻找与文法的某条规则 右部相匹配的子串,并用该规则 的左部取代此子串,重复此过程 ,步步向上规约,最后设法将符 号串x规约到文法的起始符号Z。 本课程对自底向上不做进一步讨 论
自顶向下的语法分析的一般过程
例:文法G: S → cAd A → ab A→ a 识别输入串w=cabd是否为该文法的句子
编译原理实践 --语句分析

第二章形式语言的基本知识

第二章形式语言的基本知识

第二章形式语言的基本知识第二章形式语言的基本知识2-1什么是形式语言2-2字母表和符号串的基本概念2-3用文法产生法描述语言2.3.1通过文法产生语言的方式2.3.2为已知的语言构造相应的文法2-4句型分析2.4.1短语和简单短语2.4.2文法的二义性和语言的二义性2-5文法和语言的分类2-6文法的其他表示方法2-7C--语言的形式定义2-8小结2-1什么是形式语言2-2字母表和符号串的基本概念2-3用文法产生法描述语言2.3.1通过文法产生语言的方式2.3.2为已知的语言构造相应的文法2-4句型分析2.4.1短语和简单短语2.4.2文法的二义性和语言的二义性2-5文法和语言的分类2-6文法的其他表示方法2-7C--语言的形式定义2-8小结2- 1什么是形式语言一、形式语言的提出目标程序源程序编译程序如何确切地描述或定义高级程序设计语言形式语言2-1什么是形式语言一、形式语言的提出形式语言是研究符号的语言,它仅考虑符号间的关系,不考虑含义。

即用数学方法(主要是代数方法)对语言进行形式化描述。

从非形式化的角度来讲,语言是人们交流思想的工具,从语言学本身来说,也是一门古老的科学,在很早以前人们就用数学方法开始对语言学进行研究。

1847年,俄国数学家布拉库夫斯基就用概率论进行语法词源及语言历史比较研究。

1904年,波兰语言学家指出,语言学家不仅要掌握初等数学而且还要掌握高等数学。

1931年,俄国数学家就用概率论研究俄语元音字母和辅音字母序列。

特别是1946年电子计算机问世以来更加促使数学和语言学结合研究。

2-1什么是形式语言一、形式语言的提出1956年,28岁的N.Chomsky(乔姆斯基)在《信息论杂志》上发表了《语言描写的三个模型》,他首次采用Markov模型来描写自然语言,对于有限状态模型、短语结构模型和转换模型等三个模型,从语言学和数学的角度进行了理论上的分析,建立了形式语言理论,具有划时代意义。

第2章 形式语言的基础知识

第2章 形式语言的基础知识



字符串:字母表中符号的有穷序列。
字符串的长度:组成该字符串的符号的个 数。字符串的长度记作||。 例如字符串banana的长度为6。空字符串 记作,由0个符号组成,故||=0。



字符串的前缀:该字符串领头的若干符号。 字符串的后缀:该字符串结尾的若干符号。 例如,字符串abc具有前缀,a,ab和abc; 其后缀有,c,bc,abc。
S aSBE aaBEBE aabEBE aabBEE aabbEE aabbeE aabbee
(SaSBE) (SaBE) (aBab ) (EBBE ) (bBbb) (bEbe) (eEee)
S aSBEaaSBEBEaaaBEBEBE
第2章 形式语言的基础知识
内容提要


形式语言 文法和语言 分析树
2.1 形式语言

符号和字符串

符号:抽象实体,不加以形式定义。就像 几何学中的“点”。或者叫原子概念,凭 直觉去体会。 字母表:有限个符号的集合。字母表一般 用记。例如,英语的字母表 ={a,b,…,z,A,B,…,Z};汉语的字母表由汉 字构成。

例2.1 文法G=(VN, VT, P, S),其中VN={S}, VT={0,1},P={S0S1, S01}。

例2.2 文法G=(VN, VT, P, S),其中VN={<标识 符>,<字母>, <数字>},VT={a,,z,0,,9}, P={<标识符><字母> <标识符><标识符><字母> <标识符><标识符><数字> <字母>a||z <数字>0||9} S=<标识符>

第2章形式语言概论

第2章形式语言概论
G=(VN,VT,P,S) 其中: VN={I, L, D} VT={a,b,c, … x,y,z,0,1,2,…
,P9=}{ I→L| I L| I D L→a | b | c | … | x | y | z D→0 | 1 | 2 | 3 | … | 9
S=I }
文法的形式定义
若将定义标识符的文法设计成: G=(VN,VT,P,S )
1. 字母表 元素的非空有穷集合。 例如,∑={ a, b, c } 根据字母表的定义,Σ是字母表,
它由a、b、c三个元素组成。
字母表和符号串
注意: (1) 字母表中至少包含一个元素。 (2) 字母表中的元素, 可以是字母、 数字或其他符号。 例如,∑' ={0, 1} 是一个字母表,由0、1两个元素 组成。
第2章 形式语言概论
形式语言理论是编译的重要理论 基础。本章主要介绍编译理论中用到 的有关形式语言理论的最基本概念, 重点介绍如何采用形式化的方法描述 程序设计语言。
第2章 形式语言概论
字母表和符号串 文法和语言的形式定义 文法和语言的分类 短语、直接短语和句柄 语法树和文法的二义性
概述
当n=1 L={aa, bb} L={a2n, b2n | n≥1}
当n=2 L={aaaa, bbbb} 当n=3 L={aaaaaa, bbbbbb}
…… L={aa, bb, aaaa, bbbb, aaaaaa, bbbbbb, … …} 即语言L是由偶数个a,偶数个b这样的 符号串组成的集合。
幂运算定义为:
A0={} A1=A A2=AA
… An= AA … A=AAn-1(n>0)
n
符号串的运算
例如,设A={ a, b },则 A0={} A1=A={ a, b } A2=AA={ aa, ab, ba, bb } A3=AAA=A2A

第二章 形式语言基础

第二章 形式语言基础
1
第二章 形式语言基础知识
§2.1 引言
一、形式语言提出 二、语言描述方法 八、 递归文法 九、短语和简单短语 十、最左推导和最右推导 十一、文法二义性
§2.2 用文法生成法对语言 进行描述
一、巴科斯范式 二、语法和语义 三、语法树
§2.4 语法分析初步
一、自顶向下语法分析 二、自底向上语法分析
§2.3 形式语言基本概念和 术语
§2.1 引言
一、形式语言提出 二、语言描述方法 八、 递归文法 九、短语和简单短语 十、最左推导和最右推导 十一、文法二义性
§2.2 用文法生成法对语言 进行描述
一、巴科斯范式 二、语法和语义 三、语法树
§2.4 语法分析初步
一、自顶向下语法分析 二、自底向上语法分析
§2.3 形式语言基本概念和 术语
9
3. 自动机识别法:用自动机对语言中的句子进行识别,自动 机是描述离散变量的一个系统(数学模型),因在形式语言中 称为识别器,也可看成是一个识别程序。不同语言对应不同自 动机,对应某个语言的自动机能接受该语言的句子,否则不接 受。
下面我们着重讨论用文法生成法来描述语言。
10
第二章 形式语言基础知识
三、语法树
除了上面可以根据语言语法规则来推导出句子,还 可以用图解形式来表示。以图解(树)形式来描述句子 语法结构关系,称语法树。
26
句子 the man has a book的推导过程及对应的语法树
<句子>
27
句子 the man has a book的推导过程及对应的语法树
<句子> <主语> <谓语>
16
巴科斯范式是描述语法规则的一种表示方法,它是由巴科斯 为了描述 ALGOL 语言在 ALGOL60 报告中首先提出的。采用 这种形式定义语法规则,可以用简洁的公式把各种语法规则 严格而清晰描述出来。例如,在高级语言中大家所熟知的 〈标识符〉这种语法成分,它用巴科斯范式描述为: 〈 标识符〉∷=〈字母 〉|〈 标识符 〉〈字母〉|〈标识符〉 〈数字〉 〈字母〉∷= A|B|C|D|…|Z 〈数字〉∷= 0|1|2|…|9 这样便刻画出了〈标识符〉是以字母开始的一串字母和数字

第2章 形式语言概述

第2章 形式语言概述
<动词> ::= 是|学习 <直接宾语> ::= <代词>|<名词>
软件学院
编译原理
2.2.2 文法的形式定义(1)
非终结符
出现在规则的左部,用<>括起来,表示一定语法概念的词,
用VN表示
终结符
语言中不可再分割的字符串(包括单个字符组成的串)
用VT表示 V= VN U VT
注:1型文法意味着,对非终结符进行替换时务必考虑上下文,并 且,一般不允许替换成 ,除非是开始符号产生
软件学院
编译原理
2型文法(上下文无关文法)
设G=(VN,VT,P,S),若P中的每个产生式α→β满足: α是一个非终结符, β∈(VN∪VT ) *,则此文法称为2 型文法或上下文无关文法。有时将2型 文法的产生式表示为形如:A→β,其中A∈VN 。 也就是当用β取代非终 结符A时,与A所在的上下文无关。上下文无关文法有足够的能力描述现 今的程序设计语言。 识别上下文无关语言的自动机称为下推自动机。它是。缩写为PDA。
3型语言2型语言1型语言0型语言
软件学院
编译原理
2.2.6 文法分类的意义
一个文法实际上是某种语言的一个简明、确切的描述,它表示了 该语言中所允许的一类语法结构。从一个文法能推导出多个终结 符的句子。但是知道了如何去构造属于某一个语言的一个合法串 只是问题的一个方面。同时我们还要有能力判定一个串是否合法 。也就是说,我们需要确定这个给定串的推导序列。如果从文法 出发找不到这个推导序列,则该串就是非法的。 程序设计语言的词法分析属于正规文法,与局部语法相关的部分 属于上下文无关文法,与全局语法和语义有关的部分属于上下文 有关文法。

第2章形式语言基础知识

第2章形式语言基础知识

2、符号串
定义:由字母表中的符号组成的任何有穷序列 例:0,00,10是字母表∑={0‚1}上的符号串 a,ab,aaca是V={a‚b,c}上的符号串 符号串是有序的。如: ab和ba不同 不含任何符号的符号串称为空串,用ε表示 注: {ε}并不等于空集合{ } 符号串长度: 符号串中含有符号的个数 如: |abc|=3 | ε|=0
2019/1/4
4
编译设计和开发技术
浙江科技学院计算机与电子工程学系
语义
定义单词和语法单位的意义 分类 静态语义:一系列限定规则,确定哪些合乎 语法的程序是合适的 动态语义:表明程序要做什么 作用: 检查类型匹配,变量作用域等
2019/1/4
5
编译设计和开发技术
浙江科技学院计算机与电子工程学系
2019/1/4
9
编译设计和开发技术
浙江科技学院计算机与电子工程学系
符号串集合的方幂: 设A是符号串的集 合,则称Ai为符号串集A的方幂,其中i 是非负整数 具体定义如下 A0 ={ε } A1 = A , A2 = A A AK = AA...…A (k个) 字母表A的n次方幂是字母表上所有长度 文n的串集
2.1 字母表和符号串
1、字母表
定义:元素的非空有穷集合 例:∑={0‚1} V={a‚b,c} 元素也称为符号,字母表也称符号集。 程序语言的字母表由字母数字和若干专用符 号组成。 是符号的非空有穷集合 一般用Σ 、V 表示
2019/1/4
6
编译设计和开发技术
浙江科技学院计算机与电子工程学系
字母表上符合某种规则构成的串
7、语言:字母表上句子的集合 a、b、c --- 符号 α、β、γ --- 符号串 A、B、C--- 符号串的集合(语言、句子)

编译原理-第2章 形式语言的基本知识-习题答案

编译原理-第2章 形式语言的基本知识-习题答案

第2章形式语言的基本知识习题答案第 1 题文法G=({A,B,S},{a,b,c},P,S)其中P 为:S→Ac|aBA→abB→bc写出L(G[S])的全部元素。

答案:L(G[S])={abc}第 2 题文法G[N]为:N→D|NDD→0|1|2|3|4|5|6|7|8|9G[N]的语言是什么?答案: 允许0 开头的非负整数或者G[N]的语言是V+。

V={0,1,2,3,4,5,6,7,8,9}第3题为只包含数字、加号和减号的表达式,例如9-2+5,3-1,7等构造一个文法。

答案:G[S]:S->S+D|S-D|DD->0|1|2|3|4|5|6|7|8|9第 4 题已知文法G[Z]:Z→aZb|ab写出L(G[Z])的全部元素。

答案:L(G[Z])={a n b n|n>=1}第 5 题(答案不唯一)写一文法,使其语言是偶正整数的集合。

要求:(1) 允许0 打头;(2)不允许0 打头。

答案:(1)允许 0 开头的偶正整数合的文法E→NT|DT→NT|DN→D|1|3|5|7|9D→0|2|4|6|8(2)不允许 0 开头的偶正整数集合的文法E→NT|DT→FT|GN→D|1|3|5|7|9D→2|4|6|8F→N|0G→D|0第 6 题已知文法G:<表达式>::=<项>|<表达式>+<项><项>::=<因子>|<项>*<因子><因子>::=(<表达式>)|i试给出下述表达式的最左推导及语法树。

(1)i+(i+i)(2)i+i*i答案:(1) <表达式>=><表达式>+<项>=><表达式>+<因子>=><表达式>+(<表达式>)=><表达式>+(<表达式>+<项>)=><表达式>+(<表达式>+<因子>)=><表达式>+(<表达式>+i)=><表达式>+(<项>+i)=><表达式>+(<因子>+i)=><表达式>+(i+i)=><项>+(i+i)=><因子>+(i+i)=>i+(i+i)(2) <表达式>=><表达式>+<项>=><表达式>+<项>*<因子>=><表达式>+<项>*i=><表达式>+<因子>*i=><表达式>+i*i=><项>+i*i=><因子>+i*i=>i+i*i第7 题为句子i+i*i 构造两棵语法树,从而证明下述文法G[〈表达式〉]是二义的。

形式语言基础

形式语言基础

两个语言!
【例2.2】 L2={ abmc,bn | m>0,n≥0 } 字母表∑2= {a,b,c}, 句型1: abmc 有句子:abc, abbc, abbbc,… 句型2: bn 有句子:, b, bb, bbb,…
【注】 (1) b0=(空符号串),b1=b,b2=bb,b3=bbb,… (2) L1 为有限语言; L2 为无限语言。

(a|b)* =(a|b)0 |(a|b)1 |(a|b)2 |… 即:(a|b)* = (a|b)n , n≥0 同理:(a|b)+ = (a|b)n , n>0
2.1.1 符号串(集合)的运算
Ⅱ.符号串集合的运算 设 A 和 B 为两个符号串集合,则: 1. 乘积: AB = { xy | xA 且 yB} 2. 和: A∪B = A+B = { x | xA 或 xB}
推论:若 A 为任一字母表,则 A* 就是该字母表 上的所有符号串(包括空串)的集合。
2.2 形式语言是由文法定义的
形式语言是符号串的集合,对形式语言的描述 有两种方式: (1) 枚举方式:语言为有穷集合时 设有字母表A={a,b,c}, 有 L1={a,aa,ab,ac}, L2={c,cc} (2) 使用文法:语言为无穷集合时,无法枚举
设有字母表B={0,1}, B+={0,1,00,10,11,01,000,…}
用 A 表示B+,可以表示为 A->0 A->A0 A->1 A->A1
文法:用有穷的集合刻画无穷的集合的工具。
2.2 形式语言是由文法定义的
2.2.1 什么是文法 ?
【定义】 文法(grammar)是规则的有限集,通常可 以表示为四元组: G(Z)=(VN, VT, Z, P) 每个元素 VN : 非终结符集 ( 定义的对象集,如:语法成分等 ) ; VT : 终结符集 ( 字母表 ) ; Z : 开始符号 ( 研究范畴中最大的定义对象 ) ; P : 规则集 ( 又称产生式集 ) ; 每个规则 Z -> 或者 A -> | 注:此文法实际称为上下文无关文法 描述符号 : ->(定义为/生成),|(或者是) 文法符号 : Z , A∈VN, , ∈(VN+VT)*

第二章形式语言理论

第二章形式语言理论
精品资料
字母表和符号(fúhào)
字母(zìmǔ)表:元素的非空有穷集合,记为∑。
例如:∑={0‚1} ∑1={a‚b,c}
字母(zìmǔ)表中至少包含一个元素。
字母(zìmǔ)表中的元素,可以是字母(zìmǔ)、数字 或其他符号。
不同的语言有不同的字母(zìmǔ)表。
符号:字母表中的元素称为符号或字符。
0型文法(PSG): 0型语言或短语结构语言。 1型文法(CSG):1型语言或上下文有关语言。 2型文法(CFG):2型语言或上下文无关(wúguān)语言。 3型文法(RG):3型语言或正则(正规)语言。
精品资料
1.0型文法
如果对于(duìyú)文法G,P中每个规则具有下列形式: α→β
其中α∈V+ ,β∈V*,则该文法G为0型文法。相应的语言称为0 型语言。 例如:文法G=(VN,VT, P, S),其中VN={A,B,S} VT={0,1}
1型语言(上下 文有关语言)
将A替换成b 时,必须考 虑A的上下 文
2型语言(上下 文无关语言)
无需考虑A 在上下文中 的出现情况
3型文法 (右线性文法)
A→aB 或 A→a, A,B∈VN ,a∈VT*
3型语言
a∈VT,正规 (zhèngguī)文法
产生式全部 是规定形式
精品资料
如何判断(pànduàn)4种文法 1型文法:|β|≥|α|≥1,规则左部至少有一个非终结符 ; 2型文法:规则左部是单个非终结符; 3型文法:看格式。
精品资料
符号串及其运算(yùn su由àn字)母表中的符号组成的任何有穷序列。
例如:0,00,10是字母表∑={0‚1}上的符号串 a,ab,aaca是∑1={a‚b,c}上的符号串

第二章 形式语言基础

第二章  形式语言基础

2. 或: |= (或者 )
3. 方幂: n = … = n-1 = n-1 n个
※ 0 = (空符号串)
什麽符号也没有的符号串 !
1= ; 2 = ;…
4. 闭包: 的正闭包: + = 1|2|…|n|… 的星闭包: * = 0|1侧重于语法的研究。
※ 形式语言的基本观点是 : 语言是符号串之集合!
※ 形式语言理论研究的基本问题是: 研究符号串集合的表示方法、结构特性
以及运算规律。
第 2 章 形式语言基础
【内容提要】
2.1 形式语言是符号串集合 2.2 形式语言是由文法定义的 2.3 主要语法成分的定义 2.4 两类特性文法 2.5 文法变换方法 2.6 关于形式语言的分类问题
【例2.4】 设 A={a} 则 A* = A0∪A1∪A2∪…∪An∪… ={}+{a}+{aa}+{aaa}+… ={,a,aa,aaa,…} ={an|n≥0}
➢ 符号串集合运算示例(续):
【例2.5】 设 A={a,b}, A* = ? ∵ A* = A0∪A1∪A2∪…∪An∪… A0 ={}; A1 = A ={a,b}; A2 = A.A={a,b}.{a,b}={aa,ab,ba,bb}; A3 = A.A2={a,b}.{aa,ab,ba,bb} ={aaa,aab,aba,abb,baa,bab,bba,bbb}; … ∴ A* = { x | x=(a|b)n ,n≥0 }
即:(a|b)* = (a|b)n ,n≥0
同理: (a|b)+ = (a|b)n ,n>0
2.1.1 符号串(集合)的运算(续2)
Ⅱ. 符号串集合的运算 设 A 和 B 为两个符号串集合,则:

编译原理第2章形式语言概论课件

编译原理第2章形式语言概论课件

第二章 形式语言概论
7
oegzdz
2.2 文法及其分类
2.2.1 文法
定V义T2为.1终V结N符为号非集终;结符VN号和(V或T不语含法公实体共的,元或素变量,即)集; VN ∩ VT = φ。 用V表示VN ∪ VT
产生式是形如α→β或α→β的(α,β)有序偶对, 其中α是字母表V的正闭包V+中的一个符号,β 是V*中的一个符号。α称为产生式的左部,β称
作产生式的右部。产生式也称重写规则、规则 或生成式。
20006-08-27
第二章 形式语言概论
8
oegzdz
定义2.2 文法G定义为四元组(VN,VT,P,S )其中 VN(为也称非语终法变结量)符用来号代(表或语法语范法畴。实如“体算术,表或达式变”、量“布)集尔表;达非式终”结、符“号过程”
等。一个非终结符代表一个一定的语法概念。因此非终结符是一个类(或集合)记号, 而不是个体记号。
consists of a left side,an arrow(or ‘::=‘),and a right side
S is a designation of one of the nonterminals
as the start symbol V =VN ∪ VT is the alphabet of G
20006-08-27
第二章 形式语言概论
6
oegzdz
*{}2......
* {} * 2 3 ......
例:Σ={a,b} Σ*={ε,a,b,aa,ab,ba,bb,aaa,aab,…} Σ+={a,b,aa,ab,ba,bb,aaa,aab,…}
20006-08-27
②符号串的连接:符号串x、y的连接,是把y的符号 写在x的符号之后得到的符号串xy

第二章 形式语言基础(1)

第二章  形式语言基础(1)


【注】字母表是符号的有限集;而由字母表中符号通过 字母表是符号的有限集; 是符号的有限集 规则组成的句子的集合(语言 则可能是无限集。 语言), 规则组成的句子的集合 语言 ,则可能是无限集。
2.1.2 规则集
规则集是语言中句子的组成的规律和法则, 规则集是语言中句子的组成的规律和法则,它可 是语言中句子的组成的规律和法则 以通过某种运算,把该语言中的句子产生出来;故而, 句子产生出来 以通过某种运算,把该语言中的句子产生出来;故而, 规则集又称为产生式集 产生式集。 规则集又称为产生式集。
用规则产生句子 用规则产生句子 产生 的过程: 的过程: 从开始符号出发,对符号串中的 开始符号出发, 出发 定义对象,用其规则右部替换 替换之 称为推导 推导) 定义对象,用其规则右部替换之(称为推导);产生 的新符号串仍如此进行, 的新符号串仍如此进行,直到新符号串中不再出现定 义的对象为止,则最终的符号串就是一个句子 句子。 义的对象为止,则最终的符号串就是一个句子。
∵ E =>T =>T*F =>T*(E) =>T*(E-T) =>T*(E=>T*(E+T-T)=>F*(E+T-T)=>i*(E+T-T) =>T*(E+T-T)=>F*(E+T-T)=>i*(E+T=>F*(E+T =>i*(E+T =>… =>i*(i+i-i) =>i*(i+i=> ∴
+ i*(i+iE => i*(i+i-i) 观察推导过程, 观察推导过程,可以 看到: 看到:一旦产生式选择 错了,会导致失败! 错了,会导致失败!
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

〈表达式〉→(〈表达式〉)
〈表达式〉→i
}
编译原理
2020/10/17
几点说明:
产生式左边符号构成集合VN ,且 S ∈ VN
VN :代表程序的语法成份,如“<表达式>”,它不会 出现在程序中
VT :会出现在程序中,如i+i
给定一个 文法,实际只需给出产生式集合,并指定识别符号 G[表达式]: 〈表达式〉→〈表达式〉+〈表达式〉 〈表达式〉→〈表达式〉*〈表达式〉 〈表达式〉→(〈表达式〉) 〈表达式〉→i
教学内容
• 2.1 字母表和符号串的基本概念 • 2.2 文法和语言的形式定义 • 2.3 句型的分析 • 2.4 文法和语言的分类 • 2.5 PL/0编译程序概述
编译原理
2020/10/17
2.1 字母表和符号串
符号就是字符不如,对=对{i吗f,e?lse,for,while} 字母表:符号的非空有限集 例:={0,1}
=> the big elephant ate the <名词>
=> the big elephant ate the peanut
编译原理
2020/10/17
上述推导可写成<句子> =+> the big elephant ate the peanut
说明: (1) 有若干语法成分同时存在时,我们总是从最左的语法成
如何定义句子的合法性?
•有穷语言:只需逐一列举句子 •无穷语言:使用文法定义句子的结构,用适当条数的规
则把语言的全部句子描述出来。文法是以有穷的集 合刻划无穷的集合的工具。
编译原理
2020/10/17
1.语法规则:我们通过建立一组规则,来描述句子的语法结构。 规定用“::=”表示“由……组成”。
<句子>::=<主语><谓语> <主语>::=<代词>|<名词> <代词> ::=你|我|他 <名词>::= 王民|大学生|工人|英语 <谓语>::=<动词><直接宾语> <动词>::=是|学习 <直接宾语>::=<代词>|<名词>
第2章 形式语言的基本知识
教学目标
1. 本章是编译原理课程的理论基础,要求掌握形 式语言的基本术语和概念。
2. 掌握文法和语言的定义,文法的二义性与递归 性的判断方法及句型的分析方法。
3. 熟练使用文法定义程序设计语言的单词和语法 成分。
4. 对形式语言的理论有一个初步认识。
编译原理
2020/10/17
编译原理
2020/10/17
有些产生式具有相同的左部,可以和在一起 G[E]: E→E+E|E*E|(E)|i
编译原理
2020/10/17
【例2.2】某种语言的标识符是以字母开头的字母数字
串,如果用L表示<字母>,D表示<数字>,用S表示字
母数字串
描述了标识符的 词法规则
G[S]:
S→L|SL|SD
编译原理
2020/10/17
文法的表示方法 1. BNF的元符号: <, >, ::=, |
2. EBNF: 扩充的BNF的元符号: <, >, ::=, |, {, }, [, ] (, )
3.语法图
标识符
字母
字母
数字
无符号整数
数字
编译原理
2020/10/17
推导的形式定义
如果α→β是文法G=(VT,VN,S,P)的一个产生式, γ,δ∈V*,有符号串x,y满足 x=γαδ,y=γβδ, 则称y是x的直接推导, 也可以说,y直接归约到x,记作x y。
分进行推导,这称之为最左推导,类似的有最右推导(一般推 导)。
(2) 从一组规则可推出不同的句子,如以上规则还可推出 “大象吃象”、“大花生吃象”、“大花生吃花生”等句子, 它们 在语法上都正确,但在语义上都不正确。
所谓文法是在形式上对句子结构的定义与描述,而未 涉及语义问题。
编译原理
2020/10/17
=>我<动词><直接宾 语=>>我是<直接宾语>
=>我是<名词>
=>我是大学生
编译原理
2020/10/17
例:有一英语句子:The big elephant ate the peanut.
<句子>::=<主语><谓语> <主语>::=<冠词><形容词><名词> <冠词> ::=the <形容词>::=big <名词>::=elephant <谓语>::=<动词><宾语> <动词>::=ate <宾语>::=<冠词><名词> <名词> ::=peanut
编译原理
编译原理
符号串的幂运算
符号串自身连接n次得到的符号串sn 定义为 ss…ss ,包括n个s,称为符号串的幂运算
s0=ε,s1=s,s2=ss,…… 设s=01,则 s0=ε s1=01 s2=0101 ……
编译原理
2020/10/17
符号串集合的乘积 设A、B为符号串集合,则A和B的乘积定义 为:AB={ xy |x∈A,y∈B}
编译原理
2020/10/17
例如:G[<无符号整数>] (1) <无符号整数> → <数字串> (2) <数字串> → <数字串> <数字> (3) <数字串> → <数字> (4) <数字> →0 | 1 | 2 | 3 | …… | 9
B为单词集 B ={if, else,for,……,<标识符>,<常量>,……}
则B A* 。 语言的句子是定义在B上的符号串。 若令C为句子集合,则C B * , 程序 C
编译原理
2020/10/17
语言是由句子组成的集合,是由一组符号所构成的集合
➢ 字母表上的一个语言是上的一些符号串的集合 ➢字母表上的每个语言是*的一个子集
编译原理
2020/10/17
【例2.1】程序语言中只含+、*运算的算术表达式,用i
表示变量或常数,其文法可以表示为:
G=(VT , VN, S, P),其中: VN={表达式} VT={+,*,(,),i} S=〈表达式〉
描述了表达式的 语法规则
P={〈表达式〉→〈表达式〉+〈表达式〉
〈表达式〉→〈表达式〉*〈表达式〉
例如:字母表 Σ={a,b} ,Σ*={ε,a,b,aa,ab,ba,bb,aaa,aab,…}
集合{ab,aabb,aaabbb,…,anbn,…}
或表示为{w|w∈Σ*且w=anbn,n≥1}为字母表上的一个语
言 集合{a,aa,aaa,…}
或表示为{w|w∈Σ*且w=an,n≥1} 为字
母表上的一个语言
…… …… 这种推导一直进行下去,直到所有带< >的符号都由终结符号 替代为止。
编译原理
2020/10/17
推导方法:从一个要识别的符号 开始推导,即用相应规则的 右部来替代规则的左部, 每次仅用一条规则去进行推导。
<句子> => <主语><谓语> => < 代词><谓语> => 我<谓语>
<句子>::=<主语><谓语> <主语>::=<代词>|<名词> <代词> ::=你|我|他 <名词>::= 王民|大学生|工人|英语 <谓语>::=<动词><直接宾语> <动词>::=是|学习 <直接宾语>::=<代词>|<名词>
编译原理
2020/10/17
符号串集合的闭包运算
设A是符号串集合,定义
A+= A1 ∪ A2 ∪ A3 ∪……∪ An ∪…… 称为集合A的正闭包。
A*= A0 ∪A+ 称为集合A的闭包。
例:A={x,y}
A+=?{x,y, xx,xy,yx,yy , xxx,xxy,xyx,xyy, ……}
A1
例如,A={a,b},B={c,d}
则AB={ac,ad,bc,bd}
编译原理
2020/10/17
符号串集合的幂运算
有符号串集合A,定义A0 ={ε}, A1=A, A2=AA, A3=AAA,…… An=An-1A=AAn-1 ,n>0
例如,A={0,1},则 A0= {ε} A1= {0,1} A2= {00,01,10,11} A3= {000,001,010,011,100,101,110,111}
文法的形式定义
V=VN ∪VT 称为文法的字母表
文法G[S]=(VN,VT,P,S) VN :非终结符号集 VT :终结符号集 P: 产生式或规则的集合 S: 开始符号(识别符号) S∈ VN ,S至少要在 一条规则中作为左部出现
补: 规则的定义 α :: β 或αβ α∈V+且至少有一个非终结符,而β∈(VN ∪ VT)*
C语言的字母表 A={a,b,…,0,1,…,9, +,-,×,_/, ( , ), =… if, else,for...}
相关文档
最新文档