【最新】有限自动机理论-2章形式语言
形式语言与自动机理论二
q0
qf
q0 q0 a qf
第四章 正规表达式
定理:每个正规表达式 r 都存在一个-NFA M 使得L(M) = L(r)。
(2)运算符个数不为0
r=r1+r2
q1 M1 f1
q0
q2 M2 f2
f0
第四章 正规表达式
定理:每个正规表达式 r 都存在一个-NFA M 使得L(M) = L(r)。
正规语言类在代换下是封闭的。
第五章 正规语言的性质
5.2 正规语言的封闭性
(5) 同态
定义:设,是两个字母表,映射 f: *
如果对x,y*,有f(xy)=f(x)f(y), 则称f是从到*的同态映射。
正规语言在同态和逆同态下是封闭的。
第五章 正规语言的性质
5.2 正规语言的封闭性
定义:假设L1,L2 *,则L1和L2的商定义 为: L1/L2={x|yL2,使得xyL1}
形式语言与自动机理论
山东大学计算机科学与技术学院 2007.3
第四章 正规表达式
4.1 正规表达式的形式定义
❖ 定义:设是一个字母表,字母表上正规式 (Regular Expression,RE)和正规集定义如下: (1)是上的正规式,对应的正规集为; (2) 是上的正规式,对应的正规集为{}; (3)对a,a是上的正规式,对应的正规
正规语言在商运算下是封闭的。
第五章 正规语言的性质
5.3 Myhill-Nerode定理和 DFA 极小化
一、相关概念 1、等价关系 2、划分 3、划分加细 4、等价类 5、商集 6、等价关系的指数
第五章 正规语言的性质
5.3 Myhill-Nerode定理和 DFA 极小化
形式语言与自动机基础PPT课件
f(qoe,0)= qee f(qoe,1)= qoo f(qeo,0)=qoo f(qeo,1)= qee
f( qeo ,1)= qeeZ
所以串$1= 110101可以被M1接受。
f(qoo,0)=qeo f(qoo,1)= qoe
f( qee , 110101 )= f(f( qee ,11010),1)=
Ch2 形式语言自动机理论基础 2.2 自动机基础 2.2.2 非确定的FA(NFA)
一. NFA的定义
DFA的确定性表现在其映射函数是一个单值函 数。但是实际问题中,映射函数往往是一个多值函 数。
例如,源程序中扫描到一个字母时,不同的语言 对应多种情况:
FORTRAN中: 标识符/格式转换码E、D…
Ch2 形式语言自动机理论基础 2.2 自动机基础
第 2 章 形式语言与自动机基础
2.2 有限自动机基础 2.2.1 确定的有限状态自动机(DFA) 2.2.2 非确定的有限状态自动机(NFA) 2.2.3 NFA确定化 2.2.4 DFA化简
Ch2 形式语言自动机理论基础 2.2 自动机基础 2.2.1 确定的FA(DFA)
Q
q0
Z
其中状态转换函数f为:
f(q0,0)= {q0,q3}
f(q1,0)=
f(q2,0)= {q2} f(q3,0)= {q4} f(q4,0)= {q4}
f(q0,1)= {q0, q1} f(q1,1)={ q2} f(q2,1)= {q2}
f(q3,1)=
f(q4,1)={ q4}
Ch2 形式语言自动机理论基础 2.2 自动机基础 2.2.2 非确定的FA(NFA)
1) p0=q0 2) f(pi,wi+1)=pi+1,i=0,1,,n-1 3) pnZ
编译原理-2-形式语言与自动机-I
(function1) (paras) (statements)
(function2) (paras) (statements)
(function3) (paras) (statements) … (functionn) (paras) (statements) (functioni actual-paras) (functioni actual-paras) (functioni actual-paras) …
符号串的长度 如果某符号串x中有m个符号,则称其 长度为m,表示为|x|=m,如001110的长度是6。 空符号串,即不包含任何符号的符号串,用ε表示, 其长度为0,即|ε|=0。
2014-6-13 21
符号串的头,尾,固有头和固有尾:如果z=xy是一符号 串,那么x是z的头,y是z的尾,如果x是非空的,那 么y是固有尾;同样如果y非空,那么x是固有头。 举个例子:设z=abc,那么z的头是ε ,a,ab,abc,除abc外, 其它都是固有头;z的尾是ε ,c,bc,abc,z的固有尾是 ε ,c,bc。 当对符号串z=xy的头感兴趣而对其余部分不感兴趣 时,采用省略写法:z=x…; 如果只是为了强调x在符号串z中的某处出现,则可 表示为:z=…x…;符号t是符号串z的第一个符号, 则表示为z=t…。
语法 -- 表示构成语言句子的各个记号之间的组合规律 语义 -- 表示各个记号的特定含义。(各个记号和记号
所表示的对象之间的关系)
语用 --表示在各个记号所出现的行为中,它们的来源、
使用和影响。
每种语言具有两个可识别的特性,即语言的形式 和该形式相关联的意义。 语言的实例若在语法上是正确的,其相关联的意 义可以从两个观点来看,其一是该句子的创立 者所想要表示的意义,另一是接收者所检验到 的意义。这两个意义并非总是一样的,前者称 为语言的语义,后者是其语用意义。幽默、双 关语和谜语就是利用这两方面意义间的差异。
形式语言与自动机理论第二章蒋宗礼
2.2 形式定义
• P——为产生式(production)的非空有穷集合。P中的元素均具有 形式αβ,被称为产生式,读作:α定义为β。其中 α∈(V∪T)+,且α中至少有V中元素的一个出现。β∈(V∪T)*。 α称为产生式αβ的左部,β称为产生式αβ的右部。产生 式又叫做定义式或者语法规则。
A1A },A)。
第20页/共106页
2.2 形式定义
⑸ ({S , A , B , C , D},{a , b , c , d,#} , {SABCD , Sabc# , AaaA , ABaabbB , BCbbccC,cCcccC,CDccd# ,CDd#, CD#d},S)。
⑹ ({S},{a , b} , {S00S , S11S , S00 , S11},S)。
第32页/共106页
2.2 形式定义
• 例 2-5 设G=({S,A,B},{0,1},{SA|AB,A0|0A,B1|11},S)
对于n≥1,
A n 0n
首先连续n-1次使用产生式;A0A, 最后使用产生式A0;
A n 0nA
连续n次使用产生式A0A;
B1
使用产生式B1;
B 11
使用产生式B11。
• CFL
• CFG(CNF、GNF)、PDA、CFL的性质。
• TM
• 基本TM、构造技术、TM的修改。
• CSL
• CSG、LBA。
第4页/共106页
教材及主要参考书目
1.蒋宗礼,姜守旭. 形式语言与自动机理论. 北京:清华大学出版 社,2003年
2.John E Hopcroft, Rajeev Motwani, Jeffrey D Ullman. Introduction to Automata Theory, Languages, and Computation (2nd Edition). Addison-Wesley Publishing Company, 2001
有限自动机
有穷状态控制器FSC
一个有穷状态控制器(FSC)
该控制器的状态只能是有限多个; FSC通过读头读取当前带上单元的字符;
初始时,读头对应带的最左单元,每读取一个字符, 读头向右自动移动一个单元;
读头(暂时)不允许向左移动。
一次动作
有限状态自动机的一个动作为:
读头读取带上当前单元的字符 FSC根据当前FSC的状态和读取的字符,进行状态改变
将读头向右移动一个单元
有限态自动机的动作可以简化为:
FSC根据当前状态和当前读取的带上字符进行状态改 变
图灵机五元式描述动作
<q,x,q′,W,{L,R,N}>
其中:x,W∈∑′ (∑的增广集合)。
图灵机处于状态q,扫描到符号x,则状态变换为q′,印刷上新的符 号W,读/写头向左、或向右或不移动。
下推自动机 PDA(Push-Down Automaton)
FA识别正则语言(右线性语言) PDA识别上下文无关语言 FA只能处理正则语言 正则文法生成无穷语言是由于 A->wA
不需要记录w的个数。
下推自动机 PDA
无关文法生成无穷语言 A->αAβ
需要记录α和β之间的对应关系,无法用FA的有穷 个状态来表示。 为FA扩充一个无限容量的栈,用栈的内容和FA的 状态结合起来就可以表示无限存储。这种模型就 是下推自动机
下推自动机 PDA
PDA作为形式系统最早于1961年出现在 Oettinger 的论文中。与上下文无关文法的等价性由 Chomsky于1962年发现。
没有递归的产生式只能产生有穷的语言; 多数情况下,我们都希望产生无穷的语言。
形式语言与自动机理论
1.4.2 形式语言与自动机理论的产生与作用毕业于宾夕法尼亚大学的我语言学家乔姆斯基(Avram Noam Chomsky)最初从产生语言的角度研究语言。
1956年,通过抽象,他将语言形式地定义为由一个字母表中的字母组成的一些串的集合:对任何语言L,有一个字母表∑,使得L⊆∑。
可以在字母表上按照一定的规则定义一个文法(grammar),该文法产生的所有句子组成的集合就是该文法产生的语言。
判断一个句子是否是某语言的合法句子,需要判断该句子是否能由该语言对应的文法产生出来的,如果能,它是合法的;否则,它就是非法的。
1959年,乔姆斯基根据产生语言的文法的特征,又将语言划分成三大类。
注意,这里所说的文法就是通常人们所说的语法。
根据习惯,本书中主要用“文法”一词来表达这种对象,只是在个别情况下用“语法”一词。
1951-1956年间,克林(Kleene)在研究神经细胞中建立了自动机,想、从识别的角度研究语言,从而给出了语言的另一种描述模型:对于按照一定的规则构造的任一个自动机,该自动机就定义了一个语言,这个语言由该自动机所能识别的所有句子组成。
语言的文法与自动机这两种不同表示方法进一步引起人们的研究兴趣。
按照通常的考虑,由于这两种方法描述的是同一种东西,所以,它们应该是等价的。
但是,它们真的是等价的吗?如果它们确实是等价的,是否存在一种方法,咳哟实现这两种表示方法的相互转换?当然,我们要求这种转换方法应是正确的,也就是得到了证明的。
如果这种转换方法是有效的,可以自动的进行,将给我们带来更多的方便和新的结果。
1959年,乔姆斯基通过深入的研究,将他本人的研究成果与克林的研究成果结合起来,不仅确定了文法和自动机分别从生成和识别的角度去表达语言,而且证明了文法与自动机的等价性。
此时形式语言才真正诞生,并被置于数学的光芒之下。
形式语言出现之后很快就在计算机科学与技术领域中找到了应用。
20世纪50年代,人们用巴克斯范式(Backus Nour Form 或Backus Normal Form,BNF)成功地实现了对高级语言ALGOL-60的描述。
形式语言与自动机
例4:L(G(S))={| {0,1}* 其中 中至少包含一个1 且 每个1都有0紧跟其后} S 1A(A为0打头,1符合题意) S 0S A 0B (B为 0任意,1符合题意) B 0B B 1A( A为0打头,1符合题意)
例5:L={aR{a,b}*,其中R为的逆} S aaSa bSb Example 6:Construct a grammar over {a,b,c} whose language is {anb2ncm|n,m>0} Example 7: Construct a grammar over {a,b,c} whose language is {anbmc2n+m|n,m>0} S aScc aBcc B bBb bb Example 8: Construct a grammar over {a,b,c} whose language is {anbmci|0≤n+m≤i} S aSbcc B A A aAc C B bBc C C aC Example 9: Construct a grammar over {a,b} whose language is {anbm|0≤n≤m≤2n} S aSb aSbb
形式语言与自动机理论的应用
有限状态自动机是描述许多重要硬件和软件的有用模型。只有有限个 状态,使得可以用有限的资源来实现。 – 字符串匹配算法(KMP) – 词法分析器 – 设计和检验数字电路行为的软件 – 其它一些软件,如通信协议验证 • 与有限自动机有关的两种符号表示 – 文法:设计处理递归结构数据的软件的模型 – 正规表达式:与自动机描述的字符串模式等价 • 自动机是研究计算复杂性的必要基础 – 可判定性问题:可判定问题和不可判定问题 – 可处理性问题:一般问题和难解问题
《编译原理》第2章 编译基础-形式语言与有穷自动机
句型、推导
G[E]: E→E+T|T T→T*F|F F→(E)|a
对于句子a+a*a 有不同 的推导
EE+T T+T F+T a+T a+T*F a+F*F a+a*F a+a*a
EE+T E+T*F E+T*a E+F*a E+a*a T+a*a F+a*a a+a*a
整理课件
例:奇偶测试器
0
0
1
q0
q1
∈
1
自动机:M=(Q,∑ ,δ ,q0,Z)
Q={ q0, q1}
∑ ={0,1}
q0=q0 Z={q1}
整理课件
映射函数:
δ( q0,0)= q0 0
0
δ( q0,1)= q1
1
δ( q1,0)= q1 q0
q1
δ( q1,1)= q0
1
例:000110001
整理课件
第四节 正规文法与有穷自动机 1、正规文法 产生的语言的推导 例:文法 G=(VN,VT,P,S) 其中: VN={A,B,C}
VT={a,b,c} S=A P:A →aB A →aA
B →bB B →bC C →cC C →c
整理课件
A=>aA=>aaA=>…..=>aa…aB =>aa…abB=>aa…abb…bC =>aa…abb…bcC=> aa…abb…bccC => aa…abb…bcc…c
D→ε
Aa→bD
自然语言属于上下文有关文法
整理课件
文法的类型
第2章 形式语言概述
2.1.1字母表
定义2.1 字母表是元素的非空有穷集合,字母表中 的元素称为符号,因此字母表也称为符号表。高级 语言如C语言的字母表是由字母、数字、特殊符号 和一些专用符号构成。 例 ={a,b}, ={0,1}, ={0,1,2,3,4,5,6,7,8,9},
∑={a,b,c,…z,if,then,else,main,1,2,3,4,…,9,0,=, ==,>,<,;(,)}
P为产生式的规则:
{N→L|NL|ND
L→a|b| c
D→1|2|3 }
2.2.3文法的分类
自从乔姆斯基(Chomsky)于1956年建立形式语言的描述以来,把文法分成 四种类型,即0型、1型、2型和3型文法。
0型文法(短语文法)
设G=(VN,VT,P,S),如果它的每个产生式α→β是这样一种结构:α∈ (VN∪VT )+ ,且至少含有一个非终结符,而β∈(VN∪VT )*,则称G是一 个0型文法。0型文法又称短语文法,它的能力相当于一个图灵机。 例如,A→
1.0型语言与图灵机
图灵机是识别0型文法的识别装置。图灵机被
引进作为描述过程的数学模型,过程的直观 概念被看成是能机械实现的有穷指令的序列。 图灵机的基本模型如图2-1所示。它有一个有 限控制器、一个被分成若干单元的输入带和 一个一次读入一个单元的读头组成
a1
a2
2.符号串的长度 符号串x中所包含的符号的个数称为符号串x的长度, 记为|x| 。例如字母表{0,1},则|010110|=6。ε记为 空串,长度为0。
3.子字符串
定义2.3 设有非空符号串u=xvy,其中x、v、y是符号串, 且v≠ε,则称v为符号串u的子符号串。
有限自动机理论章有限状态自动机
将状态转换函数改造为产生式
等价思绪
状态转换函数和产生式旳等价作用
δ(q, a)=q′
A→aB
接受a
产生a
状态变化
非终止符号变化
结论:DFA状态等价于文法非终止符
状态转换函数等价于产生式
构造文法旳基本思绪:
将旳DFA旳状态看成是RLG旳非终止 符(开始状态就是开始符号)
对于某个句子: DFA经过状态旳变化,逐渐(自左向 右)接受句子旳每个字母; RLG经过非终止符号旳变化,逐渐 (自左向右)产生句子旳每个字母。
思索
DFA旳接受状态旳作用
证明
假设L是字母表∑上旳FSL,则 L=L(DFA)
DFA=(Q,∑,δ,q0,F) 构造右线性文法G=(∑,Q,q0,P) 其中P为:
两类有限状态自动机
接受器 判断是否接受输入串;
转换器 对给定输入串产生输出。
FA还能够分为
拟定旳FA----DFA Deterministic Finite state Automaton 非拟定FA---- NFA
Non-deterministic Finite state Automaton
其中δ:
δ旳表达:函数形式
δ(q0,0)=q1 δ(q0,1)=q1 δ(q1,0)= q1 δ(q1,1)= q0
δ旳表达:状态矩阵
Q∑ 0
1
q0 q1
q1
q1 q1
q0
δ旳表达:状态图形式
状态图是一种有向、有循环旳图 一种节点表达一种状态; 若有δ(q,x)= q′,则 状态q到状态q′有一条有向边,并 用字母x作标识。
第三章
有限状态自动机
形式语言自动机理论基础
Ch2 形式语言自动机理论基础
2.2 自动机基础
2.2.1 确定的FA(DFA)
例如, 1) 电梯的控制系统; 2) 人的大脑也是有限控制系统; (235) 3) 计算机自身也是有限控制系统。 注意: 1) DFA是具有离散输入、输出系统的一个纯数 学模型; 2) DFA的技巧在于状态的设置; 3) DFA映射的唯一性和初态的唯一性 。
NFA M=({q0, q1, q2, q3, q4},{0,1}, f , {q0}, { q2,q4}) S ∑ S0 Z 其中状态转换函数f为: f(q0,0)= q0 f(q0,1)= q0 f(q1,0)= Φ f(q2,0)= q2 f(q3,0)= q4 f(q4,0)= q4 f(q0,0)= q3 f(q0,1)= q1 f(q1,1)= q2 f(q2,1)= q2 f(q3,1)= Φ f(q4,1)= q4
Ch2 形式语言自动机理论基础
2.2 自动机基础
2.2.3 NFA确定化
子集法
对NFA M’ =(S, {∑1, ∑2, … , ∑n }, f, S0, Z) 设一矩阵形式的表:
I ε-closure(S0) I ∑1 I∑2 … I∑n
Step1:初始化
Ch2 形式语言自动机理论基础
2.2 自动机基础
40ch2形式语言自动机理论基础22自动机基础224dfa的化简41ch2形式语言自动机理论基础22自动机基础224dfa的化简所谓dfam的化简是指寻找一个状态数比较少的dfa使得lmlm?而且可以证明存在一个最少状态的dfadfam最小化的过程是把m的状态集q分割成一些互不相交的子集使得每个子集中任何两个状态是等价的而任何属于两个不同子集的状态都是可区别的
第2章形式语言基础知识
2、符号串
定义:由字母表中的符号组成的任何有穷序列 例:0,00,10是字母表∑={0‚1}上的符号串 a,ab,aaca是V={a‚b,c}上的符号串 符号串是有序的。如: ab和ba不同 不含任何符号的符号串称为空串,用ε表示 注: {ε}并不等于空集合{ } 符号串长度: 符号串中含有符号的个数 如: |abc|=3 | ε|=0
2019/1/4
4
编译设计和开发技术
浙江科技学院计算机与电子工程学系
语义
定义单词和语法单位的意义 分类 静态语义:一系列限定规则,确定哪些合乎 语法的程序是合适的 动态语义:表明程序要做什么 作用: 检查类型匹配,变量作用域等
2019/1/4
5
编译设计和开发技术
浙江科技学院计算机与电子工程学系
2019/1/4
9
编译设计和开发技术
浙江科技学院计算机与电子工程学系
符号串集合的方幂: 设A是符号串的集 合,则称Ai为符号串集A的方幂,其中i 是非负整数 具体定义如下 A0 ={ε } A1 = A , A2 = A A AK = AA...…A (k个) 字母表A的n次方幂是字母表上所有长度 文n的串集
2.1 字母表和符号串
1、字母表
定义:元素的非空有穷集合 例:∑={0‚1} V={a‚b,c} 元素也称为符号,字母表也称符号集。 程序语言的字母表由字母数字和若干专用符 号组成。 是符号的非空有穷集合 一般用Σ 、V 表示
2019/1/4
6
编译设计和开发技术
浙江科技学院计算机与电子工程学系
字母表上符合某种规则构成的串
7、语言:字母表上句子的集合 a、b、c --- 符号 α、β、γ --- 符号串 A、B、C--- 符号串的集合(语言、句子)
第二章:有穷自动机和正规文法
上一页
下一页
退 出
10
2.3 DFA与NFA等效 由于DFA是NFA的特例,所以DFA能接受的语言必能为 NFA所接受,相反,NFA接受的语言,则能找到一个等效 的DFA接受语言。 定理2.3.1 设L(MN)是NFA MN接受的语言,则存在一DFA MD接受L(MD),满足L(MD)=L(MN)
上一页 下一页 退 出
12
n
可见[q1,q2,…,qn]是DFA MD的一个状态 通过对输入行ω的长度作归纳容易证明: δ D(q0D, ω )=[q1,q2,…,qn]⇔ δ (q0, ω )= {q1,q2,…,qn} 当|ω|=0时,即ω=ε,有δD(q0D,ε)=q0D, δ(q0,ε)={q0} 因为q0D=[q0],所以结论成立。 当|ω|≤K时,设 δD(q0D,ω)=[q1,q2,…,qn]⇔ δ(q0,ω)={q1,q2,…,qn}成立。 那么|ω|=K+1时,即:ω=ω1a,ω1∈T*,a∈T,则 δD(q0D,ω1a)=δD(δD(q0D,ω1),a)
T(M)={0,1} * 中的所有含偶数个0和偶数个1的句子集 合。
上一页 下一页 退 出
4
2.2不确定有穷自动机 1. NFA NFA M=(K,∑,δ,q0,把字的输入头右移一个单 元,并选择P1 ,P2 ,…,PK 中任意一个作为下一个状 态。 把映射δ定义域扩大到K×Σ* :当输入一个字符串 时,将δ改为δ'。 △ δʹ(q,ε)={q}和δ(q,xa)= ∪ δ(p,a)
20
2.有ε转换NFA和无ε转换的NFA的等效 如果有ε转换的NFA M接受语言L(M),则存 在无ε转换的NFA M1 使L(M1)=L(M)。 证明:首先对应有ε转换的NFA M=(Q,T,δ,q0,F) 构造无ε转换的 NFA M1=(Q,T,δ1,q0,F1) F1= F∪{q0} 当ε-closure(q0)含F的一个状态 F 否则 定义δ1:对任意q∈Q,a∈T则δ1(q, a)=δ'(q, a) 因为M1是无ε转换,对于δ1’可用δ1代替, 但要区别δ和δ’。 对字符串ω的长度进行归纳证明: δ1(q0,ω)=δ’(q0,ω)
形式语言与自动机
0型文法
1型文法,即 上下文有关文法
其中 ,(VT∪VN)*
||0
其中 ,(VT∪VN)*
||||
0型语言
1型语言,即 上下文有关语言
2型文法,即 上下文无关文法
A 其中 AVN,(VT∪VN)*
2型语言,即 上下文无关语言
3型文法,即 正规文法 (线性文法)
Aa或AaB(右线性),或 Aa或ABa(左线性)
–次序靠前的小写字母,如:a、b、c –运算符号,如:+、-、*、/ –各种标点符号,如:括号、逗号、冒号、等于号 –数字1、2、…、9 –黑体字符串,如:id、begin、if、then
非终结符号
–次序靠前的大写字母,如:A、B、C –大写字母S常用作文法的开始符号
–小写的斜体符号串,如:expr、term、factor、stmt
……
i=0
L的正闭包记作L+:即L的1次或若干次连接。
L+=Li = L1∪L2∪L3∪L4∪ ……
i=1
7
把幂运算推广到语言
L0={},Ln=Ln-1L,于是Ln是语言L与其自身的n-1次连接。
L={A,B, … ,Z,a,b, … ,z},D={0,1, … ,9}
–可以把L和D看作是字母表 –可以把L和D看作是语言
符号串有关的几个概念 长度
–符号串的长度是指中出现的符号的个数,记作||。 –空串的长度为0,常用表示。
4
前缀
–符号串的前缀是指从符号串的末尾删除0个或多个符号 后得到的符号串。如:univ 是 university 的前缀
后缀
–符号串的后缀是指从符号串的开头删除0个或多个符号 后得到的符号串。如:sity 是 university 的后缀
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
41
2021/2/2
思考:
上例是从标识符的形成角度思考问题。 从标识符的定义角度考虑,则?
42
2021/2/2
注意
D→0|1|2|3|4|5|6|7|8|9 不能简写为
D→0|…|9
43
2021/2/2
将I的定义加入到表达式中:
①( )是该语言的最基本的句子; ②若S是句子,则(S)是句子; ③若S是句子,则SS是句子;
11
2021/2/2
这些规则称为形成规则,根据这些 规则,可以
产生该语言的任意的句子;
判断某个串是否是该语言的句子-语法分析。
12
2021/2/2
例如
可以产生句子(()) 而推断串 (())) 不是句子。
它们组成的集合就称为一个语言。
22
2021/2/2
S称为非终结符,在推导过程中,可以被 代替的符号。
(和)称为终结符,在推导过程中,不可以 被代替的符号。
→ 是产生式系统的元符号,不属于非终 结符,也不属于非终结符。
23
2021/2/2
例2-1:由偶数个0组成的串的语言。 规则的自然语言描述方式:
①00是该语言的基本的句子; ②若S是句子,则00S是句子。
24
2021/2/2
形式化的描述方式: S→00 S→00S
25
2021/2/2
问题:
将产生式S→00S换成 S→0S0或S→S00或S→SS
是否还产生相同的语言?
26
2021/2/2
结论:
一个语言,可以使用不同的产生式组 合来产生。
15
2021/2/2
使用尖括号“<”和“>”包括起来的部分,作 为一个整体来看待,表示某个语法成分
需要使用字母表中的字母来定义其构成
符号“::=”是BNF本身的符号(元符号), 代表“定义为”或“是”。
符号“( ”和“ )”是字母表的元素。
16
2021/2/2
Chomsky采用的符号化(形式化)的描述 方式,运用规则(称为产生式):
13
2021/2/2
规则(的个数)是有限的,但可以产生无 限个句子、甚至长度无限的句子
因为规则是递归的。
14
2021/2/2
BNF的描述方式
巴科斯和诺尔采用的巴科斯-诺尔范式 (BNF--Backus-Naur Form)描述规则:
<括号匹配串>::= ( ) <括号匹配串>::=(<括号匹配串>) <括号匹配串>::=<括号匹配串><括号匹配串>
74
2021/2/2
第二类问题
构造产生语言L的文法。 L= {wwT|w∈{a,b,c}+}
其中:wT是w的逆(反序)
75
2021/2/2
思考:
产生下列语言的文法: L1={anbn|n>0} L2={anbn|n≧0}
约定:如果没有特别说明,则
小写的英文字母u,v,w,x,y,z代 表终结符串;
小写的希腊字母α,β、ᵞ 代表非终结符 和终结符串;
58
2021/2/2
推导(派生)的定义2-2
文法G,α和β是集合(∑∪V)上的串 α= pvr ,β=pur(p和r可能同时为ε) 而v→u是文法G的一个产生式, 则称α直接推导出β
生
69
2021/2/2
对于文法G=(∑,V,S,P) 约定:
第一个产生式左边的符号,就是开 始符号(可以不是S);
大写的英文字母代表非终结符。
70
2021/2/2
对于文法(G),只需给出该文法的 所有产生式即可。 产生括号匹配语言的文法可以写成
S→( ) S→(S) S→SS
71
2021/2/2
第一个产生式的左边只能有一个符号, 就是开始符号S。
55
2021/2/2
文法的作用就是产生一个语言。
56
2021/2/2
约定:如果没有特别说明,则
第一个产生式左边的符号,就是开始符 号,可以不为S;
大写的英文字母代表非终结符; 小写的英文字母a,b,c,d,e和数字 代表终结符;
57
2021/2/2
36
2021/2/2
其中: E代表表达式,T代表项,F代表因子 (E)代表的是带小括号的表达式 表示:先因子,再*、/,最后+、-
37
2021/2/2
如果使用%代表模运算(即取余数运算)、 使用^代表指数运算,则有
E→E+T|E-T|T T→T*F|T/F|T%F|A A→F^A|F F→(E)|i
L(G)={ω|S=>*ω,且ω∈∑*}
67
2021/2/2
例
文法 G= ({(,)},{S},S,{ S→( ), S→(S), S→SS })
产生语言 L(G)={w|w是括号匹配的串}
68
2021/2/2
注意:
文法G产生语言L,必须满足: ①G推导产生的所有句子都在L中 ②L的任意句子都可以由G推导产
记为α=>β ,即 pvr =>pur
59
2021/2/2
推导的实质 产生式的右边替换产生式的左边
60
2021/2/2
非终结符代表在推导的过程中可以被 替代的符号,
终结符代表在推导的过程中不可以被 替代的符号。
61
2021/2/2
推导的逆过程称为归约。
与pvr =>pur对应,串pur可以直接 归约成串pvr
A→+|-|*|/
+、-、*、/ 称为A的侯选式。
33
2021/2/2
E→ i E→EAE E→(E) 也可以记为: E→ i|EAE|(E)
34
2021/2/2
注意:
这组产生式 没有表示出运算符的优先级。
35
2021/2/2
表示出运算符的优先级的产生式: E→E+T|E-T|T T→T*F|T/F|F F→(E)|i
P是有序偶对(α,β)的集合:α是集合 (∑∪V)上的字符串,至少包含一个非 终结符;β是集合(∑∪V)*的元素
一般,将有序偶对(α,β)记为
α→β
称为产生式;
53
2021/2/2
如果有α→ε,称之为空串产生式或者 ε产生式。
如果有A→B,称之为单产生式。
54
2021/2/2
一个产生式的左边可能不只一个符号;
5
2021/2/2
本章介绍形式语言的基本内容。
6
2021/2/2
语言的形式定义
设是一个字母表, L*, L称为字母表上的一个语言, wL, w称为语言L的一个句子。
7
2021/2/2
2.1 例子语言
括号匹配串的语言。 该语言是指所有的左括号和右括号相
匹配的串的集合; ( ),(( )),( )( )等等都是该语言的句子 )( ,( ))等等不是该语言的句子。
形式语言所研究的问题。
3
2021/2/2
接收一个语言
使用某种自动机模型来接收字符串, 该模型所接收的所有字符串,也形成一 个语言。
自动机所研究的问题。
4
2021/2/2
统一的理论
形式语言与自动机作为统一的理论, 实际上包括3个方面的内容: 1) 形式语言理论(产生语言) 2) 自动机理论(接收语言) 3) 形式语言与自动机的等价性理论
30
2021/2/2
形式语言的描述方式
① E→ i (i代表单个变量) ② E→EAE ③ E→(E) ④ A→+ ⑤ A→⑥ A→* ⑦ A→/
31
2021/2/2
思考:
字母表为? 若以A开始推导,则产生?
32
2021/2/2
其中 : A→+,A→-,A→*,A→/ 四个产生式
的左边是相同的符号,可以合并为
51
2021/2/2
定义2-1 短语结构文法(文法)的定义
文法G是一个四元式,
G=(∑,V,S,P)
∑是有限字符的集合(字母表), 元素 称为字母或者终结符;
V是有限字符的集合--非终结符集合, 元素称为变量或者非终结符;
52
2021/2/2
短语结构文法(文法)的定义
S∈V,称为文法的开始符号;
49
2021/2/2
2.2 文法和语言的关系
语言的定义 文法的定义 文法与语言的关系
50
2021/2/2
对于语言,在字母表上,按照一定的 构成规则,根据语言句子的结构特点, 可以定义一个产生该语言的文法。
使用文法作为语言的有穷描述,不仅 可以描述出语言的结构特征,而且可以 产生这个语言的所有句子。
最终可以产生括号匹配的的句子。
20
2021/2/2
例:句子(( ))(( )( ))的推导过程
S =>SS =>(S)S =>(( ))S =>(( ))(S) =>(( ))(SS) =>(( ))(( )S) => (( ))(( )( ))
21
2021/2/2
产生式的个数是有限的,规则是递归 的,所有的小括号匹配的串,都可以由 产生式产生;
① S→( ) ② S→(S) ③ S→SS
17
2021/2/2
“→”代表“定义为”或者“是” ,
它的左边和右边分别称为该产生式的 左边和右边
18
2021/2/2
根据产生式
可以生成任意句子; 可以判断一个串是否为句子
19
2021/2/2