第三章 编译原理
《编译原理》第3章
NFA到相应的DFA的构造的基本思路是: DFA的每 一个状态对应NFA的一组状态. DFA使用它的状 态去记录在NFA读入一个输入符号后可能达到的 所有状态.
NFA M所能接受的符号串的全体记为L(M)
结论:
上一个符号串集V是正规的,当且仅当存 在一个上的不确定的有穷自动机M,使得 V=L(M)。
DFA是NFA的特例.对每个NFA N一定存在一个DFA M,使得 L(M)=L(N)。对每个NFA N存在着与之 等价的DFA M。 有一种算法,将NFA转换成接受同样语言的DFA.这 种算法称为子集法. 与某一NFA等价的DFA不唯一.
0
1
S P
Z
{P} {}
{P}
{S,Z} {Z}
{P}
• δ为S * 到S的子集(2 S)的一种映射
• 从NFA的矩阵表示中可以看出,表项通常是一状态的集合, 而在DFA的矩阵表示中,表项是一个状态
∑*上的符号串t被NFA M接受:
• 对于Σ*中的任何一个串t,若存在一条从某一初态 结点到某一终态结点的道路,且这条道路上所有 弧的标记字依序连接成的串(不理采那些标记为ε 的弧)等于t,则称t可为NFA M所识别(读出或接 受)。 • 若M的某些结点既是初态结点又是终态结点;或 者存在一条从某个初态结点到某个终态结点的道 路,其上所有弧的标记均为ε,那么空字ε可为M所 接受。
其中: δ(S,0)={P}
δ(S,1)={S,Z} δ(Z,0)={P} δ(Z,1)={P} δ(P,1)={Z} • 状态图表示
1 1 S 0 0,1 Z
P
1
• 矩阵表示
状态 输入
δ(S,0)={P} δ(S,1)={S,Z} δ(Z,0)={P} δ(Z,1)={P} δ(P,1)={Z}
编译原理第3章 习题解答
第3章习题解答1.构造正规式1(0|1)*101相应的DFA.[答案]先构造NFA确定化0 1X AA A ABAB AC ABAC A ABYABY AC AB重新命名,令AB为B、AC为C、ABY为D0 1X AA A BB C BC A DD C B转化成DFA:============================================================== 2.将下图确定化:[答案]0 1S VQ QUVQ VZ QUQU V QUZVZ Z ZV ZQUZ VZ QUZZ Z Z重新命名,令VQ为A、QU为B、VZ为C、V为D、QUZ为E、Z为F。
0 1S A BA C BB D EC F FD FE C EF F F转化为DFA:================================================================ 3.把下图最小化:[答案](1)初始分划得Π0:终态组{0},非终态组{1,2,3,4,5}对非终态组进行审查:{1,2,3,4,5}a {0,1,3,5}而{0,1,3,5}既不属于{0},也不属于{1,2,3,4,5} ∵{4} a {0},所以得新分划 (2)Π1:{0},{4},{1,2,3,5} 对{1,2,3,5}进行审查: ∵{1,5} b {4}{2,3} b {1,2,3,5},故得新分划 (3)Π2:{0},{4},{1, 5},{2,3} {1, 5} a {1, 5}{2,3} a {1,3},故状态2和状态3不等价,得新分划 (3)Π3:{0},{2},{3},{4},{1, 5} 这是最后分划了 (4)最小DFA :======================================= 4.构造一个DFA ,它接收Σ={0,1}上所有满足如下条件的字符串:每个1都有0直接跟在右边。
03-第3章-语法分析-编译原理-中国科技大学(共13讲)
• 例 ( {id, +, , , (, )}, {expr, op}, expr, P )
expr expr op expr expr expr op +
3.2 语言和文法
• 无二义的文法 stmt matched _stmt | unmatched_stmt matched_stmt if expr then matched_stmt else matched_stmt | other unmatched_stmt if expr then stmt | if expr then matched_stmt else unmatched_stmt
3.2 语言和文法
expr expr + term | term term term factor | factor factor id | (expr)
expr term
term expr factor id term factor id expr + term * factor id id + id id 分析树
3.2 语言和文法
3.2.3 验证文法产生的语言 G : S (S) S | L(G) = 配对的括号串的集合 • 按串长进行归纳:配对括号串可由S推出
–归纳基础: S – 归纳假设:长度小于2n的都可以从S推导出来 – 归纳步骤:考虑长度为2n(n 1)的w = (x) y S (S)S * (x) S * (x) y
编译原理和技术
中国科学技术大学 计算机科学与技术学院 陈意云
编译原理课后习题答案+清华大学出版社第二版
用以引用非局部(包围它的过程)变量时,寻找该变量的地址。 DL: 动态链,指向调用该过程前正在运行过程的数据段基地址,用以过程执行结束释放
数据空间时,恢复调用该过程前运行栈的状态。 RA: 返回地址,记录调用该过程时目标程序的断点,即调用过程指令的下一条指令的地
编译程序大致有哪几种开发技术?
答案:
(1)自编译:用某一高级语言书写其本身的编译程序。 (2)交叉编译:A 机器上的编译程序能产生 B 机器上的目标代码。 (3)自展:首先确定一个非常简单的核心语言 L0,用机器语言或汇编语言书写出它的编
译程序 T0,再把语言 L0 扩充到 L1,此时 L0⊂ L1 ,并用 L0 编写 L1 的编译程序 T1,再把语 言 L1 扩充为 L2,有 L1 ⊂ L2 ,并用 L1 编写 L2 的编译程序 T2,……,如此逐步扩展下 去, 好似滚雪球一样,直到我们所要求的编译程序。 (4)移植:将 A 机器上的某高级语言的编译程序搬到 B 机器上运行。
(main).
答案: 程序执行到赋值语句 b∶=10 时运行栈的布局示意图为:
1
《编译原理》课后习题答案第二章
第 3题 写出题 2 中当程序编译到 r 的过程体时的名字表 table 的内 容。
name
kind
level/val
adr
size
答案:
题 2 中当程序编译到 r 的过程体时的名字表 table 的内容为:
盛威网()专业的计算机学习网站
2
《编译原理》课后习题答案第一章
合实现方案,即先把源程序翻译成较容易解释执行的某种中间代码程序,然后集中解释执行 中间代码程序,最后得到运行结果。
编译原理(龙书)答案第三章
3.3.2, 3.3.6, 3.3.7, 3.3.8, 3.3.9,3.6.3, 3.6.4, 3.6.53.7.1, 3.7.2, 3.7.33.8.1, 3.8.23.9.3《编译原理》(龙书)第三章答案3.3.2 描述下列正则表达式代表的语言。
a) a(a|b)*ab) ((ε|a)b*)*c) (a|b)*a(a|b)(a|b)d) a*ba*ba*ba*e) (aa|bb)*((ab|ba)(aa|bb)*(ab|ba)(aa|bb)*)*答案(a)由a开头并结尾的由a和b构成的字符串(b)由a和b构成的字符串(c)倒数第三位为a的由a和b构成的字符串(d)仅含3个b的由a和b构成的字符串(e)含有偶数个a和偶数个b的由a和b构成的字符串注意:请准确描述语言的性质而不是列举满足正则表达式的串3.3.6 写出满足下列定义的字符a) The first ten letters in either upper or lower caseb) The lowercase consonantsc) The “digits” in a hexadecimal numberd) The characters that can appear at the end of a legitimate English sentence答案(a)a-jA-J(b)a-j(c)0-9a-f(d).?!3.3.7 写出匹配字符串“\ 的正则表达式答案:\”\\3.6.3 对于图3.29表示的NFA,列出aabb的所有路径。
这个NFA能否接受aabb? 答案:aabb的所有路径01223 00111 012000 00000 01222 00011 00123存在路径1223和0123所以能接受aabb3.6.4 对于图3.30表示的NFA,列出aabb的所有路径。
这个NFA能否接受aabb? 答案:01012301012120301230301212030303232030303212303030321212由于存在03210这样的环,所以这里有无数种路径存在路径终止于3,所以能接受aabb3.6.5 给出以下NFA的Transition Table(a) 图3.29(b) 图3.30(c) 图3.26答案:3.7.1 把下列NFA转化为DFA(a)图3.26(b)图3.29(c)图3.30答案:(a)(b)注意:以上答案并不唯一,等价即可3.7.2 用算法3.22模拟NFA(输入为aabb)(a)图3.29(b)图3.30答案:F={3} 所以返回yesF={3},所以返回yes3.7.3 用算法3.23和3.20把下列正则表达式转换为DFAa) (alb)*b) (a*lb* )*c) ((ela)b*)*d) (alb)*abb(alb)*答案:a) NFAb) NFAc) NFAd) NFA注意:这道题要求大家按照算法构造NFA和DFA,有些同学的NFA没有完全按照算法构造。
编译原理教程课后习题答案——第三章
第三章语法分析3.1 完成下列选择题:(1) 文法G:S→xSx|y所识别的语言是。
a. xyxb. (xyx)*c. xnyxn(n≥0)d. x*yx*(2) 如果文法G是无二义的,则它的任何句子α。
a. 最左推导和最右推导对应的语法树必定相同b. 最左推导和最右推导对应的语法树可能不同c. 最左推导和最右推导必定相同d. 可能存在两个不同的最左推导,但它们对应的语法树相同(3) 采用自上而下分析,必须。
a. 消除左递 a. 必有ac归b. 消除右递归c. 消除回溯d. 提取公共左因子(4) 设a、b、c是文法的终结符,且满足优先关系ab和bc,则。
b. 必有cac. 必有bad. a~c都不一定成立(5) 在规范归约中,用来刻画可归约串。
a. 直接短语b. 句柄c. 最左素短语d. 素短语(6) 若a为终结符,则A→α·aβ为项目。
a. 归约b. 移进c. 接受d. 待约(7) 若项目集Ik含有A→α· ,则在状态k时,仅当面临的输入符号a∈FOLLOW(A)时,才采取“A→α· ”动作的一定是。
a. LALR文法b. LR(0)文法c. LR(1)文法d. SLR(1)文法(8) 同心集合并有可能产生新的冲突。
a. 归约b. “移进”/“移进”c.“移进”/“归约”d. “归约”/“归约”【解答】(1) c (2) a (3) c (4) d (5) b (6) b (7) d (8) d3.2 令文法G[N]为G[N]: N→D|NDD→0|1|2|3|4|5|6|7|8|9(1) G[N]的语言L(G[N])是什么?(2) 给出句子0127、34和568的最左推导和最右推导。
【解答】(1) G[N]的语言L(G[N])是非负整数。
(2) 最左推导:NNDNDDNDDDDDDD0DDD01DD012D0127NNDDD3D34NNDNDDDDD5DD56D568最右推导:NNDN7ND7N27ND27N127D1270127NNDN4D434NNDN8ND8N68D685683.3 已知文法G[S]为S→aSb|Sb|b,试证明文法G[S]为二义文法。
编译原理 第3章习题解答
第三章习题参考解答3.1 构造自动机A,使得①②③当从左至右读入二进制数时,它能识别出读入的奇数;④它识别字母表{a, b}上的符号串,但符号串不能含两个相邻的a,也不含两个相邻的b;⑤它能接受字母表{0, 1}上的符号串,这些符号串由任意的1、0和随后的任意的11、00对组成。
⑥它能识别形式如±dd*⋅ d*E ±dd的实数,其中,d∈{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}。
3.2 构造下列正规表达式的DFSA:① xy*∣yx*y∣xyx;② 00∣(01)*∣11;③ 01((10∣01)*(11∣00))*01;④ a(ab*∣ba*)*b。
3.3 消除图3.24所示自动机的空移。
bεq1q2q3aba,bqaq6q4q5abεεε图3.24 含空移的自动机3.4 将图3.25所示NDFSA确定化和最小化。
xyqq1q2q4q3xyxyx,yx图3.25 待确定化的NDFSA3.5 设e、e1、e2是字母表∑上的正规表达式,试证明① e∣e=e;② {{e}}={e};③ {e}=ε∣e{e};④ {e1 e2} e1= e1{e2 e1};⑤ {e1∣e2}={{e1}{e2}}={{e1}∣{e2}}。
3.6 构造下面文法G[Z]的自动机,指明该自动机是不是确定的,并写出它相应的语言: G[Z]:Z→A0A→A0∣Z1∣03.7 设NDFSA M=({x, y},{a, b},f, x, {y}), 其中,f(x, a)={x, y}, f(x, b)={y}, f(y, a)=∅, f(y, b)={x, y}。
试对此NDFSA确定化。
3.8 设文法G[〈单词〉]:〈单词〉→〈标识符〉∣〈无符号整数〉〈标识符〉→〈字母〉∣〈标识符〉〈字母〉∣〈标识符〉〈数字〉〈无符号整数〉→〈数字〉∣〈无符号整数〉〈数字〉〈字母〉→a∣b〈数字〉→1∣2试写出相应的有限自动机和状态图。
编译原理(清华)第三章文法和语言
例 文法G: S→0S1,S→01 有直接推导: 0S1 00S11 ( S→0S1 ) 00S11 000S111 ( S→0S1 ) 000S111 00001111 ( S→01 ) S 0S1 ( S→0S1 )
推导和归约 若存在v=w0 w1 ... wn=w ,(n>0) 则称v推导出w,或w归约到v,记为v=+>w 若有v =+>w,或v=w,则记作v=*>w
2. 符号串 – 定义:由字母表中的符号组成的任何有穷序列 – 例: 0,00,10是字母表∑={0‚1}上的符号串 a,ab,aaca是Α={a‚b,c}上的符号串 – 在符号串中,符号是有顺序的,顺序不同,代 表不同的符号串,如:ab和ba不同 – 不含任何符号的符号串称为空串,用ε表示 注意:{ε}并不等于空集合{ } – 符号串长度: 符号串中含有符号的个数 如: |abc|=3 | ε|=0
3.3 文法和语言的形式定义
1.文法的定义 2.文法的简化表示法 3.推导与归约 4.句型、句子、语言的定义 5.文法的等价
1.文法的定义
产生式(规则) 产生式是一个有序对(α,β),通常写作 α→β(或α::=β ) 文法定义: 文法G(Grammar)定义为四元组(VN,VT,P,S) VN (Nonternimal):非终结符集 VT (Terminal):终结符集 P (Production): 产生式(规则)集合 S: 开始符号或识别符号
第三章
文法和语言
学习目标: 掌握:自上而下与自下而上的分析方法 理解:文法的形式定义,推导,归约,句 型,句子,语言,上下文无关文法,规范 句型,语法树,短语,直接短语,句柄 了解:文法的类型,文法使用中的限制, 文法的二义性
蒋立源编译原理第三版第三章习题与答案(修改后)
3-1 试构造一右线性文法,使得它与如下的文法等价 S→AB A → UT U → aU|a D →bT|b B → cB|c
并根据所得的右线性文法,构造出相应的状态转换图。
3-2 对于如题图 3-2 所示的状态转换图 0
0 0 A
D
1
0 1
B
C1
F
0
1
0
E
1 题图 3-2
(1) 写出相应的右线性文法; (2) 指出它接受的最短输入串; (3) 任意列出它接受的另外 4 个输入串; (4) 任意列出它拒绝接受的 4 个输入串。
但
{1}
b=
故 1 和 2 可区分,于是便得到下一分划
π1: {1}, {2}, {3}
此时子集已全部分裂,故最小化的过程宣告结束, M′即为状态数最小的 DFA。
(3) 将 NFA M确定化后得 DFA M′,其状态转换矩阵如答案图 3-4-(3) 之 (a) 所示, 给各状态重新命名,即令:
[S]=1, [A]=2, [S,B]=3 且由于 3 的组成中含有 M的终态 B,故 3 为 DFAM′的终态。于是,所构造之 DFAM′的 状态转换矩阵和状态转换图如答案图 3-4-(3) 之(b) 及(c) 所示。
π0:{1,2}, {3}
( ⅱ) 为得到下一分划,考察子集 {1,2} 。因为
{2} b ={3}
但
{1}
b=
故 1 和 2 可区分,于是便得到下一分划
π1: {1}, {2}, {3}
此时子集已全部分裂,故最小化的过程宣告结束, M′即为状态数最小的 DFA。
(4) 将 NFA M确定化后得 DFA M′,其状态转换矩阵如答案图 3-4-(4) 之 (a) 所示, 给各状态重新命名,即令:
编译原理第三章答案
第3章文法和语言第1题文法G=({A,B,S},{a,b,c},P,S)其中P为:S→Ac|aBA→abB→bc写出L(G[S])的全部元素。
答案:L(G[S])={abc}第2题文法G[N]为:N→D|NDD→0|1|2|3|4|5|6|7|8|9G[N]的语言是什么?答案:G[N]的语言是V+。
V={0,1,2,3,4,5,6,7,8,9}N=>ND=>NDD.... =>NDDDD...D=>D......D或者:允许0开头的非负整数?第3题为只包含数字、加号和减号的表达式,例如9-2+5,3-1,7等构造一个文法。
答案:G[S]: S->S+D|S-D|D D->0|1|2|3|4|5|6|7|8|9第4题已知文法G[Z]:Z→aZb|ab写出L(G[Z])的全部元素。
答案:Z=>aZb=>aaZbb=>aaa..Z...bbb=> aaa..ab...bbbL(G[Z])={a n b n|n>=1}第5题写一文法,使其语言是偶正整数的集合。
要求:(1) 允许0打头;(2)不允许0打头。
答案:(1)允许0开头的偶正整数集合的文法E→NT|D T→NT|D N→D|1|3|5|7|9 D→0|2|4|6|8(2)不允许0开头的偶正整数集合的文法E→NT|D T→FT|G N→D|1|3|5|7|9 D→2|4|6|8 F→N|0 G→D|0第6题已知文法G:<表达式>::=<项>|<表达式>+<项><项>::=<因子>|<项>*<因子><因子>::=(<表达式>)|i试给出下述表达式的推导及语法树。
(5)i+(i+i)(6)i+i*i第8题文法G[S]为:S→Ac|aBA→abB→bc该文法是否为二义的?为什么?答案:对于串abc(1)S=>Ac=>abc (2)S=>aB=>abc即存在两不同的最右推导。
编译原理第三章(4-2)
无符号数一般形式:dm dm-1 · · · d1 d0 ·d-1 d-2 · · ·d-nE+ dd · · · d E d 0 d . 3 d 1 d d E 4 d 5 d d 6
.
d
2
+∣d
. d d
d
d
F
北京交通大学 于双元 16
无符号数一般形式:dm dm-1 · · · d1 d0 ·d-1 d-2 · · ·d-nE+ dd · · · d E d 0 d . 3 d 1 d d E 4 d 5 d d 6
A B
②开始符号S作为初始状态 设一符号F不属于V作为终止状态
S
F B F F
③形如A→aB的规则
④形如A→a的规则 特别:A → ε
A A
a a
A 未曾在A的射出弧中 出现过的终结符号
北京交通大学 于双元
也可以消除ε产生式后再画状态图。
4
例:G[Z]: Z→0U∣1V U →1Z∣1 V →0Z∣0
1 初态
0 Z 1
U
1 0
F
0
V
②此过程是一种推导过程. (最右(左)推导)
相当于: Z=>0U =>01Z =>011V =>0110Z =>01100U =>011001
能否编程序实现?
有什么问题?
北京交通大学 于双元
8
3 、左线性文法的状态图
左线性文法的规则呈: A→Ba或A→a A,B∈Vn ,a∈Vt (1)状态图 ①G[S]的每一个非终结符号代表一结点(状态) A B
北京交通大学 于双元
23
3、设有如下状态转换图,试给出对应的正则文法 (左线性和右线性)。
编译原理 第三章 文法和语言
8
3.2 符号和符号串
四. 符号串集合(语言)的运算
设L和M是两个符号串集合,则 1.合并:L∪M={s|s∈L or s∈M} 2.连接:LM={ st|s∈L and t∈M} 3.方幂: L0={ε}, L1=L, L2=LL, ..., Ln=Ln-1L 4. 语言L的闭包,记作L*, L*=∪Li(i>=0) =L0∪L1∪L2∪L3 ∪… 5.语言L的正闭包,记作L+(L+=L L*) L+=∪Li(i >=1) =L1∪L2∪L3∪L4∪…
16
推导的定义
例: <程序><分程序>. (<程序> → <分程序>. ) <分程序>. <变量说明部分> <语句>. (<分程序> → <变量说明部分> <语句>) VAR<标识符>;BEGIN READ(<标识符>)END. VAR A;BEGIN READ(<标识符> ) END. (<标识符> →A) VAR A;BEGIN READ(<标识符> ) END. VAR A;BEGIN READ( A) END. (<标识符> →A)
22
文法G[S]: 例 文法 : (1)S→aSBE ) → (2)S→aBE ) → (3)EB→BE ) → (4)aB→ab ) → (5)bB→bb ) → (6)bE→be ) → (7)eE→ee ) → L(G)={ anbnen | n≥1 } ≥ G生成的每个串都在 生成的每个串都在L(G)中 生成的每个串都在 中 L(G)中的每个串确实能被 生成 中的每个串确实能被G生成 中的每个串确实能被 分析参见课本P37. 分析参见课本P37.
编译原理:第3章 有穷自动机
编译原理第3章内容简介学习目标第3章有穷自动机3.1 有穷自动机的形式定义3.1 有穷自动机的形式定义DFA的表示举例——状态转换表DFA的表示举例——状态转换图 3.13.1 FA的形式定义有穷自动机识别的符号串举例DFA A3.1 有穷自动机的形式定义 3.1 有穷自动机的形式定义NFA举例 3.13.1用NFA识别符号串yFA的构造FA的构造举例—1FA的构造举例—2FA的构造举例—3请构造一个有穷自动机FA的构造举例—4 3.1请构造一个有穷自动机FA的等价性举例3.2 NFA到DFA的转换 3.2 NFA到DFA的转换—NFA确定化3.2 NFA到DFA的转换3.2 NFA到DFA的转换—NFA确定化——ε闭包状态子集I的ε闭包——举例状态子集I的状态子集I的ε闭包——举例状态子集I的——Ia 子集3.2 NFA到DFA的转换Ia子集——举例Ia子集——举例 3.2 NFA到DFA的转换NFA到DFA的转换——子集法NFA=(Q NFA到DFA的转换——举例1aNFA到DFA的转换——举例2NFA DFA DFA NFA DFA DFADFA化简举例1DFA化简——注意NFA到最小化DFA的转换——举例33.3 正规文法与FA3.3 正规文法与FAFA⇒右线性正规文法FA⇒右线性正规文法——举例1y3.4 正规表达式RE与FA 正规表达式与有穷自动机3.4 RE与FA——RE的性质 3.4 RE与FA—RE⇒FARE⇒FA举例1RE⇒FA举例23.4 RE与FA——FA⇒RE FA⇒REFA⇒RE FA⇒RE举例FA⇒RE举例正规文法到正规表达式正规文法到正规表达式DFA的程序实现DFADFA的程序实现DFA DFA的程序实现lDFA的程序实现l第3章内容小结第3章内容小结参考文献。
编译原理第二版第3章词法分析
1. ε和φ都是∑上的正规式,它所表示的正规集分
别为{ε}和Ф; 2. 任何a∈∑,a是∑上的正规式,它所表示的正 规集为{a}; 3. 假定e1和e2都是∑上的正规式,他们所表示的 正规集分别为L(e1)和L(e2),那么,以下也 都是正规式和他们所表示的正规集;
一、正规式与正规集的递归定义
3.2 单词符号及输出单词的形式
单词自身值
对常数,基本字,运算符,界符就是他们本 身的值 对标识符,将标识符的名字登记在符号表中, ‚自身值‛是指向该标识符所在符号表中位 置的指针。
假定基本字、运算符和界符都是一符一种 例:if(a>1) b=100; 词法分析后输出的单词序列是: (2, ) if (29, ) ( (10,‘a’) a (23, ) > (11,‘1’) 1 (30, ) ) (10,’b’) b (17, ) = (11,‘100’) 100 (26, ) ;
4. 仅由有限次使用上述三步定义的表达式才是∑上的 正规式,仅由这些正规式所表示的字集才是∑上 的正规集。
重点回顾
四、将正规文法转换成正规式 求非终结符的正规式 将正规文法中的每个非终结符表示成关 于它的一个正规式方程,获得一个联立 方程组 用代入法解正规式方程组 最后只剩下一个开始符号定义的正规式, 其中不含非终结符
3.3 语言单词符号的两种定义方式
作用: 描述单词的构成规则,基于这类描 述工具建立词法分析技术,进而实现词法 分析程序的自动构造。 工具有: 正规文法 正规式(Regular Expression)
多数程序设计语言的单词符号都能用正 规文法或正规式来定义。
3.3.1 正规文法
多数程序设计语言单词的语法都能用正 规文法(3型文法)描述 正规文法回顾 文法的任一产生式α →β 的形式都为 A→aB或A→a,其中A ,B∈VN ,a∈VT A→Ba或A→a,其中A ,B∈VN ,a∈ VT 正规文法描述的是VT*上的正规集
编译原理第3章课后习题答案
Dtran[I,b] =ε-closure(move(I,b))= ε-closure({5, 16})=G DFA D 的转换表 Dtran NFA 状态 {0,1,2,4,7} {1,2,3,4,6,7,8} {1,2,4,5,6,7} {1,2,4,5,6,7,9} {1,2,4,5,6,7,10,11,12,13,15} {1,2,3,4,6,7,8,12,13,14,15,17,18} {1,2,4,5,6,7, 12,13,15,16,17,18} {1,2,4,5,6,7, 9,12,13,15,16,17,18} {1,2,4,5,6,7, 10,11,12,13,15,16,17,18} 可得 DFA 的如下状态转换图: DFA 状态 A B C D E F G H I a B B B B F F F F F b C D C E G H G I G
3.3.1 给出 3.2.2 中正则表达式所描述的语言的状态转换图。
(1)a( a|b )*a 的状态转换图如下:
(2)
ε
ε a
b
(3)
a
start 0
a a a
1 2
4
b a b
5
b b
3
6
7
(4)a*ba*ba*ba*
a b
a b
a b
a
3.6.3 使用算法 3.25 和 3.20 将下列正则表达式转换成 DFA: (1)
注:consonant 为除五元音外的小写字母,记号 ctnvowels 对应的定义即为题目要求的正则
定义。
(2) 所有由按字典顺序递增序排列的小写字组成的串。 a*b*……z* (3)注释,即/*和*/之间的串,且串中没有不在双引号( “)中的*/。 head——>/* tail ——>*/ * * incomment->(~(*/)|“. ”) comment->head incomment tail (9)所有由 a 和 b 组成且不含有子串 abb 的串。 * * A->b (a︱ab)
编译原理第三章语法分析
递归下降程序:
void F() { if(lookahead= =’i’) match(‘i’); else if(lookahead= =’(’) { match(‘(’); E(); if(lookahead= =’)’) match(‘)’); else error(); } else error(); }
输入串
id+id*id;# id+id*id;# id+id*id;# id+id*id;# id+id*id;# +id*id;# +id*id;#
动作
pop(L),push(E;L) pop(E),push(TE’) pop(T),push(FT’) pop(F),push(id) pop(id),next(ip) pop(T’)
形式语言分类
定义:若文法G=(N,T,P,S)的每个产生式α→β中,均有 α∈(N∪T)*N(N∪T)*,且至少含有一个非终结符, β∈(N∪T)*,则称G为0型文法(短语文法)。 ①1型文法(上下文有关文法):G的任何产生式α→β(S→ε 除外)均满足|α|≤| β| (|x|表示x中文法符号的个数); ②2型文法(上下文无关文法):G的任何产生式形如A→β, 其中A∈N,β∈(N∪T)*; ③3型文法(正规文法、线性文法):G的任何产生式形如A→a 或者A→aB(或者A→Ba),其中A,B∈N,a∈T*。
定义:将产生式A→γ的右部代替文法符号序列αAβ 中的A得到αγβ的过程,称为αAβ直接推导 出αγβ,记作:αAβαγβ。
编译原理_课件_第三章_语法分析1
11
例3.1 试构造产生标识符的文法。
I→L|LS S →T|ST T →L|D L →a|b|c|d…|z|A|B…|Z|_ D →0|1|…|9
12
例3.2 写一文法,使其语言是奇数集合,但不 允许出现以 0开头的奇数。
N →A|MA M →B|MD A →1|3|5|7|9 B →1|2|3|4|5|6|7|8|9 D →0|B
4
二、形式语言
? Chomsky于1956年提出了一种用来描述语言的数学系统。 人们把用一组数学符号 和规则来描述语言的方式称为 形式 描述,而把所用的数学符号和规则称为形式语言。
? 形式语言,只是从语法上研究语言。它是抽象的数学系统, 用于模拟程序设计语言的语法,或者是并不很成功地模拟 自然语言如英语的语法。
特定的含义。 语用—在各个记号所出现的行为中,它们的来
源、使用和影响。
3
什么是符号与字母表?
? 字母表:由若干元素(符 号、字母)所组成的有限 非空集合。常用大写英文 字母A,B… 或希腊字母Σ 表示。
? 符号:可以相互区别的记 号(元素)。
? 例如:
Σ = {0,1} V = {a, b,c…z} A={begin,if,real,end}
7
引例2
有如下规则: <标识符>→<字母> <标识符> → <标识符> <字母> <标识符> → <标识符> <数字> <字母> → A <字母> → B <字母> → C <数字> → 0 <数字> → 1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章词法分析本章将基于第二章介绍的几种典型的自动机,用自动机或表的方式实现词法分析器的设计。
词法分析器在编译器中的位置与作用如图3.1所示。
图 3.1 词法分析器在编译器中的位置与作用编译器首先识别出源程序中每个单词,然后再分析每个语句并翻译其意义。
识别单词的任务是由词法分析器(也称为扫描器——scanner)完成的。
它把识别出来的单词变成机内表示形式交给语法分析器。
3.1.单词的种类与机内表示法3.1.1.单词的种类根据单词在高级语言中的作用,可分为以下几种类型:(1)关键字:又称为基本字、语言字。
在语言中若规定不允许用关键字作标识符,又称为保留字。
如main,while,if,else,⋯等。
(2)标识符:如变量名、数组名、过程名、函数名等。
(3)常数:分为整型、实型、布尔型、字符型等。
(4)运算符:如算术运算符、逻辑运算符、关系运算符。
(5)界限符:如 ,、;、�、�、�、�、=、[、] 等。
(6)编辑符:如空格符、回车符、换行符、制表符等。
3.1.2.单词的机内表示法单词的机内表示采用如下的长度统一的二元形式(token字):(单词种别码,单词语义值)其中,(1)种别码表示单词的种类。
对单词怎样进行编码有多种方法。
基本原则是最大限度地把各个单词区别开来。
一般的方法是让每种单词对应一个整数码。
(1.1)关键字if、else、while、…,通常是一字一种,并且最好把这些关键字按字典顺序排序,然后按序编号,以便在识别出一个关键字时,可以很容易地查到它的种别码。
(1.2)各类标识符统一做为一种单词。
(1.3)常数有好几种类型,通常按类型编种别码。
(1.4)界限符和运算符通常是按一符一种来编码。
(2)单词语义值可以是下述情况之一:(2.1)语义值是单词本身符号(串)的机内编码(例如ASCII码)。
如果单词是标识符,则它的语义值是标识符自身字符串。
由于要求token的长度统一,所以需要对标识符的长度加以限制,如长度在8字符以内。
这意味着对较长的标识符需要截断。
对于常数来说,其语义值就是常数本身的二进制数值。
对于关键字、界限符之类的一字一码、一符一码的单词,由于它们的种别码已经唯一地表示了这些单词,因此,它们的语义值就不用给出。
(2.2)语义值是一指示器,它表示标识符(或常数)在符号表(或常数表)中的入口位置。
这意味着扫描器需要兼管查填符号表的工作。
对于关键字、界限符的语义值的处理同(2.1)。
为了便于扫描器在构造单词的二元式时能方便地找到该单词的种别码,需要恰当地给程序语言的单词编码,并且用合适的数据结构存贮它们。
具体情况可根据编译器的规模参考《数据结构》的有关内容。
本讲义在3.3节将给出一种简单的解决方案供参考。
3.2.词法分析器的任务扫描器的基本任务是从左向右扫描每行源程序的符号,拼成单词,换成统一的内部表示(token),然后送给语法分析程序。
具体地说:(1)组织源程序的输入。
(2)按规则拼单词,并转换成二元形式。
(单词种别码,单词自身值)(3)删除注解行。
(4)删除空格及无用符号。
(如回车符、字符常数的引号等)(5)行记数,列记数(列记数用于定位词法错误)(6)列表打印源程序(7)发现并定位词法错误(8)如果需要,还要建立符号表、常数表等表格。
分析的源程序,即词法分析器的输入是如图 3.2所示的一个简单的C语言程序。
词法分析器的输出为token串。
用到的相关的C语言的记号如表格 3.1所示。
注意:由于这里实现的编译器规模很小,为便于后面的语法分析,建议在实验中,词法分析器的输出采用符号表的形式,里面包含有识别符号的各种信息,如单词的种别码、单词的语义值、单词的行列位置等。
这个简单的C语言的主要成分有:(1)数据类型:整数、浮点数;(2)算术、逻辑表达式、关系表达式;(3)说明语句;(4)赋值语句;(5)ifelse语句;这个简单的C语言的文法如下:一、字符集的定义1.<字符集> →<字母> | <数字> | <单界符>2.<字母> →A | B | … | Z | a | b | … | z3.<数字> →0 | 1 | … | 94.<单界符> → + | - | = | ( | ) | { | } | ; | * | , |空白二、单词集定义1.<单词集> →<保留字> | <双界符> | <标识符> | <单界符> | <浮点数>2.<保留字> →void | main | int | double | if | else3.<双界符> → >= | <=4.<标识符> →参见前一部分5.<浮点数> →参见前一部分三、数据类型定义1.<简单类型> →int | double四、表达式定义1.<表达式> →<算术表达式> | <布尔表达式>2.<算术表达式> →待填(参见后面的部分)3.<布尔表达式> →待填(参见后面的部分)五、语句定义1.<程序语句> →<说明句> | <执行句>2.<说明句> →<3.<常数说明> →4.<变量说明> →<简单类型> 空白<标识符表>;5.<标识符表> →<标识符>,<标识符表>|<标识符>6.<执行句> →<赋值句> | <结构句>7.<赋值句> →<标识符> = <表达式>8.<结构句> →<if句> | <复合句>9.<if句> → if <布尔表达式> <执行句> | if <布尔表达式> <执行句> else <执行句>10.<复合句> → {<程序语句>}六、程序定义1.<程序> → void main() { <程序语句> }想一想:设计词法分析器时,需要考虑哪些问题?3.3.词法分析器的设计扫描器的设计方法:1)根据软件工程的观点,采用结构化的分析与设计方法 —— 数据流图技术。
2)有穷自动机技术。
3)正规式技术。
宏观上,采用结构化的分析与设计方法 —— 数据流图技术,在每一个处理的细节上,如识别标识符、处理注解、识别实常数等仍然采用自动机技术。
3.3.1.关于token字的设计token由两部分组成:(1)单词种别码,(2)单词语义值。
分别用token.type和token.seman 来表示。
token的数据结构用C语言描述如下:其中,单词的编码方案:(1)各类标识符统一编码为0;(2)常数按类型编种别码为:整型编码为1;实型编码为2;字符型编码为3。
(布尔型这里不考虑)(3)关键字占据的编号为4~9,按字典顺序依次存放;(4)运算符和界限符按其ASCII码值的大小从小到大排列,从10开始依次编号。
按上述方法给出的编码方案如表格 3.2所示。
在程序实现时,为方便起见,不妨采用C语言的宏定义机制。
例如:对于图 3.2中的语句:x = 3;经词法分析器后,输出为(ID, x)(ASSIGN,"=")(INT,"3") (SEMI,";"),或(0, x)(19,"=")(1,"3")(17,";")如果词法分析器的输出为符号表的话,需要对该结构体进行改进,这一部分请大家自己完成。
3.3.2.关于词法分析器的状态转换图需要分别设计能够识别标识符(包括保留字)、注释、实常数、运算符、界限符的有穷自动机,然后再把这些有穷自动机综合在一起,得到词法分析器的有穷自动机。
关于实常数、注释的DFA的状态转换图见2.2.2节。
识别具有出错转换的标识符的有穷自动机如图3.3所示:图 3.3 带有出错转换的标识符的有穷自动机关键字怎样识别呢?请大家自己想一想!首先给出NFA的形式。
词法分析器的有穷自动机的状态转换图如图 3.4所示。
图 3.4 词法分析器的有穷自动机3.4.词法分析阶段的错误处理一个好的编译程序在每次编译用户源程序时应尽量发现更多的错误,并应能准确地通知出错位置和错误类型。
词法分析阶段的错误通常有以下几种情况:(1)非法字符是指程序语言的字符集以外的字符。
例如@对C语言是非法的。
(2)单词拼错,例如doubel(关键字double之误),9A86,85.4.43。
(3)注解或字符常数不封闭,例如 / * ··· , ˊABC。
(4)变量说明有重复,例如double A; int A;。
给出错误提示时,最好指出单词出错的行、列值。
3.5.扫描器的自动生成原理UNIX系统提供了扫描器生成工具LEX。
请参阅相关资料。
3.6.一个有趣的问题有穷自动机不是仅用来描述象编译器这样比较复杂、专业性和技术性很强的非常正统的问题,我们日常生活中的许多问题你也可以试着去描述一下的,只要记住DFA关键是通过状态转换去描述问题的就可以了。
图 3.5是对大家大学生涯的一种描述,不见得准确,仅供参考。
后面也给出了该DFA的定义和相应的文法。
图 3.5M=(S,Σ,f,s0,Z),其中:S={入学,收获1,收获2,,⋯,收获n,收获Σ,毕业,Game level 1,Game level 2,⋯,Game level m,?}Σ={课程 1,课程 2,⋯,课程n,⋯,毕业设计,游戏 1,游戏2,⋯,游戏 m+1}Z={毕业,?}s0=入学f�入学,课程 1�=收获 1f�收获 n,课程n+1�=收获 n+1f�收获Σ,毕业设计�=毕业f�收获 x,游戏 1�=Game level 1f�Game level m−1,游戏 m�=Game level mf�Game level m,游戏 m+1�=?相应的文法:G=(V N,V T,P,S)V N={<入学>,<收获 1>,<收获 2>,⋯,<收获 n>,⋯,<毕业>,<GGGGGGGG ll GG llGGll 1>,<GGGGGGGG ll GG llGGll 2>,⋯,<GGGGGGGG ll GG llGGll GG>,?}V T={课程1,课程2,⋯,课程n,⋯,毕业设计,游戏1,游戏2,⋯,游戏m+1}S=<入学>产生式集合P:<入学> →课程 1 <收获 1><收获 n> →课程n+1 <收获 n+1><收获Σ> →毕业设计<毕业><收获 x> →游戏 1 <GGGGGGGG ll GG llGGll1><GGGGGGGG ll GG llGGll GG−1> →游戏 m <GGGGGGGG ll GG llGGll GG><GGGGGGGG ll GG llGGll GG> →游戏 m+1 <?>问题1.编写词法分析程序时,即使不用自动机的理论也可以写出程序,但请同学们主动应用该方法进行实践。