编译原理_-_陈火旺版_-_第三章new

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

预处理子程序
输入列表输入缓冲区
扫描器扫描缓冲区
单词符号
词法分析器的结构
编译原理
一、输入、预处理
输入串放在输入缓冲区中。
预处理子程序：剔除无用的空白、跳格、回车和换行等编辑性字符;区分标号区、捻接续行和给出句末符等
扫描缓冲区
↑
↑
起点搜索
指示器指示器
编译原理
二、单词符号的识别:超前搜索
2)对含回路的状态结，可对应一段由WHILE结构和IF语句构成的程序.
字母或数字
i 其它 j
GetChar( ); while (IsLetter( ) or IsDigit( ))
GetChar( ); …状态j的对应程序段…
输入字符串x=aababb, 是否是该文法的句子？ aa babb
SABABA Z
或写为：
(S)a→(A)a→(B)b→(A)a→(B)b→(A)b→Z Z是终止状态，所以，
输入字符串aababb是上述文法的句子。
为什么
可以通过运行状态转换图来识别正则文法的句子？
步骤当前状态输入的其余部分
Z
1
如果基本字、标识符和常数(或标号)之间没有确定的运算符或界符作间隔，则必须使用一个空白符作间隔。 DO99K=1，10 要写成 DO 99 K=1，10
编译原理
3 状态转换图的实现
思想：每个状态结对应一小段程序。
做法:
1)对不含回路的分叉结，可用一个CASE语句或一组IF-THEN-ELSE语句实现
基本字：如 begin，repeat，标识符——表示各种名字：如变量名、数组
名和过程名常数：各种类型的常数运算符：+，-，*，/，界符：逗号、分号、括号和空白
编译原理
输出的单词符号的表示形式:
(单词种别，单词自身的值)
单词种别通常用整数编码表示。
若一个种别只有一个单词符号，则种别编码就代表该单词符号。假定基本字、运算符和界符都是一符一种。
L (G ) {
|S ,
编译原理

V
* T
}
复习：程序语言的语法描述
最左推导：任何一步都是对中的最左非终结符进行替换。最右推导：任何一步都是对中的最右非终结符进行替换。
编译原理
复习：程序语言的语法描述
用一张图表示一个句型的推导,称为语法树。
E (E) (E+E) (E*E+E) (i*E+E) (i*i+E) (i*i+i)
3 常数识别: 识别出算术常数并将其转变为二进制内码
表示。有些也要超前搜索。 5.EQ.M 5.E08
4 算符和界符的识别把多个字符符合而成的算符和界符拼合成
一个单一单词符号。 :=， **， .EQ. ， ++，--，>=
编译原理
三、状态转换图
1 概念
状态转换图是一张有限方向图。
结点代表状态，用圆圈表示。 X
A 仅当A 是一个产生式，且， (VT VN)* 。
如果1 2 n，则我们称这个序列是从1到n的一个推导。若存在一个从 1到n的推导，则称1可以推导出n 。
编译原理

通一常步，或用若干 1步，可n 表以示推：出从n。1出发，经过
形式语言鸟瞰 2型(上下文无关文法，非确定下推自动机)：
产生式形如： A 其中：A VN； (VT VN)*。
3型(正规文法，有限自动机)：产生式形如： A B 或 A 产其生中式：形如V：T*A；A，BB或VNA 其中： VT*；A，BVN
-
(
13
$LPAR
-
)
14
$RPAR
-
编译原理
空白字母
0 数字 = + *
, ( ) 其它
字母或数字
非字母与数字 1
数字
3
非数字
5
6 非*
7 *
10
11 12
13 编译原理
* 2 4*
* 8 9
几点重要限制——不必使用超前搜索
所有基本字都是保留字;用户不能用它们作自己的标识符
基本字作为特殊的标识符来处理;不用特殊的状态图来识别，只要查保留字表。
E (E) (E+E) (E+i) (E*E+i) (E*i+i) (i*i+i)
编译原理
复习：程序语言的语法描述
定义：如果一个文法存在某个句子对应两颗不同的语法树，则说这个文法是二义的。
语言的二义性：一个语言是二义性的，如果对它不存在无二义性的文法。
编译原理
复习：程序语言的语法描述
若一个种别有多个单词符号，则对于每个单词符号，给出种别编码和自身的值。
标识符单列一种；标识符自身的值表示成按机器字节划分的内部码。
常数按类型分种；常数的值则表示成标准的二进制形式。
编译原理
例 C程序
while (i>=j) i--;
输出单词符号：
< while, - > < (, - > < id, 指向i的符号表项的指针 > < >=, - > < id, 指向j的符号表项的指针 > < ), - > < id, 指向i的符号表项的指针 > < --, - > < ;, - >
复习：程序语言的语法描述
几个概念:
考虑一个有穷字母表∑ 字符集其中每一个元素称为一个字符 ∑上的字(也叫字符串) 是指由∑中的字符所构
成的一个有穷序列不包含任何字符的序列称为空字，记为ε 用∑*表示∑上的所有字的全体,包含空字ε
编译原理
复习：程序语言的语法描述
∑*的子集U和V的连接（积）定义为
1 基本字识别(没有分隔符时) 例如: DO99K=1，10 DO 99 K = 1，10 IF(5.EQ.M)GOTO55 IF (5.EQ.M) GOTO 55 DO99K=1.10 IF(5)=55 需要超前搜索才能确定哪些是基本字
编译原理
2 标识符识别: 字母开头的字母数字串，后跟界符或算符
编译原理
例 FORTRAN程序
IF (5.EQ.M) GOTO 100
输出单词符号：
逻辑IF (34，-)
左括号 (2，-)
整常数 (20， ‘5’的二进制)
等号
(6，-)
标识符 (26， ‘M’)
右括号 (16，-)
GOTO
(30，-)
标号
(19， ‘100’的二进制)
编译原理
二、词法分析器作为一个独立子程序
3. 应用状态转换图来识别句子一般的识别步骤如下：
步骤1 从开始状态开始，以它作为当前状态，并从输入字符串x的最左字符开始，重复步骤2直到达到x的右端为止。
步骤2 扫描x的下一字符(当前字符)，在当前状态射出的各个弧中找出标记有该字符的弧，并沿此弧前进，以所达到的状态作为下一当前状态。
假定有输入字符串aababb，要识别它是否是其句子。
*
用 1 n 表示：从1出发，经过0步或
若干步，可以推出n。
*

所以：即或
定义：假定G是一个文法，S 是它的开始符号。
如号果的句S型是*一个，句则子。称文是法一G个所句产型生。的仅句含子终的结全符
体是一个语言，将它记为 L(G)。

词法分析是作为一个独立的阶段，是否应当将其处理为一遍呢？
作为独立阶段的优点：结构简洁、清晰和条理化，有利于集中考虑词法分析一些枝节问题。
不作为一遍：将其处理为一个子程序。
编译原理
词法分析器
单词符号
源程序词法分
语法分
析器
析器
...
取下一单词
符号表
编译原理
3.2 词法分析器的设计
N
出口
取符号
L,D
Y
Y
L N D N 出口
抽象成：
S L I 其他 E 称状态转换图
引进目的：识别正则文法的句子。状态转换图：为识别正则文法的句子专门设计的有向图。
一个状态转换图可用于识别(或接受)一定的字符串。(由句子归约到开始符号)
数字
数字
其他
*
1
2
3
识别整常数的状态转换图
字母或数字
字母
形式语言鸟瞰
0型(短语文法，图灵机)：
产生式形如：其中： (VT VN)*且至少含有一个非终结符； (VT VN)*
1型(上下文有关文法，线性界限自动机)：
产生式形如：其中：|| ||，仅 S 例外。
编译原理
复习：程序语言的语法描述
运行状态转换图：利用状态转换图识别正则文法句子的过程。
例正则文法G[Z]：
Z∷=Za｜Aa｜Bb
A∷=Ba｜a
B∷=Ab｜b
A
a
a
S
ba
b
b
B
输入字符串：ababaaa
Za
当识别一个字符串x时，如果能从状态转换图的开始
状最态后出的发当ZA，前∷∷行状==进态ZBa达为b｜到终｜A止xab的状｜右态B端。a, x为句子的充分必要条件是 B∷=Aa｜b
S
aababb
A
2A
ababb
B
3B
babb
A
4A
abb
B
5B
bb
A
6A
b
a a ba b b
7Z
4. 应用状态转换图为正则语言构造正则文法例正则语言｛(ab)nb2｜n≥0｝
a b a b a …b b S A B E F …C Z
或
a b bb S ABCZ
a b
因此，G[Z]： Z ∷= Cb
因此用助忆符来表示编码。
编译原理
单词符号种别编码助忆符
内码值
DIM
1
$DIM
-
IF
2
$IF
-
DO
3
$DO
-
STOP
4
$STOP
-
END
5
$END
-
标识符
6
$ID
内部字符串
常数(数)
7
$INT 标准二进制形式
=
8
$ASSIGN
-
_
9
$PLUS
-
*
10
$STAR
-**11来自$POWER-
，
12
$COMMA
其他
*
1
2
3
识别标识符的状态转换图
编译原理
例正则文法G[Z]：
Z∷=Za｜Ab｜Ba
A∷=Bb｜a
B∷=Aa｜b
A
a
b
S
a
b
b
Za
a
B
2. 状态转换图的构造设N为非终结符号，T为终结符号，状态转换图构造步骤如下：
步骤1 以符号S为开始状态作结点(假定文法的字汇表中不包含符号S)；
步骤2 以每一个非终结符号为状态作结点；步骤3 开始符号为终止状态; 步骤4 对于形如Q∷=T的每个规则，引一条从开始状态S到状态Q的弧，其标记为T；而对形如Q∷=NT的规则引一条从状态N到Q的弧，其标记为T。
状态之间用箭弧连结，箭弧 1
2
上的标记(字符)代表射出结状态下可能出现的输入字符
Y 3
或字符类。
一张转换图只包含有限个状态，其中有一个为初态，至少要有一个终态。
编译原理
正则表达式与有穷状态自动机状态转换图 1. 状态转换图的引进
<id>::=L | <id>L | <id>D
入口
Y
L
字母 j
i 数字 k
\
l
GetChar( ); if (IsLetter( )) {…状态j的对应程序段…;} else if (IsDigit( )) {…状态k的对应程序段…;} else if (ch=‘/’) {…状态l的对应程序段…;} else {…错误处理…;}
编译原理
3 状态转换图的实现
UV＝{ | U & V }
V自身的 n次积记为 Vn=VV…V
规定V0={}，令 V*=V0∪V1∪V2∪V3∪…
称V*是V的闭包;
记 V＋＝VV* ，称V+是V的正规闭包。
编译原理
复习：程序语言的语法描述
上下文无关文法的定义：一个上下文无关文法G是一个四元式
G=(VT，VN，S，P)，其中
VT：终结符集合(非空) VN：非终结符集合(非空)，且VT VN= S：文法的开始符号，SVN P：产生式集合(有限)，每个产生式形式为
P， PVN， (VT VN)*
开始符S至少必须在某个产生式的左部出现一次。
编译原理
复习：程序语言的语法描述
定义：称A直接推出，即
编译原理
第三章词法分析
词法分析的任务：从左至右逐个字符地对源程序进行扫描，产生一个个单词符号。
词法分析器(Lexical Analyzer) 又称扫描器(Scanner)：执行词法分析的程序
编译原理
3.1 对于词法分析器的要求
一、词法分析器的功能和输出形式功能:输入源程序、输出单词符号单词符号的种类：
B ∷= Ab
C ∷= Bb | b A ∷= a | Ba
｛ai bj｜i, j≥1｝
a
b
Sa A b Z
G[Z]: Z::=Ab|Zb A::=a|Aa
｛ai bj ck｜i, j, k≥1｝
a
b
Sa A bB
c c
Z
G[Z]: Z::=Bc|Zc B::=Ab|Bb
A::=a|Aa
2 例子助忆符：直接用编码表示不便于记忆，