《编译原理》实验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《编译原理》实验
《编译原理》是国内外各高等院校计算机科学技术类专业,特别是计算机软件专业的一门重要专业课程。
该课程系统地向学生介绍编译程序的结构、工作流程及编译程序各组成部分的设计原理和实现技术。
由于该课程理论性和实践性都比较强,内容较为抽象复杂,涉及到大量的软件设计算法,因此,一直是一门比较难学的课程。
为了使学生更好地理解和掌握编译技术的基本概念、基本原理和实现方法,实践环节非常重要,只有通过上机进行程序设计,才能使学生对比较抽象的教学内容产生具体的感性认识,增强学生综合分析问题、解决问题的能力,并对提高学生软件设计水平大有益处。
本实验内容可在《编译原理》课程教学的同时,安排学生进行相关的实验。
实验平台可选择在MS-DOS或Windows操作系统环境,使用C/C++的任何版本作为开发工具。
学生在做完试验后,应认真撰写实验报告,内容应包括实验名称、实验目的、实验要求、实验内容、测试或运行结果等。
实验一词法分析
1.实验目的
对C语言的一个子集设计并实现一个简单的词法分析器,掌握利用状态转换图设计词法分析器的基本方法。
2.实验要求
利用该词法分析器完成对源程序字符串的词法分析。
输出形式是源程序的单词符号二元式的代码,并保存到文件中。
3.实验内容
(1) 假设该语言中的单词符号及种别编码如下表所示。
(2) 关键字main int char if else for while都是小写并都是保留字。
算符和界符= + -* / & <<=>>===!=&& || , : ; { } [ ] ( ) ID和NUM的正规定义式为:
ID→letter(letter | didit)*
NUM→digit digit*
letter→a | … | z | A | … | Z
digit→ 0 | … | 9
如果关键字、标识符和常数之间没有确定的算符或界符作间隔,则至少用一个空格作间隔。
空格由空白、制表符和换行符组成。
(3) 设计词法分析器的步骤:
①首先根据上面单词符号表及ID和NUM的正规定义式,构造出状态转换图;
②定义相关的变量和数据结构。
关键字作为特殊标识符处理,把它们预先安排在一
张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。
如能查
到匹配的单词,则该单词为关键字,否则为一般标识符。
关键字表为一个字符串
数组,其描述如下:
char *KEY_WORDS[7]={″main″,″int″,″char″,″if″,″else″,″for″,″while″};
用以存放单词符号二元式的数据结构可如下定义:
#define MAXLENGTH 255 /* 一行允许的字符个数 */
union WORDCONTENT { /* 存放单词符号的内容 */
char T1[MAXLENGTH];/* 存放标识符及由两个(以上)字符组成的符号 */
int T2; /* 存放整型常数的拼数 */
char T3; /* 存放其他符号 */
};
typedef struct WORD { /* 单词符号二元式 */
int code; /* 存放种别编码 */
union WORDCONTENT value;
} WORD;
③按照编译程序一遍扫描的要求,把词法分析器Scaner作为一个独立的子程序来
设计,通过对Scaner的反复调用识别出所有的单词符号;
④当Scaner识别出一个单词符号时,则将该单词符号的二元式写入到输出文件中。
若Scaner无法识别出一个单词符号时,则调用错误处理程序PrintError,显示当
前扫描到的字符及其所在行、列位置,并跳过该字符重新开始识别单词符号。
(4) 测试该设计词法分析器,可对下面的源程序进行词法分析:输出如下二元式代码序列: main()
{
int i = 10;
while(i) i = i - 1;
}
输出如下二元式代码序列:
(1,main) (26,() (27,)) (30,{) (2,int) (10,i) (21,=) (20,10) (34,;)
(7,while) (26,() (10,i) (27,)) (10,i) (21, =) (10,i) (23,-) (20,1) (34,;)
(31,})
实验二NFA的确定化
1.实验目的
设计并实现将NFA确定化为DFA的子集构造算法,从而更好地理解有限自动机之间的等价性,掌握词法分析器自动产生器的构造技术。
该算法也是构造LR分析器的基础。
2.实验要求
设计并实现计算状态集合I的ε闭包的算法ε_Closure(I)和转换函数Move(I,a),并在此基础上实现子集构造算法Subset_Construction。
利用该从NFA到DFA的转换程序Subset_Construction,任意输入一个NFA N=(S,Σ,δ,s0,F),输出一个接收同一语言的DFA M=(S’,Σ,δ’,s0’,F’)。
3.实验内容
(1)令I是NFA N的状态集S的一个子集,I的ε闭包的ε_Closure(I)构造规则如下:
(a)若s∈I,则s∈ε_Closure(I);
(b)若s∈ε_Closure(I)且δ(s, ε)=s’而s’∉ε_Closure(I) ,则s’∈ε
_Closure(I)
根据上面的规则,下面给出了一个计算I的ε闭包的算法ε_Closure(I)。
SET S;
SETε_Closure(input)
SET *input;
{
S=input; /* 初始化 */
push(); /* 把输入状态集中的全部状态压入栈中 */
while(栈非空){
Nfa_state i;
pop(); /* 把栈顶元素弹出并送入i */
if(存在δ(i, ε)=j)
if(j不在S中) {
把i加到S中;
把j压入栈中;
}
}
return S; /* 返回ε_Closure(input)集合 */
}
完成上述算法的设计。
(2)令I是NFA N的状态集S的一个子集,a∈Σ, 转换函数Move(I,a)定义为:
Move(I,a)= ε_Closure(J)
其中,J={s’|s∈I且δ(s,a)=s’}
转换函数Move(I,a)的设计通过调用ε_Closure(input)实现,完成该函数的设计。
(3)从NFA N构造一个与其等价的DFA M的子集构造算法,就是要为DFA M构造状态转
换表Trans,表中的每个状态是NFA N状态的集合,DFA M将“并行”地模拟NFA N 面对输入符号串所有可能的移动。
下面给出了子集构造算法Subset_Construction 的框架,请完成其设计过程。
有关数据结构:
States[] 是一个M的数组,每个状态有两个域,set域存放N的状态集合,
flg域为一标识。
Trans[] 是M的转移矩阵(输入字母表Σ元素个数×最大状态数),
Trans[i][a]=下一状态。
i M的当前状态号
a 输入符号,a∈Σ
Nstates[] M的下一新状态号
S 定义M的一个状态的N的状态集
初始化:
States[0].set=ε_Closure({N的初态})
States[0].flg=FALSE
Nstates=1
i=0
S=Ф
Trans初始化为无状态’-’
while(States[i]的flg为FALSE){
States[i].flg=TRUE;
for(每个输入符号a∈Σ){
S=ε_Closure(Move(States[i].set,a));
if(S非空)
if(States中没有set域等于 S的状态){
States[Nstates].set=S;
States[Nstates].flg=FALSE;
Trans[i][a]= Nstates++;
}
else
Trans[i][a]= States中一个set域为S的下标;
}
}
此算法的输出M主要由Trans矩阵描述,其中省略了每个状态是否为终态的描述,应加以完善。
(4)测试用例
NFA N的初态为12,DFA M的初态为ε_Closure({12})。
DFA M的状态转换图如下。
实验三非递归预测分析
1.实验目的
设计一个非递归预测分析器,实现对表达式语言的分析,理解自上而下语法分析方法的基本思想,掌握设计非递归预测分析器的基本方法。
2.实验要求
建立文法及其LL(1)分析表表示的数据结构,设计并实现相应的预测分析器,对源程序经词法分析后生成的二元式代码流进行预测分析,如果输入串是文法定义的句子则输出“是”,否则输出“否”。
3.实验内容
(1)文法描述及其LL(1)分析表
表达式语言(XL)的语法规则如下:
1.程序→表达式;
2. |表达式;程序
3.表达式→表达式 + 项
4. |项
5.项→项 * 因式
6. |因式
7.因式→ num_or_id
8. |(表达式)
将该语言的文法转换为如下的LL(1)文法:
1prgm → expr;prgm’ 8 term → factor
term’
2prgm’→ prgm 9 term’→ *factor term’
3prgm’→ε 10 term’→ε
4expr → term expr’ 11 factor → (expr)
5expr →ε 12 f actor → num
6expr’→ +term expr’ 13 system_goal → prgm
7expr’→ε
该LL(1)文法的LL(1)分析表如下:
(2)文法及其LL(1)分析表的数据结构
文法的产生式可用数组Yy_pushtab[]存放。
数组的第一个下标是产生式号,第一个产生式的序号为0;每列按逆序存放该产生式右部各符号的常数值,并以0结束。
对于该表达式语言XL的LL(1)分析表,可用数组Yy_d[]存放。
第一个下标是非终结符数值,第二个下标是终结符数值,数组元素的值为:0(表示接受),1(表示产生式号),-1(表示语法错)。
数组Yy_pushtab[]的具体内容及表示如下:
数组Yy_d[]的具体内容及表示如下:
0 1 2 3 4 5 6
rgm 256
prgm’ 257
expr 258
expr’ 260
factor 261
term’ 262
system_goal 263
(3)预测分析器总控程序结构
预测分析器总控程序使用上面的两个表Yy_pushtab、Yy_d和一个分析栈(元素类型为int),其结构如下:
初始化;/* 把开始符号的常数值压入分析站,输入指向第一个输入符号 */ while(分析栈非空) {
if(栈顶常数表示一个终结符)
if(该常数与输入符号的常数不等)
报语法错;
else {
把一个数从栈顶弹出;
advance读下一输入符号;
}
else { /* 栈顶的常数表示一个非终结符 */
what_to_do=Yy_d[栈顶常数][当前输入符号的常数];
if(what_to_do= = -1)
报语法错;
else {
把栈顶元素弹出栈;
把Yy_pushtab[what_to_do]中列出的全部常数压入分析栈;
}
}
}
请实现该程序。
在程序中添加输出栈内容的功能,以便和手工模拟分析过程作比较。
(4)用预测分析器和手工模拟两种方式对文法的句子1+2;进行分析。
综合分析过程可用下表表示。
实验四LR分析
1.实验目的
设计一个LR分析器,实现对表达式语言的分析,加深对LR语法分析方法的基本思想的理解,掌握LR分析器设计与实现的基本方法。
2.实验要求
建立文法及其LR分析表表示的数据结构,设计并实现一个LALR(1)的分析器,对源程序经词法分析后生成的二元式代码流进行分析,如果输入串是文法定义的句子则输出“是”,否则输出“否”。
3.实验内容
(1)文法描述及其LALR(1)分析表
描述表达式语言的文法G如下:
0.S → E
1. E → E+T
2. E → T
3.T → T*F
4.T → F
5. F → (E)
6. F → ID
该文法的LALR(1)分析表如下:
(2)LR分析器总控程序框架如下:
push(0);
advance();
while(Action[tos][sym]!=accept)
if(Action[tos][sym]= =’-’)
error();
else
if (Action[tos][sym]= =SN) {
push(N);
advance();
}
else if(Action[tos][sym]= =RN){
act(N);
pop(产生式N的右部的符号个数);
push(Goto[新tos][ 产生式N的左部符号]); accept();
上述算法中的有关函数与符号的意义如下:
accept() 返回成功状态,LR分析器停止工作
act(N) 执行利用产生式N的归约的动作,通常为产生代码
advance() 丛输入流读下一单词到sym
error() 出错处理
pop(N) 从栈顶弹出N个符号(状态)
push(N) 把状态N压入状态栈
sym 当前输入的单词符号
tos 栈顶状态号
(3)存放LR分析表的数据结构
①实现方法一:用一个二维整数数组表示
数组元素为表示动作的整数。
数组的行下标为状态号,列下标用来表示终结符与非终结符的整数表示。
数组元素可作如下约定:
正整数:表示移进动作,如S6用数6表示;
负整数:表示归约动作,如R5用数-5表示;
0:表示接受,通常为按产生式0归约;
状态号也用整数表示;
用不可能是状态号的较大的整数表示错误转移。
请将上述LALR(1)分析表用这种表示方法,完成LR分析器的程序设计,并添加输出状态栈内容的功能。
用上述表达式文法G的一个句子作为输入,进行测试。
②实现方法二:采用压缩表示法
动作Action表的每一行用一个数组表示,数组的第一个元素是本数组中存放的数偶个数,第二个元素到最后一个元素都以[终结符,动作]的数偶的形式存放。
再用一个以状态号为下标的下标数组,每个元素含一个指向数偶数组的指针。
若数
组元素的值为NULL,则表示从此状态无转移弧发出。
若分析表有几行相同,则只
需保存一行,其它元素则都指向存放这一行表的数组即可。
转移Goto表也按同样
方式组织,只是这个行数组的数偶为[非终结符,下一状态号]。
每个行数组Yyan表示动作表Yy_action的一行,每个行数组Yygn表示转移表Yy_goto的一行。
假定上述表达式文法G中终结符及非终结符的整数值为:终结符: # ID + * ( ) 非终结符: S E T F
整数值: 0 1 2 3 4 5 整数值: 0 1 2 3 Yy_action数组是以状态号为下标的下标数组,每个元素含有指向数组Yyan的指针;下标数组Yy_goto的每个元素含有指向数组Yygn的指针。
表达式文法G的LALR(1)分析表的具体压缩表示如下:
Yy_action
11
Yy_goto
以上分析表用C 语言程序描述如下:
/*
* Yy_action 表
*/
int Yya000[]={2,4,2,1,1};
int Yya001[]={4,5,-6,3,-6,2,-6,0,-6}; int Yya003[]={2,0,0,2,7};
int Yya004[]={4,5,-2,2,-2,0,-2,3,8}; int Yya005[]={4,5,-4,3,-4,2,-4,0,-4};
int Yya006[]={2,5,9,2,7};
int Yya009[]={4,5,-5,3,-5,2,-5,0,-5};
int Yya010[]={4,5,-1,2,-1,0,-1,3,8};
int Yya011[]={4,5,-3,3,-3,2,-3,0,-3};
int Yy_action[]=
{
Yya000, Yya001, Yya000, Yya003, Yya004, Yya005,
Yya006, Yya000, Yya000, Yya009, Yya010, Yya011
};
/*
* Yy_goto表
*/
int Yyg000[]={3,3,5,2,4,1,3};
int Yyg002[]={3,3,5,2,4,1,6};
int Yyg007[]={2,3,5,2,10};
int Yyg008[]={1,3,11};
int Yy_goto[]=
{
Yyg000, NULL, Yyg002, NULL, NULL, NULL,
NULL, Yyg007, Yyg008, NULL, NULL, NULL
};
/*
* 为了进行归约,使用一个Yy_lhs[]数组,其值为代表产生式左部符号的
* 整数,数组的下标为产生式号
*/
int Yy_lhs[7]=
{
/* 0 */ 0,
/* 1 */ 1,
/* 2 */ 1,
/* 3 */ 2,
/* 4 */ 2,
/* 5 */ 3,
/* 6 */ 3
};
/*
* Yy_reduce[]数组元素的值为产生式右部符号的个数,
* 以产生式号为数组的下标索引
*/
int Yy_reduce[]=
{
/* 0 */ 1,
/* 1 */ 3,
/* 2 */ 1,
/* 3 */ 3,
/* 4 */ 1,
/* 5 */ 3,
/* 6 */ 1
};
根据以上数组结构,构造函数Yy_next(),其功能是在给定状态和输入符号下,求出应采取的动作或转向的下一状态。
int Yy_next(table,cur_state,symbol)
int **table; /* 要查的表 */
int cur_state; /* 行号 */
int symbol; /* 列号 */
{
int *p=table[cur_state];
int i;
if(p)
for(i=(int)*p++ ; --i>0 ; p+=2)
if(symbol = = p[0])
return(p[1]);
return YYF; /* 出错指示 */
};
指针p指向Yyan数组或Yygn数组,由参数table的值而定。
如果table指向Yy_action,则p指向Yyan数组;若table指向Yy_goto,则p指向Yygn数组据。
根据上述LALR(1)分析表压缩表示方法,完成LR分析器的程序设计,并添加输出状态栈内容的功能。
用上述表达式文法G的一个句子作为输入,进行测试。
实验五语义分析和中间代码生成
1.实验目的
通过设计一个简单的语义分析和中间代码生成器,加深对语法制导翻译方法的理解,掌握将语法分析所识别的语法范畴变换为中间代码的语义翻译方法。
2.实验要求
采用递归下降语法制导翻译方法,构造语义分析和中间代码生成器,实现对算术表达式、赋值语句、条件语句、循环语句进行语义分析,生成四元式中间代码的序列。
3.实验内容
(1)待分析的语言为C语言的一个子集,其文法用扩充的BNF描述如下:程序→ main( ) 语句块
语名块→′{′语句串′}′
语句串→语句 { ;语句 } ;
语句→赋值语句 | 条件语句 | 循环语句
赋值语句→ ID = 表达式
条件语句→ if (条件)语句块
循环语句→ while(条件)语句块
条件→表达式关系运算符表达式
表达式→项 { + 项 | - 项 }
项→因子 { * 因子 | / 因子 }
因子→ ID | NUM |(表达式)
关系运算符→ < | <= | > | >= | == | !=
上面语名块产生式中的{和}是终结符号,加引号以示区别。
(2)通过为上面文法中的每一个非终结符构造一个递归子程序,设计一个递归下降分析器。
(3)在条件、表达式、赋值语句、条件语句、循环语句的递归子程序中,加入语义分析和生成四元式的代码。
构造下面的语义过程:
int gen(op,arg1,arg2,result)
该函数是将四元式(op, arg1,arg2,result)送到四元式表中。
char * newtemp( )
该函数回送一个新的临时变量名,临时变量名产生的顺序为T1,T2……
int merg(p1,p2)
该函数将以p1和p2为头指针的两条四元式链合并为一条链,合并后的链首为返
回值。
int bp(p,t)
该函数的功能是把指针p所链接的每个四元式的第四区段都填为t。
(4)实验的输入和输出
输入是语法分析提供的正确的单词串,输出是四元式序列。
例如,对于语句串
i = 2 * 3 + 4;
if ( i>8 ) j = 10;
while( j>0){
k = k + 1;
j = j - 1;
}
输出的四元式序列如下:
1.(*,2,3,T1)
2.(+,T1,4,T2)
3.(=,T2,,i)
4.(j>,i,8,6)
5. (j,,,7)
6.(=,10,,j)
7.(j>,j,0,9)
8.(j,,,14)
9.(+,k,1,T3)
10.(=,T3,,k)
11.(-,j,1,T4)
12.(=,T4,,j)
13.(j,,,7)
14.……
实验六基于DAG的基本块优化
1.实验目的
了解基本块的DAG表示及其应用,掌握局部优化的基本方法。
2.实验要求
设计一个转换程序,把由四元式序列表示的基本块转换为DAG,并在构造DAG的过程中,进行合并已知量、删除无用赋值及删除公共子表达式等局部优化处理。
最后再从所得到的DAG出发,按原来生成DAG各个结点的顺序,重建四元式序列形式的基本块。
3.实验内容
(1)DAG的结点类型只考虑0型、1型和2型,如下表所示。
(2)由基本块构造DAG算法如下:
while(基本块中还有未处理过的四元式) {
取下一个四元式Q;
newleft=newright=0;
if(getnode(B)= =NULL){
makeleaf(B);
newleft=1;
}
switch(Q的类型){
case 0 : n= getnode(B);
insertidset(n,A);
break;
case 1: if(isconsnode(B)){
p=calcons(Q.op,B);
if(newleft= =1) /* getnode(B)是处理Q时新建结点 */
delnode(B);
if((n=getnode(p))= =NULL){
makeleaf(p);
n=getnode(p);
}
} else{
if((n=findnode(Q.op,B))= =NULL)
n=makenode(Q.op,B);
}
insertidset(n,A);
break;
case 2: if(getnode(C)= =NULL){
makeleaf(C);
newright=1;
}
if(isconsnode(B) && isconsnode(C)){
p=calcons(Q.op,B,C);
if(newleft= =1) /* getnode(B)是处理Q时新建结点 */
delnode(B);
if(newright= =1) /* getnode(C)是处理Q时新建结点 */
delnode(C);
if((n=getnode(p))= =NULL){
makeleaf(p);
n=getnode(p);
}
} else{
if((n=findnode(Q.op,B,C))= =NULL)
n=makenode(Q.op,B,C);
}
insertidset(n,A);
break;
}
}
上述算法中应设置如下的函数:
getnode(B) :返回B(可以是标记或附加信息)在当前DAG中对应的结点号。
makeleaf(B):构造标记为B的叶子结点。
isconsnode(B):检查B对应的结点是否为标记为常数的叶子结点。
calcons(Q.op,B):计算op B 的值(即合并已知量)。
它的另一种调用形式是 calcons(Q.op,B,C),计算B op C 的值。
delnode(B):删除B(结点的标记)在当前DAG中对应的结点。
findnode(Q.op,B):在当前DAG中查找并返回这样的结点:标记为op,后继
为getnode(B)(即查找公共子表达式op B)。
它的另一种调用
形式是findnode (Q.op,B,C) (即查找公共子表达式B op C)。
makenode(Q.op,B,C):构造并返回标记为op,左右后继分别为getnode(B)、
getnode(C)的内部结点。
insertidset(n,A):若getnode(A)=NULL,则把A附加到结点n;否则,若A
在getnode(A)的附加标识符集中,且getnode(A)无前驱或虽
有前驱但getnode(A) 附加标识符集中符号数大于1,则把A
从getnode(A)的附加标识符集中删除(即删除无用赋值)。
请实现上述基本块的DAG构造算法,并添加从所得DAG按原来生成DAG各个结点的顺序,重建四元式序列的功能。
(3)测试用例
用下面的基本块作为输入:
(1) T1 = A * B
(2) T2 = 3 / 2
(3) T3 = T1 ― T2
(4) X = T3
(5) C = 5
(6) T4 = A * B
(7) C = 2
(8) T5 = 18 + C
(9) T6 = T4 * T5
(10) Y = T6
基本块的DAG如下:
⑤T3,X
―
⑨T6,Y
③T1,T4 *
*
①②④T2⑧T5⑥⑦C
A B 1.5 20 5 2
按生成DAG各个结点的顺序,重建四元式序列如下:
(1) T1 = A * B
(2) T2 = 1.5
(3) T3 = T1 ― 1.5
(4) X = T3
(5) T4 = T1
(6) C = 2
(7) T5 = 20
(8) T6 = T1 * 20
(9) Y = T6。