编译原理实验报告2-词法分析程序的设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验2 词法分析程序的设计
一、实验目的
掌握计算机语言的词法分析程序的开发方法。
二、实验内容
ﻩ编制一个能够分析三种整数、标识符、主要运算符和主要关键字的词法分析程序。
三、实验要求
1、根据以下的正规式,编制正规文法,画出状态图;
ﻩ标识符ﻩﻩﻩ<字母>(<字母>|<数字字符>)*
ﻩ十进制整数0 | ((1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9)*)八进制整数0(1|2|3|4|5|6|7)(0|1|2|3|4|5|6|7)*
十六进制整数0x(0|1|2|3|4|5|6|7|8|9|a|b|c|d|e|f)(0|1|2|3|4|5|6|7|8|9|a|b|c|d|e|f)*
运算符和界符ﻩ+ -*/ >< = ( ) ;
ﻩﻩ关键字ﻩﻩif then elsewhile do
2、根据状态图,设计词法分析函数int scan( ),完成以下功能:
1)从文本文件中读入测试源代码,根据状态转换图,分析出一个单词,
2)以二元式形式输出单词<单词种类,单词属性>
其中单词种类用整数表示:
0:标识符
1:十进制整数
2:八进制整数
3:十六进制整数
运算符和界符,关键字采用一字一符,不编码
其中单词属性表示如下:
标识符,整数由于采用一类一符,属性用单词表示
运算符和界符,关键字采用一字一符,属性为空
ﻩ3、编写测试程序,反复调用函数scan( ),输出单词种别和属性。
四、实验环境
PC微机
DOS操作系统或Windows操作系统
Turbo C 程序集成环境或Visual C++程序集成环境
五、实验步骤
1、根据正规式,画出状态转换图;
2、根据状态图,设计词法分析算法;
观察状态图,其中状态2、4、7、10(右上角打了星号)需要回调一个字符。
声明一些变量和函数:
ch:字符变量,存放最新读进的源程序字符。
strToken: 字符串变量,存放构成单词符号的字符串。
GetChar():ﻩ子函数,将下一输入字符读到ch中,搜索指示器前移一字符位置。
GetBC(): 子函数,检查ch中的字符是否为空白。
若是,则调用GetChar()直至ch中进入一个非空白字符。
Concat():ﻩ子函数,将ch中的字符连接到strToken之后。
IsLetter():ﻩ布尔函数,判断ch中的字符是否为字母。
IsDigit():ﻩ布尔函数,判断ch中的字符是否为数字。
Reserve():ﻩﻩ整型函数,对strToken中的字符串查找保留字表,若它是一个保留字则返回它的编码,否则返回0。
SearchOp(): 整型函数,对ch查找运算符和界符,若它是一个运算符或界符,则返回它的编码,否则返回0。
Retract():ﻩ子函数,将搜索指示器回调一个字符位置,将ch置为空白字符。
ProError():ﻩ错误处理函数。
关键字保存在字符数组中,定义编码为相对数组首地址的位置+ 1。
保留子表顺序如下:{if ,then ,else ,while, do},则相应编码为:1,2,3,4,5。
运算符和界符保存在字符数组中,编码定义与关键字相同,顺序如下:{ + ,-, *, / , > , <, =, (, ) ,;},编码为:1~10。
二元表
算法如下:
ch=’‘ ; strToken=””;
GetBC();
if(IsLetter()) {ﻩ
while(IsLetter()|| IsDigit())
{Concat();ﻩGetChar(); }
Retract();
If(Reserve())ﻩprintf("<%s , ->", strToken);
ﻩelse printf("<,0,%s >", strToken);
}
else if(‘1’ < =ch&&ch<=’9’){
while(IsDigit())
{ Concat();ﻩGetChar(); }
Retract();
printf("<,1,%s>",strToken) ;
}
elseif(ch==’0’){
GetChar();
if(ch >=‘1’&& ch<=‘7’) {
ﻩﻩﻩwhile(ch >=‘0’&&ch <= ‘7’)
{ Concat();ﻩGetChar(); } ﻩRetract();
printf("<,2,%s >",strToken) ;
}
elseif(ch==’x’){
ﻩGetChar();
ﻩwhile(IsDigit()|| ch>=‘a’&& ch<=’f’)
ﻩﻩ{ Concat();ﻩGetChar(); }
Retract();
printf("<,3,%s>", strToken);
}
else {
Retract();
printf(“<1,0> “);
}
}
elseif(SearchOp())printf("<%c,- >",ch);
else ProError();
3、采用C或C++语言,设计函数scan( ),实现该算法;
ﻩcharGetChar(FILE* fp) {//读取文件中的一个字符char ch;
ﻩch = fgetc(fp);
return ch;
}
char GetBC(FILE*fp) {ﻩﻩﻩﻩ//读取文件的字符直至ch不是空白
ﻩchar ch;
ﻩdo{
ﻩﻩch = GetChar(fp);
ﻩ}while (ch == '' ||ch == '\t'|| ch=='\n');
returnch;
}
void Concat(char ch ,char strToken[]) { //将ch中的字符连接到strToken之后
ﻩcharstr[2];
ﻩstr[0] = ch;
str[1]='\0';
strcat(strToken,str);
}
intIsLetter(char ch) { ﻩ//布尔函数,判断ch中的字符是否为字母,是返回1,否则返回0
ﻩint flag = 0;
ﻩif(ch >= 'a'&&ch <='z')
ﻩﻩflag =1;
ﻩreturn flag;
}
int IsDigit(charch) {ﻩﻩﻩﻩ//布尔函数,判断ch中的字符是否为数字,是返回1,否则返回0
ﻩint flag = 0;
if (ch>= '0' &&ch<= '9')
ﻩflag=1;
ﻩreturnflag;
}
int Reserve(charstrToken[]) {ﻩ//整型函数,对strToken中的字符串查找保留字表,若它是一个保留字则返回它的编码,否则返回0
int code = 0,i;
ﻩchar keyWord[6][6] ={ "if", "then", "else","while", "do"};
for(i = 0; i <5; i++) {
ﻩif(strcmp(strToken,keyWord[i])==0){
ﻩﻩﻩcode = i+1;
ﻩﻩﻩbreak;
ﻩ}
ﻩ}
ﻩreturn code;
}
int SearchOP(char ch) { //整型函数,对strToken中的字符串查找运算符和界符,若它是一个运算符或界符,则返回它的编码,否则返回0
ﻩint code=0, i;
charOP[11] ={ '+', '-','*', '/','<','>', '=', '(', ')', ';' };
ﻩfor(i = 0; i <10; i++) {
ﻩif (ch == OP[i]) {
ﻩﻩﻩcode= i+ 1;
break;
}
ﻩ}
return code;
}
char Retract(FILE* fp,charch) {ﻩ//子函数,将搜索指示器回调一个字符位置,将ch置为空白字符
ﻩch=' ';
ﻩfseek(fp, -1L, 1);
ﻩreturn ch;
}
void ProError() {ﻩﻩ//错误处理函数
ﻩprintf("输入错误!\n");
return;
}
FILE*scan(FILE* fp) {ﻩﻩﻩﻩﻩ//输出单个二元式
charch;
ﻩchar strToken[10];
strToken[0] ='\0';ﻩﻩﻩﻩ//置strToken为空串
ch =GetBC(fp); ﻩ//先读取一个非空白的字符
ﻩif (feof(fp)) return fp; ﻩ//判断文件尾,是则返回调用程序if (IsLetter(ch)){ ﻩﻩﻩ//判断标识符
ﻩﻩwhile (IsLetter(ch) || IsDigit(ch)){
ﻩﻩﻩConcat(ch, strToken);
ﻩﻩch = GetChar(fp);
}
ch =Retract(fp,ch);
if (Reserve(strToken)) {ﻩﻩﻩﻩﻩ//判断关键字ﻩprintf("<%s,->\n", strToken);
ﻩ}
ﻩelse
ﻩﻩprintf("<0,%s>\n", strToken);
}
elseif (ch>= '1' && ch <='9') {ﻩﻩ//判断十进制整数ﻩﻩwhile(IsDigit(ch)) {
ﻩﻩﻩConcat(ch, strToken);
ﻩﻩch= GetChar(fp);
ﻩ}
ﻩﻩch = Retract(fp, ch);
ﻩprintf("<1,%s>\n",strToken);
ﻩ}
else if (ch =='0') { ﻩ
ﻩﻩch =GetChar(fp);
ﻩif (ch >= '1' &&ch <='7') { ﻩﻩ//判断八进制整数
ﻩﻩwhile(ch >= '0' && ch<='7'){
ﻩConcat(ch, strToken);
ﻩch = GetChar(fp);
ﻩﻩ}
ﻩﻩch= Retract(fp, ch);
printf("<2,%s>\n",strToken);
ﻩﻩ}
elseif(ch=='x') {ﻩﻩﻩ//判断十六进制整数ﻩch= GetChar(fp);
ﻩﻩwhile (IsDigit(ch) || ch >='a' && ch<='f') {
ﻩﻩﻩﻩConcat(ch, strToken);
ﻩﻩch= GetChar(fp);
ﻩﻩ}
ch= Retract(fp, ch);
ﻩﻩprintf("<3,%s>\n", strToken);
ﻩ}
ﻩﻩelse { ﻩﻩ//判断十进制的0
ﻩch = Retract(fp, ch);
ﻩﻩprintf("<1,0>\n");
}
ﻩ}
else if (SearchOP(ch)) { //判断运算符和界符
ﻩﻩprintf("<%c,->\n", ch);
}
ﻩelse {ﻩﻩﻩﻩﻩ//出错
ﻩProError();
ﻩ}
ﻩreturnfp;
}
4、编制测试程序(主函数main);
#include<iostream>
using namespacestd;
#define NULL0
intmain( ) {
FILE*fp;
if((fp =fopen("C:\\Users\\Administrator\\Desktop\\Code.txt","r")) == NULL) { //以只读方式打开文件,失败则退出程序
ﻩprintf("not open!");
ﻩexit(0);
ﻩ}
printf("词法分析结果如下:\n");
ﻩwhile (!feof(fp)){ //若不是文件尾则执行循环ﻩ
ﻩfp = scan(fp); ﻩﻩﻩ//输出单词种类、属性的二元式
}
fclose(fp);//关闭文件
ﻩfp=NULL; ﻩﻩﻩﻩﻩ//避免指向非法内存
}
5、调试程序:读入文本文件,检查输出结果。
六、测试数据
输入数据:
编辑一个文本文件pr ogram .t xt ,在文件中输入如下内容:
ﻩ
正确结果:
if data+92>0x3f then
data=data+01; else data=data-01;
<if , ->
<0 , data> <+ , -> <1 , 92> <> , -> <3 , 3f> <then , -> <0 , data> <= , > <0 , data> <+ , -> <2 , 1> <; ,-> <else , -> <0 , data> <= , -> <0 , data> <- , -> <2 , ->
七、实验报告要求
实验报告应包括以下几个部分:
1、词法的正规式描述;
2、变换后的状态图;
3、词法分析程序的数据结构与算法。
八、思考题
1、词法分析能否采用空格来区分单词?
答:不能,因为程序的语法里有包括:’;’,‘{’,‘}‘,‘(‘,‘)‘等界符或
连接符号存在,这些符号符与单词的连接无空格,用空格区分单词将无法保证程序语法的正确。
2、程序设计中哪些环节影响词法分析的效率?如何提高效率?
答:本程序在判断关键字时,是在完成对标志符的识别后,判断该标识符是否是保留字,若是则判断为关键字,这种情况下,导致每次识别完一个标识符,都要查询保留
字表,会影响效率,可在识别标识符的程序段中添加对关键字的识别,如首字母的
特别判断或遇到数字跳过关键字的判断等。
另外,程序的实现是通过在主函数中循环调用scan()函数来输出二元式,一次调用就输出一个二元式,可以考虑使用堆栈,先将读来的数据压栈,再进行识别,这样比重复调用函数效率更高,而且也不必
使用文件指针来回调字节,用堆栈会更方便更安全准确,省去不少程序段。