编译原理实验报告2-词法分析程序的设计

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验2 词法分析程序的设计
一、实验目的
掌握计算机语言的词法分析程序的开发方法。

二、实验内容
ﻩ编制一个能够分析三种整数、标识符、主要运算符和主要关键字的词法分析程序。

三、实验要求
１、根据以下的正规式,编制正规文法,画出状态图;
ﻩ标识符ﻩﻩﻩ<字母>(＜字母>｜＜数字字符>）*
ﻩ十进制整数0 | (（1|2|3|4｜５|6｜7|8|９）（０|1|2｜3|4|５|６|7｜8|9）*）八进制整数0（1|2|３|４|５｜６｜７）（0|1｜２|3｜4｜5|6|7）＊
十六进制整数0x(０|1|2｜3|4｜5|6|７｜8｜9｜ａ|b|c|d|e|f)(０|1｜2|３｜4｜５|6|7｜８|9｜a｜b|ｃ|d|e｜f）＊
运算符和界符ﻩ+ －＊/ >< = ( ) ；
ﻩﻩ关键字ﻩﻩｉf then ｅｌsｅwｈiｌe do
2、根据状态图,设计词法分析函数iｎt scaｎ( )，完成以下功能:
1）从文本文件中读入测试源代码,根据状态转换图,分析出一个单词,
2）以二元式形式输出单词<单词种类，单词属性>
其中单词种类用整数表示:
０：标识符
１:十进制整数
2:八进制整数
3:十六进制整数
运算符和界符,关键字采用一字一符，不编码
其中单词属性表示如下：
标识符,整数由于采用一类一符,属性用单词表示
运算符和界符,关键字采用一字一符,属性为空
ﻩ3、编写测试程序,反复调用函数ｓcａn( )，输出单词种别和属性。

四、实验环境
PＣ微机
DＯS操作系统或Ｗindowｓ操作系统
Tuｒbo C 程序集成环境或Ｖisｕal C++程序集成环境
五、实验步骤
1、根据正规式，画出状态转换图;
2、根据状态图,设计词法分析算法；
观察状态图,其中状态2、4、7、1０(右上角打了星号）需要回调一个字符。

声明一些变量和函数:
ch：字符变量，存放最新读进的源程序字符。

ｓtrToｋen: 字符串变量，存放构成单词符号的字符串。

GｅtChar():ﻩ子函数，将下一输入字符读到ch中，搜索指示器前移一字符位置。

GｅtBC(): 子函数，检查ch中的字符是否为空白。

若是，则调用GetChaｒ(）直至ch中进入一个非空白字符。

Concaｔ(）:ﻩ子函数，将ch中的字符连接到ｓｔｒＴｏkｅｎ之后。

IsLetter():ﻩ布尔函数，判断ch中的字符是否为字母。

ＩsＤigit(）:ﻩ布尔函数，判断ch中的字符是否为数字。

Resｅrve():ﻩﻩ整型函数，对ｓtrTｏkｅn中的字符串查找保留字表，若它是一个保留字则返回它的编码,否则返回０。

SearchOp（）: 整型函数,对ch查找运算符和界符,若它是一个运算符或界符，则返回它的编码，否则返回０。

Ｒeｔｒact（)：ﻩ子函数，将搜索指示器回调一个字符位置,将ｃh置为空白字符。

ＰrｏＥrror(）:ﻩ错误处理函数。

关键字保存在字符数组中，定义编码为相对数组首地址的位置+ 1。

保留子表顺序如下:｛if ，ｔｈen ,else ，wｈile， do｝,则相应编码为：1,2，３,4，５。

运算符和界符保存在字符数组中，编码定义与关键字相同,顺序如下：{ + ,－, *, / , > , ＜, =, (, ) ，;}，编码为：1～１0。

二元表
算法如下:
cｈ＝’‘ ; stｒTｏｋen=””;
ＧetBC（);
iｆ（IsＬｅｔter（)) {ﻩ
ｗhile(ＩsＬｅtteｒ()|| IsDｉgit(）)
{Ｃonｃat();ﻩGetChar(); }
Rｅtract(）;
Ｉf（Rｅserve())ﻩprｉntｆ("<%s , －>", strＴｏken);
ﻩeｌse pｒintf（＂<,０,％ｓ >＂, sｔrＴoｋen);
｝
ｅｌse iｆ(‘1’ < =ch&＆cｈ<=’9’){
while（ＩｓDｉgit()）
{ Cｏnｃaｔ(）;ﻩGetＣhａr(); ｝
Reｔrａct(）;
ｐriｎtf("<,1，%s>＂，strToｋen) ;
}
eｌsｅif（ch==’0’){
GetChar();
if(ｃh ＞＝‘1’＆& ｃh＜=‘7’) {
ﻩﻩﻩｗhile(ch >＝‘０’&&ch <= ‘７’)
{ Conｃａt(）；ﻩGetＣhar（); } ﻩRetｒact();
ｐｒiｎtf("<,2,%s >",sｔrToｋen) ;
}
elsｅｉｆ(ch=＝’x’）｛
ﻩGetChaｒ（);
ﻩwhｉle(IsDiｇit(）|| ch＞＝‘a’&& ｃh<=’f’）
ﻩﻩ{ Ｃoncat（）;ﻩＧｅtChaｒ(); }
Reｔｒａcｔ（);
ｐrｉntｆ（"<，3,%s>", strToken);
}
elｓe {
Ｒｅtracｔ()；
pｒiｎｔf(“<1,０> “）;
}
}
eｌsｅif(ＳearchOp（))ｐrintf("<%c,- >"，ｃh);
eｌse PｒoError();
3、采用C或C+＋语言,设计函数scan( ),实现该算法;
ﻩcｈarＧetChaｒ(FILＥ* fp) ｛//读取文件中的一个字符cｈａr ch;
ﻩch = fgetc(ｆp);
ｒeturn cｈ；
}
char GetＢC(FIＬＥ*fp) {ﻩﻩﻩﻩ//读取文件的字符直至ｃh不是空白
ﻩchar cｈ;
ﻩdo｛
ﻩﻩch = ＧetＣhar（fp);
ﻩ｝while (ch == ＇＇ |｜ch == ＇\t'｜| ｃｈ＝＝'＼n');
retｕrｎch；
}
vｏｉd Concat(char ch ,ｃhar strToken[]) { ／／将ｃh中的字符连接到strTokeｎ之后
ﻩchaｒｓｔr[2];
ﻩｓtr[0] = ch;
ｓtr[1］='\0';
strｃat（strＴokeｎ，ｓtr);
}
inｔIsLettｅr(char ch） { ﻩ//布尔函数,判断ｃｈ中的字符是否为字母,是返回１，否则返回0
ﻩint flaｇ = 0；
ﻩif（ch >= 'ａ'＆＆ch <＝＇z')
ﻩﻩflag =１;
ﻩreturn flaｇ;
}
int IsＤigit(cｈarｃh) {ﻩﻩﻩﻩ／／布尔函数,判断ｃh中的字符是否为数字,是返回1，否则返回0
ﻩint flag ＝ 0;
if (ch＞= '0＇ &&cｈ<= '9')
ﻩflag＝1；
ﻩｒeturnｆlａg;
}
int Reserve(charｓtｒTokｅn[]) {ﻩ//整型函数,对strToken中的字符串查找保留字表，若它是一个保留字则返回它的编码,否则返回０
int cｏde = 0,i；
ﻩcｈar kｅｙＷｏｒd[6][6] ={ ＂iｆ", "ｔｈen", ＂else"，"while＂, "do"};
for（i = ０; i <5; ｉ＋+) {
ﻩif（ｓtrcｍp(ｓtｒTokｅn，ｋeyWｏｒd[i])==0）｛
ﻩﻩﻩcodｅ = i+1;
ﻩﻩﻩbｒeａk;
ﻩ}
ﻩ}
ﻩreｔuｒｎ cｏdｅ;
}
inｔ SeaｒｃｈＯP(ｃhar cｈ) { ／/整型函数,对ｓtrTｏken中的字符串查找运算符和界符,若它是一个运算符或界符,则返回它的编码，否则返回0
ﻩｉnt code＝0, i;
charＯP[11］ ={ '+', '-＇，'*', '/'，＇<','>', '=＇, ＇(', '）＇, ';＇ }；
ﻩｆoｒ(i = ０; i <10; i+＋） {
ﻩif (ch == OP[ｉ]) ｛
ﻩﻩﻩcode＝ i+ 1;
bｒeak;
}
ﻩ}
retｕrｎ cｏde；
}
char Rｅtｒact(ＦILE* fp，ｃhａrｃh) {ﻩ//子函数,将搜索指示器回调一个字符位置，将ch置为空白字符
ﻩｃh＝＇ ';
ﻩfseｅk（fｐ， -1L, 1);
ﻩrｅｔurn cｈ;
}
vｏid ProＥrroｒ() ｛ﻩﻩ//错误处理函数
ﻩprintf（"输入错误！\n＂)；
reｔｕrｎ;
}
ＦIＬE*ｓcan（ＦILE* ｆp) {ﻩﻩﻩﻩﻩ//输出单个二元式
charｃh;
ﻩchar stｒTokｅn[1０]；
sｔrTokeｎ［0］ ='\0＇;ﻩﻩﻩﻩ//置stｒToken为空串
ch ＝GetBＣ(fp）; ﻩ/／先读取一个非空白的字符
ﻩif (fｅｏf(fp）) return fｐ; ﻩ／/判断文件尾，是则返回调用程序if (IsLｅtter(ch)）{ ﻩﻩﻩ//判断标识符
ﻩﻩwｈiｌe (IsＬｅtter(ch） || IsDｉgｉt(ch)）{
ﻩﻩﻩConcat（ｃh， strTｏｋeｎ）;
ﻩﻩch ＝ GeｔCｈar(fｐ);
}
ch =Retrａcｔ（fp,ｃh);
iｆ (Ｒesｅｒve（strTｏken)) {ﻩﻩﻩﻩﻩ／／判断关键字ﻩpｒintf("<％ｓ,－＞\n"， strＴokeｎ）;
ﻩ}
ﻩelｓe
ﻩﻩｐriｎtf(＂<0,%s>\n", strTokｅｎ)；
}
elｓｅif (ch>= ＇1' && ｃｈ <='９＇) ｛ﻩﻩ/／判断十进制整数ﻩﻩｗhile(IｓDiｇit(ch）) {
ﻩﻩﻩCoｎcａt(ch, sｔrＴoken);
ﻩﻩcｈ＝ GetChａr(fp）;
ﻩ}
ﻩﻩch ＝ Rｅｔract(fp, ch);
ﻩprintｆ("<1,%s>\n"，sｔrTokｅn)；
ﻩ｝
else if (ch =＝'0') { ﻩ
ﻩﻩcｈ =GｅtChａr(fp);
ﻩif (ｃh ＞= ＇1' &&ch <＝＇7＇) { ﻩﻩ//判断八进制整数
ﻩﻩwhiｌｅ（ｃh >= '０' && cｈ＜='7'）{
ﻩCoｎcat(ｃh, stｒToｋen)；
ﻩｃｈ = GeｔChａr(ｆp)；
ﻩﻩ}
ﻩﻩｃh＝ Reｔrａct（fp, ch）；
prｉnｔf("<２，%s>\n",sｔｒTｏken）;
ﻩﻩ}
ｅlｓｅiｆ（ｃｈ＝='ｘ') ｛ﻩﻩﻩ／/判断十六进制整数ﻩcｈ＝ GetChar(fp）;
ﻩﻩwhｉlｅ (IsＤｉgｉt(ch) || ch >＝'a' && ｃh＜＝'ｆ') {
ﻩﻩﻩﻩCｏncat(ch， strＴoken）;
ﻩﻩｃh= GｅtChar(fp)；
ﻩﻩ}
ｃh= Reｔｒact(fp, ｃh);
ﻩﻩｐrｉntf（"<3,%s>＼n＂, ｓtrＴoken)；
ﻩ}
ﻩﻩelｓe { ﻩﻩ//判断十进制的0
ﻩch = Ｒｅtｒact(fｐ， cｈ);
ﻩﻩprｉｎtf（"＜1,０>\n＂）;
}
ﻩ}
elｓe if (SearｃhOP(cｈ)) { //判断运算符和界符
ﻩﻩprinｔf("<%c,－>\n", ｃh）;
}
ﻩｅlsｅ {ﻩﻩﻩﻩﻩ／/出错
ﻩProError()；
ﻩ}
ﻩｒeturｎfｐ;
}
4、编制测试程序（主函数main);
#ｉnclｕde＜iｏstｒeam>
usｉng namｅspaceｓｔｄ;
#deｆine NULＬ0
iｎｔmain( ) ｛
ＦILE＊ｆp;
if(（fｐ =fopeｎ（"C：\\Users＼\Adｍiｎistｒatoｒ\＼Dｅsktop\\Ｃode．ｔxｔ＂，"r"）) == NULL) { //以只读方式打开文件,失败则退出程序
ﻩｐrｉｎtf("not opｅn!");
ﻩexit（０);
ﻩ}
prｉｎtｆ("词法分析结果如下:＼n")；
ﻩwhile (!feof(ｆp)){ /／若不是文件尾则执行循环ﻩ
ﻩfｐ = sｃaｎ(fｐ）; ﻩﻩﻩ//输出单词种类、属性的二元式
}
fclｏse(fp）;//关闭文件
ﻩfp=ＮUＬL; ﻩﻩﻩﻩﻩ//避免指向非法内存
}
5、调试程序:读入文本文件，检查输出结果。

六、测试数据
输入数据:
编辑一个文本文件pr ｏgram ．t ｘt ，在文件中输入如下内容:
ﻩ
正确结果：
if data+92>0x3f then
data=data+01; else data=data-01;
<if , ->
<0 , data> <+ , -> <1 , 92> <> , -> <3 , 3f> <then , -> <0 , data> <= , > <0 , data> <+ , -> <2 , 1> <; ,-> <else , -> <0 , data> <= , -> <0 , data> <- , -> <2 , ->
七、实验报告要求
实验报告应包括以下几个部分：
１、词法的正规式描述;
2、变换后的状态图；
3、词法分析程序的数据结构与算法。

八、思考题
1、词法分析能否采用空格来区分单词?
答：不能，因为程序的语法里有包括:’；’，‘{’，‘｝‘,‘（‘,‘）‘等界符或
连接符号存在，这些符号符与单词的连接无空格，用空格区分单词将无法保证程序语法的正确。

2、程序设计中哪些环节影响词法分析的效率？如何提高效率?
答:本程序在判断关键字时，是在完成对标志符的识别后,判断该标识符是否是保留字,若是则判断为关键字，这种情况下,导致每次识别完一个标识符,都要查询保留
字表，会影响效率，可在识别标识符的程序段中添加对关键字的识别,如首字母的
特别判断或遇到数字跳过关键字的判断等。

另外，程序的实现是通过在主函数中循环调用scan(）函数来输出二元式，一次调用就输出一个二元式，可以考虑使用堆栈,先将读来的数据压栈，再进行识别,这样比重复调用函数效率更高,而且也不必
使用文件指针来回调字节，用堆栈会更方便更安全准确,省去不少程序段。