词法分析器
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验二词法分析器
一、实验要求
为给定编程语言设计词法分析器
二、实验材料
1、单词结构
∙注释:以“//”开头到该行尾部为注释
∙关键字(共6个):int real if then else while
∙标识符:以字母开头,后跟字母或数字的符号串,最长为64个字符。(注意:关键字不是标识符)∙操作符(共11个):+ - / * = == < <= > >= !=
∙分隔符(共5个):( ) { } ;
∙数字(用正规式描述):
digit ← 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
整数← digit+ (最大整数为231)
exponent ← E ( + | - | ε ) digit+ (最大指数为128)
fraction ← . digit+
实数← digit+ exponent | digit+ fraction ( exponent | ε )
2、词法分析器要求
将词法分析部分设计为一个子程序(以备随后的语法分析器调用)。
输入:input.txt,其内容为指定编程语言的一段程序代码。
输出:output.txt,其内容为四元组形式(单词类型,单词本身,行号,列号),output文件中的每一行对应一个单词的信息。四元组形式中,第一项为单词类型,第二项为单词本身,第三项为单词所在的行号,第四项为单词所在的列号。
注意:词法分析器需要滤掉注释,即在词法分析过程中遇到注释则跳过,继续分析随后的单词信息,词法分析器的输出信息中不含注释。
三、实验提示
1、对于设计词法分析器来说,首先应明确词法分析器是做什么的,然后进行分析和设计,
最后编程实现并测试。即先分析问题,再想解决问题的办法,然后再着手解决问题。2、编程实现词法分析器后,是否进行了测试?特别是,你设计的词法分析器能否滤掉注
释?能否识别小数?
3、在进行词法分析时,会遇到什么样的错误?词法分析器能否识别这些错误?当遇到这些
错误后,词法分析器如何继续进行分析?
四、实验提交资料
1、词法分析器设计思路.doc,其内容包含各类单词的DFA描述、词法分析器的处理流程
等;
2、词法分析器源程序;
3、测试输入文件input.txt及词法分析输出文件output.txt。
这三类资料打包,文件名命名为“学号姓名实验二”,上交至邮箱:tlf1220@。
DO IT YOURSELF – CHEATING WILL BE PUNISHED
词法分析程序参考文档
一、实验目的
设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。
二、实验要求
2.1 待分析的简单的词法
(1)关键字:
begin if then while do end
所有的关键字都是小写。
(2)运算符和界符
:= + - * / < <= <> > >= = ; ( ) #
(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:
ID = letter (letter | digit)*
NUM = digit digit*
(4)空格有空白、制表符和换行符组成。空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。
2.2 各种单词符号对应的种别码:
输入:所给文法的源程序字符串。
输出:二元组(syn,token或sum)构成的序列。
其中:syn为单词种别码;
token为存放的单词自身字符串;
sum为整型常数。
例如:对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,经过词法分析后输出如下序列:(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……
标识符(需进一步判断是否为关键字)
数字
+=+-=
-词法分析状态转换图(终结状态右上角*表示多读一个符号)
三、词法分析程序的算法思想:
算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。 3.1 主程序示意图:
主程序示意图如图3-1所示。其中初始包括以下两个方面: ⑴ 关键字表的初值。
关键字作为特殊标识符处理,把它们预先安排在一张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。如能查到匹配的单词,则该单词为关键字,否则为一般标识符。关键字表为一个字符串数组,其描述如下:
Char *rwtab[6] = {“begin ”, “if ”, “then ”, “while ”, “do ”, “end ”};
否
(2)程序中需要用到的主要变量为syn,token和sum
3.2 扫描子程序的算法思想:
首先设置3个变量:①token用来存放构成单词符号的字符串;②sum用来存放整型单词;③syn用来存放单词符号的种别码。扫描子程序主要部分流程如图3-2所示。
图 3-2
四、词法分析程序的C++语言程序源代码:
#include"stdafx.h"
#include"conio.h" //包含getch函数的头文件
#include"stdlib.h" //包含exit函数的头文件
#include
#include
char prog[80],token[8],ch;
int syn,p,m,n,sum;
char *rwtab[6]={"begin","if","then","while","do","end"};
scaner();
main()
{p=0;
printf("\n please input a string(end with '#'):/n");
do{
scanf("%c",&ch);
prog[p++]=ch;
}while(ch!='#');
p=0;
do{
scaner();
switch(syn)
{case 11:printf("( %-10d%5d )\n",sum,syn);
break;
case -1:printf("you have input a wrong string\n");
getch();
exit(0);
default: printf("( %-10s%5d )\n",token,syn);
break;
}
}while(syn!=0);
getch();
}
scaner()
{ sum=0;
for(m=0;m<8;m++)token[m++]=NULL;
ch=prog[p++];
m=0;
while((ch==' ')||(ch=='\n'))ch=prog[p++];
if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A')))
{ while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9'))) {token[m++]=ch;
ch=prog[p++];
}
p--;
syn=10;
for(n=0;n<6;n++)
if(strcmp(token,rwtab[n])==0)
{ syn=n+1;
break;
}
}
else if((ch>='0')&&(ch<='9'))
{ while((ch>='0')&&(ch<='9'))
{ sum=sum*10+ch-'0';
ch=prog[p++];
}
p--;
syn=11;
}