编译原理实验报告——词法分析器
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编译原理
实验报告
姓名:关海超
学号:200807010209
专业:计算机科学与技术
班级:08—02班
一、实验目的
通过设计调试词法分析程序,实现从源程序中分出各种单词的方法;加深对课堂教学的理解;提高词法分析方法的实践能力。
二、词法分析器的实现
1、词法分析过程的考虑
词法分析器的任务是将程序源代码看做一个字符串,只需从中分离出一个个具有独立意义的单词(包括标识符,符号和常量)即可,而无需考虑其在上下文环境中的正确性。
基于此认识,词法分析的过程可如下描述:
本程序中用户源程序存储在文件“E:\prog.txt”文件中,程序首先调用readFromFile()函数将源程序代码从文件中读出,放到数组中暂存,然后主函数调用scaner()函数对其进行逐个扫描,分离出的每个独立单词进行分类判断,构成二元组形式,再将其输出的文件“E:\result.txt”中进行保存。
2、各种单词符号对应的种别码
0 标识符21 ret 42 ++ 63 ||
1 整型常量2
2 sho 4
3 -- 6
4 ?:
2 auto 2
3 sig 4
4 - 6
5 =
3 brea 2
4 siz 4
5 * 6
6 +=
4 case 2
5 sta 4
6 & 6
7 -=
5 char 2
6 str 4
7 / 6
8 *=
6 cons 2
7 swi 4
8 % 6
9 /=
7 cont 28 typ 49 + 70 %=
8 defa 29 uni 50 - 71 >>=
9 do 30 uns 51 << 72 <<=
10 dou 31 voi 52 >> 73 &=
11 els 32 vol 53 < 74 ^=
12 enu 33 whi 54 <= 75 |=
13 ext 34 ( 55 > 76 ,
14 flo 35 ) 56 >= 77 '
15 for 36 [ 57 == 78 ;
16 got 37 ] 58 != 79 :
17 if 38 -> 59 & 80 \{
18 int 39 . 60 ^ 81 }
19 lon 40 ! 61 | 82 //
20 reg 41 ~ 62 &&
3、关键数据结构的描述
计数器count:将二元组写入文件时通过count判断是否是首次写入,若是则清空文件,否则追加写入;
字符串常量endStr:其值为“end”,在分析判断每一单词的种类时,该字符串作为rwtab表的结束标志;
数组prog[200]:暂存从文件中读取的源程序代码,该词法分析器约定源代码长度不超过199;
数组token[20]:暂存每次分离出的单个具有独立意义的单词,该词法分析器约定每个单词的长度不超过19;
结构体result:存放一个单词的种别码和单词本身的值,在写入文件时以结构体中的元素为单位依次写入;
4、程序结构的描述
本程序采用结构化设计方法,共有两个文件,六个模块,分别介绍如下:rwtab.h文件包含一个模块,即各种单词符号对应的种别码,作为外部文件被main.cpp文件引用。
main.cpp文件包含以下五个平行模块:
1)main()函数:程序入口,控制整个程序的执行流程;
2)scanner()函数:词法扫描程序;
3)print()函数:由main()函数调用,判别每一个已识别单词的种类,并将其
以结构体形式标准化;
4)readFromFile()函数:由main()函数调用,将源程序代码读出,并暂存至
数组prog[200]中;
5)writeToFile()函数:由main()函数调用,把标准的二元组写入文件中。
三、程序运行截屏
1、待扫描的程序源代码(prog.txt文件)
2、程序执行过程
3、程序执行结果(result.txt文件)
四、源代码
由于源代码较长,故附于文档最后。
五、心得体会
这个词法分析器,加深了我对有穷自动机的理解,在编写词法分析器的过程中,我不断将程序算法和自动机的概念相对比,逐步理解了初态、终态、状态转换、接受、拒绝等概念在实际编程中的应用。
这个词法分析程序,能识别大部分的C语言单词,并能指出错误的位置。对分析出的单词也能够以二元组的形式存储到文件中。但该程序依然存在一些问题,比如,不能对字符串常量进行有效识别,不能识别汉字等。
词法分析器是编译器与外部交互的接口,是进行后续工作的基础,因此,词法分析程序健壮性和正确性十分重要,掌握词法分析程序的设计技术是学好编译技术的第一步,也是极为重要的一步。
六、附录(程序源代码,仅扫描函数)
void scaner()
{
int i, j;
char ch; // 暂存源程序代码中的一个字符
int len = strlen(prog); // 源程序代码长度
int scanedChars = -1; // 已扫描过的字符(不包括本行)的下标,计算列数时使用
int line = 1; // 记录当前行数, 初始化为1
int row = 1; // 记录当前列数, 初始化为1
for (i=0; i { ch = prog[i]; j = 0; if ((ch == ' ') || (ch == '\t')) // 空格或水平制表(即tab键){ continue; } if (ch == '\n') { line++; scanedChars = i; continue; } if (isalpha(ch)) // ch 是字母 { while (isalpha(prog[i]) || isdigit(prog[i])) { token[j++] = prog[i]; i++; } token[j] = '\0'; i--; print(token); //continue; } else { if (isdigit(ch)) // ch 是数字 { while (isdigit(prog[i])) { token[j++] = prog[i]; i++; } token[j] = '\0'; i--; print(token); continue; } else // ch 是符号