编译原理词法分析五种类别识别程序含实现代码cpp
编译原理实验报告
编译原理实验报告一、实验目的本次编译原理实验的主要目的是通过实践加深对编译原理中词法分析、语法分析、语义分析和代码生成等关键环节的理解,并提高实际动手能力和问题解决能力。
二、实验环境本次实验使用的编程语言为 C/C++,开发工具为 Visual Studio 2019,操作系统为 Windows 10。
三、实验内容(一)词法分析器的设计与实现词法分析是编译过程的第一个阶段,其任务是从输入的源程序中识别出一个个具有独立意义的单词符号。
在本次实验中,我们使用有限自动机的理论来设计词法分析器。
首先,我们定义了单词的种类,包括关键字、标识符、常量、运算符和分隔符等。
然后,根据这些定义,构建了相应的状态转换图,并将其转换为程序代码。
在实现过程中,我们使用了字符扫描和状态转移的方法,逐步读取输入的字符,判断其所属的单词类型,并将其输出。
(二)语法分析器的设计与实现语法分析是编译过程的核心环节之一,其任务是在词法分析的基础上,根据给定的语法规则,判断输入的单词序列是否构成一个合法的句子。
在本次实验中,我们采用了自顶向下的递归下降分析法来实现语法分析器。
首先,我们根据给定的语法规则,编写了相应的递归函数。
每个函数对应一种语法结构,通过对输入单词的判断和递归调用,来确定语法的正确性。
在实现过程中,我们遇到了一些语法歧义的问题,通过仔细分析语法规则和调整函数的实现逻辑,最终解决了这些问题。
(三)语义分析与中间代码生成语义分析的任务是对语法分析所产生的语法树进行语义检查,并生成中间代码。
在本次实验中,我们使用了四元式作为中间代码的表示形式。
在语义分析过程中,我们检查了变量的定义和使用是否合法,类型是否匹配等问题。
同时,根据语法树的结构,生成相应的四元式中间代码。
(四)代码优化代码优化的目的是提高生成代码的质量和效率。
在本次实验中,我们实现了一些基本的代码优化算法,如常量折叠、公共子表达式消除等。
通过对中间代码进行分析和转换,减少了代码的冗余和计算量,提高了代码的执行效率。
编译原理词法分析器代码
#include <stdio.h>#include <string.h>#include <stdlib.h>#include <ctype.h>#include <conio.h>#define KEYWORD_LEN 32 //保留字个数#define STR_MAX_LEN 300 //标识符最大长度#define PRO_MAX_LEN 20480 //源程序最大长度#define STB_MAX_LEN 1000 //符号表最大容量#define CTB_MAX_LEN 1000 //常数表最大容量#define ERROR 0 //错误#define ID (KEYWORD_LEN+1) //标识符#define CONST (KEYWORD_LEN+2) //常量#define OPERAT (KEYWORD_LEN+3) //运算符#define DIVIDE (KEYWORD_LEN+4) //界符int errorLine=0; char proBuffer[PRO_MAX_LEN] = ""; //存储程序代码的全局缓冲区char ch; //读出来的当前字符char wordget[STR_MAX_LEN]; //标识符或常量int point = 0; //源程序当前位置指针char signTab[STB_MAX_LEN][STR_MAX_LEN]; //符号表int pointSTB = 0; //符号表指针char constTab[CTB_MAX_LEN][STR_MAX_LEN]; //常量表int pointCTB = 0; //常数表指针char kwTab[KEYWORD_LEN][10]={ //保留字表C语言一共有32个保留字[关键字]"auto", "break", "case", "char","const", "continue", "default","do", "double", "else", "enum","extern", "float", "for", "goto","if", "int", "long", "register","return", "short", "signed", "sizeof","static", "struct", "switch", "typedef","union", "unsigned", "void", "volatile", "while"};char errorTab[][50]={ //错误代码表/*0*/"未知错误", /*1*/"非法的字符", /*2*/"不正确的字符常量表达",/*3*/"不正确的字符串表达", /*4*/"不正确的数字表达", /*5*/"注释丢失'*/'"};typedef struct signDuality{int kind;int value;}*pDualistic, Dualistic;void pretreatment(); //预处理void ProcError(int id); //错误bool GetChar(); //获得一个字符不包括结束标记bool GetBC(); //获得一个非空白字符void Concat(char *str); //将ch连接到str后int Reserve(char *str); //对str字符串查找保留字表若是一个保留字-返回其编码否则返回0void Retract(); //将搜索指示器回调一个字符位置int InsertId(char *str);//将str串以标识符插入符号表,并返回符号表指针int InsertConst(char *str); //将str串以常数插入符号表,并返回常数表指针bool wordAnalyse(pDualistic pDu); //词法分析true正常//预处理将缓冲区内的源代码去掉注释和无效空格void pretreatment(){int lines=0;char tmp[PRO_MAX_LEN]; //先将处理结果保存到临时空间int tmpp = 0; //这个临时空间的末尾指针bool flg;char tmpc; //去掉注释先//注释有两种一种是// 另一种是/**/point = 0;do{flg = GetChar();if(ch == '/'){flg = GetChar();switch(ch){case '/':do{flg = GetChar();}while(!(ch == '\n' || flg == false));//注释一直到行尾或文件结束if(ch == '\n')Retract(); //归还换行break;case '*':do{flg = GetChar();tmpc = ch;//为了保证出错处理程序能正确定位出错位置保留注释中的换行if(tmpc == '\n')tmp[tmpp++] = tmpc;flg = GetChar();Retract(); //归还一个字符}while(flg && !(flg && tmpc == '*' && ch == '/'));flg = GetChar();if (!flg){ProcError(5);}break;default: //不是任何一种注释Retract();Retract();GetChar();tmp[tmpp++] = ch;flg = GetChar();tmp[tmpp++] = ch;}}else{tmp[tmpp++] = ch;}}while(flg);tmp[tmpp] = '\0';strcpy(proBuffer,tmp);}//错误void ProcError(int id){printf("\nError:第%d行,%s\n",errorLine, errorTab[id]);}//获得一个字符bool GetChar(){if(point < PRO_MAX_LEN && proBuffer[point] != '\0'){//如果当前下标合法且当前字符为结束标记则取字符增游标ch = proBuffer[point++];if (ch == '\n')errorLine ++;return true;}ch = '\0';return false;}//获得一个非空白字符bool GetBC(){do{if(!GetChar()) //获取字符失败{ch = '\0';return false;}}while(isspace(ch)); //直到获得一个非空白字符return true;}//将ch连接到str后void Concat(char *str){int i;for(i=0; str[i]; ++i);str[i] = ch;str[i+1] = '\0';}//对str字符串查找保留字表若是一个保留字-返回其编码否则返回0int Reserve(char *str){int i;for(i=0; i<KEYWORD_LEN; ++i) //从保留字表中查找str串{if(0 == strcmp(kwTab[i], str))return i+1; //注意,这里加一原因是0值被错误标记占用}return 0;}//将搜索指示器回调一个字符位置void Retract()///char *ch{if(proBuffer[point] == '\n' && errorLine > 0)errorLine --;point --;}//将str串以标识符插入符号表,并返回符号表指针int InsertId(char *str){int i;for(i=0; i < pointSTB; ++i)if(0 == strcmp(signTab[i], str))return i;strcpy(signTab[pointSTB++], str);return (pointSTB-1);}//将str串以常数插入常量表,并返回常数表指针int InsertConst(char *str){int i;for(i=0; i < pointCTB; ++i)if(0 == strcmp(constTab[i], str))return i;strcpy(constTab[pointCTB++], str);return (pointCTB-1);}//词法分析false--分析结束bool wordAnalyse(pDualistic pDu){int code, value;char judge; //这里有个技巧借用此变量巧妙的运用SWITCH结构int i = 0; //辅助GetBC();judge = ch;if (isalpha(ch) || ch == '_')judge='L';if (isdigit(ch))judge='D';switch(judge){case 'L':while(isalnum(ch) || ch == '_'){ //标识符wordget[i++] = ch;GetChar();}wordget[i] = '\0';Retract(); //回退一个字符code = Reserve(wordget);if(code == 0){value = InsertId(wordget);pDu->kind = ID;pDu->value = value;}else{pDu->kind = code;pDu->value = -1;}return true;case 'D':while(isdigit(ch)){wordget[i++] = ch;GetChar();}wordget[i] = '\0';Retract();value = InsertConst(wordget);pDu->kind = CONST;pDu->value= value;return true;//( ) [ ] . , ! != ~ sizeof < << <= > >> >= = == & && &= | || |= ?: + ++ +=// --> ---= * *= / /= % %= >>= <<= ^ ^=case '"': //字符串常量do{wordget[i++] = ch;GetChar();}while(ch != '"' && ch != '\0');wordget[i++] = ch;wordget[i] = '\0';if(ch == '\0'){printf("%s",wordget);ProcError(3);pDu->kind = ERROR;pDu->value = 0;}else{value = InsertConst(wordget);pDu->kind = CONST;pDu->value = value;}return true; //字符常量case '\'':wordget[i++] = ch; // 'GetChar();wordget[i++] = ch;if(ch == '\\') // '\n'{//如果是转义字符则要多接收一个字符GetChar(); // ch = 'wordget[i++] = ch;}GetChar();wordget[i++] = ch;wordget[i] = '\0';if(ch != '\''){//'\b'printf("%s",wordget);ProcError(2);pDu->kind = ERROR;pDu->value = 0;}else{value = InsertConst(wordget);pDu->kind = CONST;pDu->value = value;}return true;case '(':case ')':case '[':case ']':case '.':case ',':case '~':case '?':case ':':case ';':case '{':case '}':case '#':wordget[i++] = ch;wordget[i] = '\0';pDu->kind = DIVIDE; //界符pDu->value = -1;return true;case '!': //!=wordget[i++] = ch;GetChar();if (ch=='=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '<': // << <=wordget[i++] = ch;GetChar();if (ch == '<' || ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '>': // >> >=wordget[i++] = ch;GetChar();if (ch == '>' || ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '=': // ==wordget[i++] = ch;GetChar();if (ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '&': // && &=wordget[i++] = ch;GetChar();if (ch == '&' || ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break; case '|': // || |=wordget[i++] = ch;GetChar();if (ch == '|' || ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '+': // ++ +=wordget[i++] = ch;GetChar();if (ch == '+' || ch == '=')wordget[i++] = ch;else Retract();wordget[i]='\0';break;case '-': // ---= ->wordget[i++] = ch;GetChar();if (ch == '-' || ch == '=' || ch == '>')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '*':// ** *=wordget[i++] = ch;GetChar();if (ch == '*' || ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '/': // /=wordget[i++] = ch;GetChar();if (ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '%': // %=wordget[i++] = ch;GetChar();if (ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '^': // ^=wordget[i++] = ch;GetChar();if (ch == '=')wordget[i++] = ch;elseRetract();wordget[i]='\0';break;case '\0':return false;default:ProcError(1);return false;}pDu->kind = OPERAT;return true;}//主函数int main(){Dualistic tmp;pDualistic ptmp = &tmp;FILE *fin, *fout;int i;char c;char filename[20];printf("源代码读入\n");//scanf("%s",filename);//将源程序读入缓冲区if ((fin=fopen("Test.txt","r")) == NULL){printf("Cannot open infile\n");return 0;}i = 0;//c = fgetc(fin);while((c = fgetc(fin)) != EOF){if(i >= PRO_MAX_LEN-1){printf("\n程序代码太长,无法处理\a");return 0;}proBuffer[i++] = c;}fclose(fin); //关闭文件proBuffer[i++] = '\0';printf("\n***************************\n源代码读入成功,源代码如下:\n%s",proBuffer);printf("\n按任意键继续\n");getch(); //预处理printf("\n预处理\n");pretreatment();printf("\n***************************\n预处理成功,去掉注释后的源代码为:\n%s*",proBuffer);printf("\n按任意键继续\n");getch();printf("\n词法分析\n");point = 0;//词法分析if ((fout=fopen("Result.txt","wb")) == NULL){printf("建立文件Result.txt失败。
【编译原理】词法分析(CC++源代码+实验报告)
【编译原理】词法分析(CC++源代码+实验报告)⽂章⽬录1 实验⽬的和内容1.1实验⽬的(1)根据 PL/0 语⾔的⽂法规范,编写PL/0语⾔的词法分析程序;或者调研词法分析程序的⾃动⽣成⼯具LEX或FLEX,设计并实现⼀个能够输出单词序列的词法分析器。
(2)通过设计调试词法分析程序,实现从源程序中分离出各种类型的单词;加深对课堂教学的理解;提⾼词法分析⽅法的实践能⼒。
(3)掌握从源程序⽂件中读取有效字符的⽅法和产⽣源程序的内部表⽰⽂件的⽅法。
(4)掌握词法分析的实现⽅法。
(5)上机调试编出的词法分析程序。
1.2实验内容根据PL/0语⾔的⽂法规范,编写PL/0语⾔的词法分析程序。
要求:(1)把词法分析器设计成⼀个独⽴⼀遍的过程。
(2)词法分析器的输出形式采⽤⼆元式序列,即:(单词种类, 单词的值)2 设计思想2.1单词种类及其正规式(1)基本字单词的值单词类型正规式rbegin beginsym begincall callsym callconst constsym constdo dosym doend endsym endif ifsym ifodd oddsym oddprocedure proceduresym procedureread readsym readthen thensym thenvar varsym varwhile whilesym whilewrite writesym write(2)标识符单词的值单词类型正规式r标识符ident(字母)(字母|数字)*(3)常数单词的值单词类型正规式r常数number(数字)(数字)*(4)运算符单词的值单词类型正规式r+plus+-minus-*times*/slash/=eql=<>neq<><lss<<=leq<=>gtr>>=geq>=:=becomes:=(5)界符单词的值单词类型正规式r(lparen()rparen),comma,;semicolon;.period.2.2 根据正规式构造NFA下⾯我们根据上述的正规式来构造该⽂法的NFA,如下图所⽰,其中状态0为初态,凡带双圈的状态均为终态,状态24是识别不出单词符号的出错情形,其他状态的识别情况如下图中右边的注释所⽰。
编译原理词法分析实验报告
编译原理词法分析实验报告实验一词法分析一、实验目的通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。
并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。
编制一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、分隔符五大类。
并依次输出各个单词的内部编码及单词符号自身值。
二、实验内容(1)功能描述:该程序是实现一个词法分析器,词法分析器的功能是输入源程序,输出单词符号。
词法分析器的单词符号常常表示成以下的二元式(单词种别码,单词符号的属性值)。
本实验中,采用的是将单词分为五种的方法。
识别关键字:main、if、int、for、while、do、return、break、continue;单词种别码为1。
标识符:单词种别码为2。
常数:为无符号整形数;单词种别码为3。
运算符:包括:+、-、*、/、=、>、<、>=、<=、!= ;单词种别码为4。
分隔符:包括:,、;、{、}、(、);单词种别码为5。
(2)程序结构描述:输入:从控制台输入一段源程序代码,对输入的代码进行词法分析,处理:分离出关键字、标识符、数值、运算符和界符。
输出:在词法分析结果表中输出每个单词所在行号、类型以及它所对应的编码。
其中,编码是自定义的,一种类型对应一个编码。
词法分析结果显示在控制台上。
(3)程序设计思路1、定义编码表,用ArrayList集合存放单词,如:关键字、运算符、分界符。
这三种单词是固定的,标示符和数字这两种单词不存放在集合中。
编码表是固定的,只需要初始化一次就够了,所以将集合定义为static类型,使其在类加载时,进行一次初始化。
2、static char allstr[] = new char[100000];该数组用于存储用户从控制台输入的所有字符。
3、//从键盘获取一个一个的字符public char Getchar() {try {ch = (char) System.in.read();} catch (Exception e) {e.printStackTrace();}return ch;}4、用while循环遍历allstr数组中存放的字符,判断分离出关键字、标示符、数字、运算符、标示符。
编译原理实验报告
《编译原理》实验报告软件131 陈万全132852一、需求分析通过对一个常用高级程序设计语言的简单语言子集编译系统中词法分析、语法分析、语义处理模块的设计、开发,掌握实际编译系统的核心结构、工作流程及其实现技术,获得分析、设计、实现编译程序等方面的实际操作能力,增强设计、编写和调试程序的能力。
通过开源编译器分析、编译过程可视化等扩展实验,促进学生增强复杂系统分析、设计和实现能力,鼓励学生创新意识和能力。
1、词法分析程序设计与实现假定一种高级程序设计语言中的单词主要包括五个关键字begin、end、if、then、else;标识符;无符号常数;六种关系运算符;一个赋值符和四个算术运算符,试构造能识别这些单词的词法分析程序。
输入:由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。
输出:把所识别出的每一单词均按形如(CLASS,VALUE)的二元式形式输出,并将结果放到某个文件中。
对于标识符和无符号常数,CLASS字段为相应的类别码的助记符;VALUE字段则是该标识符、常数的具体值;对于关键字和运算符,采用一词一类的编码形式,仅需在二元式的CLASS字段上放置相应单词的类别码的助记符,VALUE字段则为“空”。
2、语法分析程序设计与实现选择对各种常见高级程序设计语言都较为通用的语法结构——算术表达式的一个简化子集——作为分析对象,根据如下描述其语法结构的BNF定义G2[<算术表达式>],任选一种学过的语法分析方法,针对运算对象为无符号常数和变量的四则运算,设计并实现一个语法分析程序。
G2[<算术表达式>]:<算术表达式> → <项> | <算术表达式>+<项> | <算术表达式>-<项><项> → <因式> | <项>*<因式> | <项>/<因式><因式> → <运算对象> | (<算术表达式>)若将语法范畴<算术表达式>、<项>、<因式>和<运算对象>分别用E、T、F和i 代表,则G2可写成:G2[E]:E → T | E+T | E-T T → F | T*F | T/F F → i | (E)输入:由实验一输出的单词串,例如:UCON,PL,UCON,MU,ID ······输出:若输入源程序中的符号串是给定文法的句子,则输出“RIGHT”,并且给出每一步分析过程;若不是句子,即输入串有错误,则输出“ERROR”,并且显示分析至此所得的中间结果,如分析栈、符号栈中的信息等,以及必要的出错说明信息。
编译原理-词法分析
词法分析是编译原理中的重要阶段,负责将源代码分解为词法单元,为后续 的语法分析准备输入。
词法分析的定义和作用
词法分析是编译器的第一阶段,其主要目的是将源代码转换为有意义的词法 单元,如标识符、关键字、操作符等,以便后续的语法分析和语义分析使用。
词法分析的流程
1
扫描
将源代码分割为符号序列。
2
识别
将符号序列映射到相应的词法单元。
归类
将词法单元分为不同的类别,如标识符、关键字、操作符等。
常见的词法分析技术
正则表达式
用于描述词法单元的模式。
有限自动机
用于识别符号序列并生成词法 单元。
词法分析器生成器
自动生成词法分析器的工具。
词法分析的应用场景
词法分析广泛应用于编译器、解释器和语言处理工具等领域,确保源代码的正确解析和语义分析。
词法分析的挑战和解决方案
错误处理
如何处理错误输入和不合法的词法 单元。
性能优化
如何提高词法分析的速度和效率。
跨平台兼容
如何处理不同编程语言和操作系统 的词法规则。
结论和总结
词法分析是编译原理中不可或缺的一部分,对于编译器的正确性和性能有着 重要影响。了解词法分析的流程和技术,可帮助开发者构建更高效的编译器 和语言处理工具。
编译原理词法分析和语法分析报告+代码(C语言版)[1]
词法分析一、实验目的设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。
二、实验要求2.1 待分析的简单的词法(1)关键字:begin if then while do end所有的关键字都是小写。
(2)运算符和界符:= + - * / < <= <> > >= = ; ( ) #(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:ID = letter (letter | digit)*NUM = digit digit*(4)空格有空白、制表符和换行符组成。
空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。
2.2 各种单词符号对应的种别码:输入:所给文法的源程序字符串。
输出:二元组(syn,token或sum)构成的序列。
其中:syn为单词种别码;token为存放的单词自身字符串;sum为整型常数。
例如:对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,经过词法分析后输出如下序列:(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的算法思想:算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。
3.1 主程序示意图:主程序示意图如图3-1所示。
其中初始包括以下两个方面:⑴关键字表的初值。
关键字作为特殊标识符处理,把它们预先安排在一张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。
如能查到匹配的单词,则该单词为关键字,否则为一般标识符。
关键字表为一个字符串数组,其描述如下:Char *rwtab[6] = {“begin”, “if”, “then”, “while”, “do”, “end”,};图3-1(2)程序中需要用到的主要变量为syn,token和sum3.2 扫描子程序的算法思想:首先设置3个变量:①token用来存放构成单词符号的字符串;②sum用来整型单词;③syn用来存放单词符号的种别码。
编译原理小题答案
《编译原理》常见题型一、填空题1.编译程序的工作过程一般可以划分为词法分析,语法分析,中间代码生成,代码优化(可省) ,目标代码生成等几个基本阶段。
2.若源程序是用高级语言编写的,目标程序是机器语言程序或汇编程序,则其翻译程序称为编译程序.3.编译方式与解释方式的根本区别在于是否生成目标代码.5.对编译程序而言,输入数据是源程序,输出结果是目标程序.7.若源程序是用高级语言编写的,目标程序是机器语言程序或汇编程序,则其翻译程序称为编译程序。
8.一个典型的编译程序中,不仅包括词法分析、语法分析、中间代码生成、代码优化、目标代码生成等五个部分,还应包括表格处理和出错处理。
其中,词法分析器用于识别单词。
10.一个上下文无关文法所含四个组成部分是一组终结符号、一组非终结符号、一个开始符号、一组产生式。
12.产生式是用于定义语法成分的一种书写规则。
(13.设G[S]是给定文法,则由文法G所定义的语言L(G)可描述为:L(G)={x│S=>*x,x∈VT*} 。
14.设G是一个给定的文法,S是文法的开始符号,如果S*⇒x(其中x∈V*),则称x是文法的一个句型。
15.设G是一个给定的文法,S是文法的开始符号,如果S*⇒x(其中x∈V T*),则称x是文法的一个句子。
16.扫描器的任务是从源程序中识别出一个个单词符号。
17.语法分析最常用的两类方法是自上而下和自下而上分析法。
18.语法分析的任务是识别给定的终结符串是否为给定文法的句子。
19.递归下降法不允许任一非终结符是直接左递归的。
20.自顶向下的语法分析方法的关键是如何选择候选式的问题。
21.递归下降分析法是自顶向下分析方法。
22.自顶向下的语法分析方法的基本思想是:从文法的开始符号开始,根据给定的输入串并按照文法的产生式一步一步的向下进行直接推导,试图推导出文法的句子,使之与给定的输入串匹配。
…23.自底向上的语法分析方法的基本思想是:从给定的终结符串开始,根据文法的规则一步一步的向上进行直接归约,试图归约到文法的开始符号。
编译原理 词法分析器 实验报告
词法分析器实验报告实验目的:设计、编制、调试一个词法分析子程序-识别单词,加深对词法分析原理的理解。
功能描述:该程序要实现的是一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、分隔符五大类。
并依次输出各个单词的内部编码及单词符号自身值。
(遇到错误时可显示“Error!”,然后跳过错误部分继续进行)设计思想:设计该词法分析器的过程中虽然没有实际将所有的状态转移表建立出来,但是所用的思想是根据状态转移表实现对单词的识别。
首先构造一个保留字表,然后,每输入一个字符就检测应该进入什么状态,并将该字符连接到d串后继续输入,如此循环,最后根据所在的接受状态以及保留字表识别单词。
①标识符及保留字:②number:③关系操作符:digitdigitdigitEdigitotherotherletter or④⑤算术运算符:(<=, 2) * (<>, 2)(<,2)(>=, 2)(>, 2)(:=,2)使用环境:Windows xp下的visual c++6.0 程序测试:input1 :int a,b;a=b+2;input2:while(a>=0)do7x=x+6.7E+23;end;input3:begin:x:=9if x>0 then x:=x+1;while a:=0 dob:=2*x/3,c:=a;end;output1: 3,int 3,a 5,,3,b 5,;3,a2,=3,b2,+4,2 5,; output2:1,while5,(3,a2,>=4,05,)1,doerror line 32,=3,x2,+4,6.7E+235,;1,end5,;output3:1,beginerror line 13,x2,:=4,91,if3,x2,>4,01,then3,x2,:=3,x2,+4,15,;1,while3,a2,:=4,01,do3,b2,:=4,22,*3,x2,/4,35,,3,c2,:=3,a5,;1,end5,;测试结果与预期结果一致源程序代码:#include<stdio.h>#include<string.h> void main(){int i=0,j,k=0,state=1,f=0,linenum=1;chara[11][10]={"const","var","call","begin","if","while","do","odd","e nd","then","procedure"};char b,d[40]={"\0"};freopen("input.txt","r",stdin);freopen("output.txt","w",stdout);b=getchar();while(b!=EOF)/*判断所输入字符是否为结束符*/{if(b==' '||b=='\n'||b=='\t')/*滤过空格、换行等分隔符号*/{ if(b='\n') linenum++;b=getchar();}else if((b>='a'&&b<='z')||(b>='A'&&b<='Z'))/*识别标识符以及保留字*/{d[i++]=b;b=getchar();while((b>='a'&&b<='z')||(b>='A'&&b<='Z')||(b>='0'&&b<='9')) {d[i++]=b;b=getchar();}for(j=0;j<11;j++)/*查询保留字表确定该单词是否是保留字*/{ if(strcmp(d,a[j])==0){ printf("1,%s\n",d);k=1;break;}}if(k==0)/*在保留字表中没有查到该单词,是标识符*/printf("3,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;k=0;}else if(b>='0'&&b<='9')/*识别常数*/{ d[i++]=b;b=getchar();while(f!=1){switch (state) {case 1:if(b>='0'&&b<='9') {state=1;d[i++]=b;b=getchar();}else if(b=='.') { state=2;d[i++]=b;b=getchar();}else if(b=='E') { state=4;d[i++]=b;b=getchar();}else state=7;break;case 2:if(b>='0'&&b<='9') {state=3;d[i++]=b;b=getchar();}else state=8;break;case 3:if(b>='0'&&b<='9') {state=3;d[i++]=b;b=getchar();}else if(b=='E') { state=4;d[i++]=b;b=getchar();} else state=7;break;case 4:if(b=='+'||b=='-'){ state=5;d[i++]=b;b=getchar();}elseif(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=8;break;case 5:if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=8;break;case 6:if(b>='0'&&b<='9'){ state=6;d[i++]=b;b=getchar();}else state=7;break;case 7: f=1;break;case 8: f=1;break;}}if(state==7&&(b<'a'||b>'z')&&(b<'A'||b>'Z'))printf("4,%s\n",d);else if(state==7&&(b>='a'&&b<='z')||(b>='A'&&b<='Z'))/*数字后接字母的出错控制*/{while((b>='a'&&b<='z')||(b>='A'&&b<='Z')){ d[i++]=b;b=getchar();}printf("error line %d\n",linenum);}else printf("error line %d\n",linenum);for(j=0;j<=i;j++)d[j]='\0';i=0;f=0;state=1;}else if(b=='<')/*识别'<'、'<='和'<>'*/{ d[i++]=b;b=getchar();if(b=='='||b=='>'){ d[i++]=b;b=getchar();printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}else{ printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}}else if(b=='>')/*识别'>'和'>='*/ { d[i++]=b;b=getchar();if(b=='='){ d[i++]=b;b=getchar();printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}else{ printf("2,%s\n",d);for(j=0;j<=i;j++)d[j]='\0';i=0;}}else if(b==':')/*识别':='*/{ d[i++]=b;b=getchar();if(b=='='){ d[i++]=b;b=getchar();printf("2,%s\n",d);}else printf("error line %d\n",linenum);for(j=0;j<=i;j++)d[j]='\0';i=0;}else if(b=='*'||b=='+'||b=='-'||b=='/'||b=='=')/*识别运算符*/{ printf("2,%c\n",b);b=getchar();}else if(b=='('||b==')'||b==','||b==';'||b=='.')/*识别分隔符*/{ printf("5,%c\n",b);b=getchar();}else{ printf("error line %d\n",linenum);b=getchar();}}}实验心得:此次实验让我了解了如何设计、编制并调试词法分析程序,并加深了我对词法分析器原理的理解;熟悉了直接构造词法分析器的方法和相关原理,并学会使用c 语言直接编写词法分析器;同时更熟练的掌握用c语言编写程序,实现一定的实际功能。
编译原理词法分析和语法分析报告+代码[C语言版]
词法分析一、实验目的设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。
二、实验要求2.1 待分析的简单的词法(1)关键字:begin if then while do end所有的关键字都是小写。
(2)运算符和界符:= + - * / < <= <> > >= = ; ( ) #(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:ID = letter (letter | digit)*NUM = digit digit*(4)空格有空白、制表符和换行符组成。
空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。
2.2 各种单词符号对应的种别码:表2.1 各种单词符号对应的种别码2.3 词法分析程序的功能:输入:所给文法的源程序字符串。
输出:二元组(syn,token或sum)构成的序列。
其中:syn为单词种别码;token为存放的单词自身字符串;sum为整型常数。
例如:对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,经过词法分析后输出如下序列:(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的算法思想:算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。
3.1 主程序示意图:主程序示意图如图3-1所示。
其中初始包括以下两个方面:⑴关键字表的初值。
关键字作为特殊标识符处理,把它们预先安排在一张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。
如能查到匹配的单词,则该单词为关键字,否则为一般标识符。
关键字表为一个字符串数组,其描述如下:Char *rwtab[6] = {“begin”, “if”, “then”, “while”, “do”, “end”,};是图3-1(2)程序中需要用到的主要变量为syn,token和sum3.2 扫描子程序的算法思想:首先设置3个变量:①token用来存放构成单词符号的字符串;②sum用来整型单词;③syn用来存放单词符号的种别码。
编译原理概述
编译原理概述
编译原理是计算机科学中的重要概念,是指设计和构建编译器的理论和技术。
编译器是一种将高级语言代码翻译成底层机器语言代码的程序,它起着将源代码翻译成目标代码的作用。
编译原理的主要研究对象是编译器的构造和实现方法,以及编译过程中涉及的各种理论和技术问题。
编译原理的基本概念包括词法分析、语法分析、语义分析、中间代码生成、代码优化和目标代码生成等几个方面。
其中,词法分析是将源代码分解成一个个单词或记号的过程,语法分析是对单词或记号进行语法规则分析的过程,语义分析是确定代码真正含义的过程,中间代码生成是生成与源代码等价的目标代码的过程,代码优化是提高目标代码质量和性能的过程,目标代码生成是将中间代码翻译成机器代码的过程。
在编译原理中,最核心的部分是语法分析,它决定了编译器对源代码的理解和转换能力。
语法分析可以分为自上而下的分析方法和自下而上的分析方法。
自上而下的分析方法是从最抽象的语法规则开始逐步向下分解源代码,直到分解到最细粒度;自下而上的分析方法则是从最细粒度的语法规则开始逐步向上合成源代码,直到合成到最抽象的语法规则。
在编译原理的研究中,还涉及到一些高级主题,如编译器前端和后端的设计、编译器生成器的设计、抽象语法树和符号表的表示、代码生成技术、及时编译技术等。
总的来说,编译原理是计算机科学中非常重要的一个领域,它的研究成果直接影响着编程语言的设计和实现方式,也是软件工程师必须掌握的基础知识之一。
通过学习编译原理,可以更好地理解计算机语言的工作原理,提高编程能力和代码质量,为软件开发提供更好的支持和保障。
编译原理词法分析和语法分析报告+代码(C语言版)
词法分析一、实验目的设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。
二、实验要求2.1 待分析的简单的词法(1)关键字:begin if then while do end所有的关键字都是小写。
(2)运算符和界符: = + - * / < <= <> > >= = ; ( ) #(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:ID = letter (letter | digit)*NUM = digit digit*(4)空格有空白、制表符和换行符组成。
空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。
2.2 各种单词符号对应的种别码:输入:所给文法的源程序字符串。
输出:二元组(syn,token或sum)构成的序列。
其中:syn为单词种别码;token为存放的单词自身字符串;sum为整型常数。
例如:对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,经过词法分析后输出如下序列:(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的算法思想:算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。
3.1 主程序示意图:主程序示意图如图3-1所示。
其中初始包括以下两个方面:⑴关键字表的初值。
关键字作为特殊标识符处理,把它们预先安排在一张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。
如能查到匹配的单词,则该单词为关键字,否则为一般标识符。
关键字表为一个字符串数组,其描述如下:Char *rwtab[6] = {“begin”, “if”, “then”, “while”, “do”, “end”,};图3-1(2)程序中需要用到的主要变量为syn,token和sum3.2 扫描子程序的算法思想:首先设置3个变量:①token用来存放构成单词符号的字符串;②sum用来整型单词;③syn用来存放单词符号的种别码。
编译原理流程
编译原理流程编译原理是计算机科学的重要分支,主要研究如何将高级语言程序转化为机器语言的过程。
编译原理的流程可以分为词法分析、语法分析、语义分析、中间代码生成、代码优化和目标代码生成等几个阶段。
1. 词法分析词法分析是编译原理的第一步,主要任务是将源代码分解成一个个的词法单元,如标识符、关键字、运算符和常量等。
词法分析器会根据预先定义的词法规则,逐个扫描源代码,将识别出的词法单元转化为记号(token)并生成记号流。
2. 语法分析语法分析是编译原理的第二步,主要任务是根据词法分析生成的记号流,判断程序是否符合语法规则。
语法分析器会根据预先定义的语法规则,逐个分析记号流,构建语法树(parse tree)。
如果程序存在语法错误,则会报告错误信息。
3. 语义分析语义分析是编译原理的第三步,主要任务是对语法树进行语义检查,并生成中间代码。
语义分析器会根据预先定义的语义规则,对语法树进行遍历,检查变量的声明和使用是否符合规范,以及类型的一致性等。
同时,语义分析器会根据语义规则生成中间代码,用于后续的优化和目标代码生成。
4. 中间代码生成中间代码生成是编译原理的第四步,主要任务是将源代码转化为一种中间表示形式,以便进行优化和目标代码生成。
中间代码可以是抽象语法树(Abstract Syntax Tree,AST)、三地址码(Three Address Code)或虚拟机代码等。
中间代码的生成可以通过遍历语法树并根据语法规则进行转换。
5. 代码优化代码优化是编译原理的第五步,主要任务是对中间代码进行优化,以提高程序的执行效率。
代码优化包括常量折叠、公共子表达式消除、循环优化等技术。
优化器会根据预先定义的优化规则,对中间代码进行分析和转换,以减少不必要的计算和内存访问。
6. 目标代码生成目标代码生成是编译原理的最后一步,主要任务是将中间代码转化为目标机器代码,使得程序可以在目标机器上运行。
目标代码生成器会根据目标机器的特定指令集和寄存器分配策略,将中间代码转化为对应的目标机器代码,并生成可执行文件或目标文件。
编译原理教程实验报告
一、实验目的本次实验旨在使学生通过编译原理的学习,了解编译程序的设计原理及实现技术,掌握编译程序的各个阶段,并能将所学知识应用于实际编程中。
二、实验内容1. 词法分析2. 语法分析3. 语义分析4. 中间代码生成5. 代码优化6. 目标代码生成三、实验步骤1. 词法分析(1)设计词法分析器,识别输入源代码中的各种词法单元;(2)使用C语言实现词法分析器,并进行测试。
2. 语法分析(1)根据文法规则设计语法分析器,识别输入源代码的语法结构;(2)使用C语言实现语法分析器,并进行测试。
3. 语义分析(1)设计语义分析器,检查语法分析后的语法树,确保语义正确;(2)使用C语言实现语义分析器,并进行测试。
4. 中间代码生成(1)设计中间代码生成器,将语义分析后的语法树转换为中间代码;(2)使用C语言实现中间代码生成器,并进行测试。
5. 代码优化(1)设计代码优化器,对中间代码进行优化,提高程序性能;(2)使用C语言实现代码优化器,并进行测试。
6. 目标代码生成(1)设计目标代码生成器,将优化后的中间代码转换为特定目标机的汇编语言;(2)使用C语言实现目标代码生成器,并进行测试。
四、实验结果与分析1. 词法分析实验结果:成功识别输入源代码中的各种词法单元,包括标识符、关键字、运算符、常量等。
2. 语法分析实验结果:成功识别输入源代码的语法结构,包括表达式、语句、程序等。
3. 语义分析实验结果:成功检查语法分析后的语法树,确保语义正确。
4. 中间代码生成实验结果:成功将语义分析后的语法树转换为中间代码,为后续优化和目标代码生成提供基础。
5. 代码优化实验结果:成功对中间代码进行优化,提高程序性能。
6. 目标代码生成实验结果:成功将优化后的中间代码转换为特定目标机的汇编语言,为程序在目标机上运行做准备。
五、实验心得1. 编译原理是一门理论与实践相结合的课程,通过本次实验,我对编译程序的设计原理及实现技术有了更深入的了解。
编译程序五个阶段的名称及主要任务
编译程序五个阶段的名称及主要任务
编译程序通常分为五个阶段,分别是词法分析、语法分析、语义分析、中间代码生成和目标代码生成。
每个阶段都有其独特的任务和目标。
1. 词法分析阶段:该阶段的主要任务是将源代码转化为一个个
的词法单元(Token),并进行标记化、分类和存储。
词法分析器(Lexical Analyzer)通常使用正则表达式或自动机等方法进行实现。
2. 语法分析阶段:该阶段的主要任务是检查词法单元是否符合
语法规则,将其转化为语法树或抽象语法树。
语法分析器(Parser)通常使用自顶向下或自底向上的方法进行实现。
3. 语义分析阶段:该阶段的主要任务是对语法树或抽象语法树
进行语义分析,检查其是否符合语义规则。
语义分析器(Semantic Analyzer)通常进行类型检查、符号表管理等操作。
4. 中间代码生成阶段:该阶段的主要任务是将语义分析后的代
码转化为中间代码(Intermediate Code),并进行优化。
中间代码通常是一种类似于汇编语言的表示形式,方便后续的目标代码生成。
5. 目标代码生成阶段:该阶段的主要任务是将中间代码转化为
目标代码(Target Code),并进行优化。
目标代码通常是一种与硬件体系结构相关的表示形式,可以被直接执行。
目标代码生成器(Code Generator)通常进行寄存器分配、指令选择、代码优化等操作。
以上是编译程序五个阶段的名称及主要任务。
每个阶段都有其独特的功能和重要性,对于编译程序的实现及优化都至关重要。
编译原理课程设计报告-词法分析器
一.课程设计题目:词法分析器的实现二.课程设计成员三.课程设计内容和要求设计一个程序,调试、编译,实现词法分析的功能,识别各单词或字符所属类别,并显示在屏幕上。
词法分析器:逐个读入源程序字符并按照构词规则切分成一系列单词。
单词是语言中具有独立意义的最小单位,包括保留字、标识符、运算符、标点符号和常量等。
词法分析是编译过程中的一个阶段,在语法分析前进行。
也可以和语法分析结合在一起作为一遍,由语法分析程序调用词法分析程序来获得当前单词供语法分析使用。
要求:通过词法分析器能够实现以下五种类型如单词等的识别。
(1)关键字"begin","end","if","then","else","while","write","r ead"等,"do", "call","const","char","until","procedure","repeat"等(2)运算符:"+","-","*","/","="等(3)界符:"{","}","[","]",";",",",".","(",")",":"等(4)标识符(5)常量四.操作要求首先建立一个或多个文档,此处新建了两个文档,例:07196133.txt文本文档和zhaoxiaodong.txt文本文档,以供选择,各文本文档中都输入有不同的内容,运行程序,出现提示,输入文本文档的名称,即可对文本文档中的内容进行分析,并把分析结果输出显示在屏幕上。
编译原理熟悉实验报告
一、实验目的1. 理解编译原理的基本概念和流程;2. 掌握编译器的各个阶段及其实现方法;3. 熟悉编译器各个阶段中使用的算法和数据结构;4. 培养编程能力和问题解决能力。
二、实验内容1. 词法分析;2. 语法分析;3. 语义分析;4. 代码生成;5. 符号表;6. 中间代码生成。
三、实验步骤1. 词法分析(1)设计词法分析器:首先需要确定源程序中的词法单元,如标识符、关键字、运算符等。
然后,编写代码实现词法分析器,对源程序进行扫描,将词法单元转换成词法符号。
(2)实现词法分析器:使用C语言或Java等编程语言实现词法分析器,完成词法单元的识别和转换。
2. 语法分析(1)设计语法分析器:根据源程序的语言规范,设计语法分析器,实现语法规则的定义和匹配。
(2)实现语法分析器:使用递归下降分析法、LL(1)分析法、LR(1)分析法等实现语法分析器,对词法分析器输出的词法符号序列进行语法分析。
3. 语义分析(1)设计语义分析器:根据源程序的语言规范,设计语义分析器,实现语义规则的检查和类型检查。
(2)实现语义分析器:使用C语言或Java等编程语言实现语义分析器,完成语义规则的检查和类型检查。
4. 代码生成(1)设计代码生成器:根据源程序的语言规范,设计代码生成器,将抽象语法树转换成目标代码。
(2)实现代码生成器:使用C语言或Java等编程语言实现代码生成器,完成抽象语法树到目标代码的转换。
5. 符号表(1)设计符号表:在编译过程中,需要记录变量、函数等信息,设计符号表实现这些信息的存储和管理。
(2)实现符号表:使用C语言或Java等编程语言实现符号表,完成变量、函数等信息的存储和管理。
6. 中间代码生成(1)设计中间代码生成器:根据源程序的语言规范,设计中间代码生成器,将抽象语法树转换成中间代码。
(2)实现中间代码生成器:使用C语言或Java等编程语言实现中间代码生成器,完成抽象语法树到中间代码的转换。
四、实验结果与分析1. 词法分析器能够正确识别源程序中的词法单元,并将它们转换成词法符号。
编译原理将高级语言转换为机器可执行代码
编译原理将高级语言转换为机器可执行代码编译原理是计算机科学中的一门重要课程,它研究高级语言程序如何被转换为机器可执行代码的过程。
本文将介绍编译原理的基本概念、主要步骤和常用方法。
一、编译原理概述编译原理是计算机科学中的一门重要课程,它研究高级语言程序如何被转换为机器可执行代码的过程。
编译器是实现这一转换过程的工具,它将高级语言程序作为输入,经过一系列的分析和优化,生成等价的机器可执行代码作为输出。
编译器的主要任务包括词法分析、语法分析、语义分析、中间代码生成、代码优化和代码生成等步骤。
下面将逐一介绍这些步骤。
二、词法分析词法分析是编译过程的第一步,它负责将源程序作为输入,按照事先定义好的词法规则将其划分为一个个单词(Token)。
词法分析器通常使用有限状态自动机来实现,它根据输入字符流的状态进行状态转换,最终输出词法单元流。
三、语法分析语法分析是编译过程的第二步,它负责将词法分析器输出的词法单元流进行分析,并根据事先定义好的语法规则构建语法树。
语法分析器通常使用自上而下的递归下降分析法或自下而上的移进-规约分析法进行语法解析。
四、语义分析语义分析是编译过程的第三步,它负责对语法树进行分析并进行语义检查。
语义分析器会检查变量的声明和使用是否符合语言规范,进行类型检查等操作。
在这一步骤中,编译器还会生成符号表,用于记录变量和函数的信息。
五、中间代码生成中间代码生成是编译过程的第四步,它负责将语法树转换为中间代码。
中间代码是一种介于源代码和目标代码之间的抽象表示形式,它比源代码更接近于目标代码,但又比目标代码更容易生成和优化。
常用的中间代码表示形式有三地址码、四地址码和虚拟机代码等。
中间代码生成器根据语法树的结构和语义信息,将源代码转换为中间代码表示。
六、代码优化代码优化是编译过程的第五步,它负责对中间代码进行分析和优化。
代码优化的目标是提高程序的执行效率和资源利用率,减少程序的执行时间和内存消耗。
常用的代码优化技术包括常量折叠、公共子表达式消除、循环优化和内联函数等。
编译原理-词法分析(附源码)
词法分析实验报告一、实验项目名称词法分析二、实验目的通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。
并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。
三、实验环境Windows 10Microsoft Visual Studio 2015四、实验内容编制一个读单词过程,源程序为一个文件,读取该文件,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、界符五大类。
并依次输出各个单词的内部编码及单词符号自身值。
单词的内部编码如下:1、保留字:if、int、for、while、do、return、break、continue;单词种别码为1;2、标识符:除保留字外的以字母开头,后跟字母、数字的字符序列;单词种别码为2;3、常数为无符号整形数;单词种别码为3;4、运算符包括:+、-、*、/、=;单词种别码为4;5、分隔符包括:,、;、{、}、(、);单词种别码为5。
五、实验步骤在词法分析中,自文件头开始扫描源程序字符,一旦发现符合“单词”定义的源程序字符串时,将它翻译成固定长度的单词内部表示,并填入适当的信息表。
经过词法分析后,源程序字符串(源程序的外部表示)被翻译成具有等长信息的单词串(源程序的内部表示),并产生两个表格:常数表和标识符表,它们分别包含了源程序中的所有常数和所有标识符。
(1) 定义部分:定义常量、变量、数据结构。
(2) 初始化:从文件将源程序全部输入到字符缓冲区中。
(3) 取单词前:去掉多余空白。
(4) 取单词:利用实验一的成果读出单词的每一个字符,组成单词,分析类型。
(5) 显示结果六、源程序清单、测试数据、结果#include<iostream>#include<string>#include<fstream>#define MAX 100using namespace std;void main(){//二维char数组主存储的初始化char a[MAX][15], ch = 'a', before;int i = 0, j = 0;for (i = 0; i < MAX; i++){for (j = 0; j < 15; j++){a[i][j] = NULL;}}i = 0;j = 0;fstream file;//文件打开并读入字符file.open("D:\\text.txt",ios::in);if (file){cout <<"文件打开成功"<< endl;}while (!file.eof())//换行是10,空格是32{before = ch;file.read(&ch, 1);//**********************************************************************符号*******************************************************************||||*************************************************************前一字符为符号当前为字母数字*************************************************************************************** *******************************************************************||if ( ((ch >= 32 && ch <= 47) || (ch == 10) || (ch >= 58 && ch <= 64) ||(ch >= 91 && ch <= 94 )||(ch==96)||( ch >= 123 && ch <= 126)) || (((before >= 32 && before <= 47) || (before == 10) || (before >= 58 && before <= 64) || (before >= 91 && before <= 94) || (before == 96) || (before >= 123 && before <= 126))) && (ch > 65 && ch <= 90 || ch >= 97 && ch <= 122 || ch>=48 && ch<=57) ){if (ch != 32 && ch != 10){i++;j = 0;}}if (ch != 32 && ch != 10){a[i][j] = ch;j++;}}file.close();ofstream fileout("D:\\out.txt", ios::ate);//判断字符串并输出for (int k = 0; k < i; k++){if (a[k][0] >= 65 && a[k][0] <= 90 || a[k][0] >= 97 && a[k][0] <= 122)//判断第一个字符是字母{if (a[k][1] >= 65 && a[k][1] <= 90 || a[k][1] >= 97 && a[k][1] <= 122)//判断第二个字符是字母{//判断是不是保留字string AA(a[k]);if (pare("if") == 0){cout <<"(1,\"if\")"<< endl;fileout <<"(1,\"if\")\n";}else if (pare("int") == 0){cout <<"(1,\"int\")"<< endl;fileout <<"(1,\"int\")\n";}else if (pare("for") == 0){cout <<"(1,\"for\")"<< endl;fileout <<"(1,\"for\")\n";}else if (pare("while") == 0){cout <<"(1,\"while\")"<< endl;fileout <<"(1,\"while\")\n";}else if (pare("do") == 0){cout <<"(1,\"do\")"<< endl;fileout <<"(1,\"do\")\n";}else if (pare("return") == 0){cout <<"(1,\"return\")"<< endl;fileout <<"(1,\"return\")\n";}else if (pare("break") == 0){cout <<"(1,\"break\")"<< endl;fileout <<"(1,\"break\")\n";}else if (pare("continue") == 0){cout <<"(1,\"continue\")"<< endl;fileout <<"(1,\"break\")\n";}else{cout <<"(2,\""<< AA <<"\")"<< endl;fileout <<"(2,\""<< AA <<"\")\n";}}else if (a[k][1] >= '0' || a[k][1] <= '9'){string AA(a[k]);cout <<"(2,\""<< AA <<"\")"<< endl;fileout <<"(2,\""<< AA <<"\")\n";}}else if (a[k][0] >= '0' && a[k][0] <= '9'){int judge = 0;int sss = 1;while(a[k][sss]!=NULL){if (a[k][sss] < '0' || a[k][sss] > '9' ){judge = 1;}sss++;}string AA(a[k]);if (judge == 0){cout <<"(3,\""<< AA <<"\")"<< endl;fileout <<"(3,\""<< AA <<"\")\n";}else{cout <<"(错误的单词:"<< AA <<"\")"<< endl;fileout <<"(错误的单词:"<< AA <<"\")\n";}}else if (a[k][0] == 42 || a[k][0] == 43|| a[k][0] == 45 || a[k][0] == 47 ||a[k][0] == 61){string AA(a[k]);cout <<"(4,\""<< AA <<"\")"<< endl;fileout <<"(4,\""<< AA <<"\")\n";}else if (a[k][0] == 44 || a[k][0] == 59 || a[k][0] == 40 || a[k][0] == 41 || a[k][0] == 123 || a[k][0] == 125){string AA(a[k]);cout <<"(5,\""<< AA <<"\")"<< endl;fileout <<"(5,\""<< AA <<"\")\n";}else if(a[k][0]!=NULL){string AA(a[k]);cout <<"(不支持的符号:"<< AA <<"\")"<< endl;fileout <<"(不支持的符号:"<< AA <<"\")\n";}}fileout.close();}七、实验小结和思考在本次实验中,我遇到了很多小问题,值得一提的是在拆输入的字符串时如何拆分成正确的单词,这很重要,拆分单词时我用的是识别字符的ACSCii码以及字符前后的组合,将识别出的单词存入已初始化的字符数组中。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验一词法分析一、实验目的和要求通过设计编制调试一个具体的词法分析程序,加深对词法分析原理的理解。
并掌握在对程序设计语言源程序进行扫描过程中将其分解为各类单词的词法分析方法。
编制一个读单词过程,从输入的源程序中,识别出各个具有独立意义的单词,即基本保留字、标识符、常数、运算符、分隔符五大类。
并依次输出各个单词的内部编码及单词符号自身值。
(遇到错误时可显示“Error”,然后跳过错误部分继续显示)二、实验过程(1)程序思路这里以开始定义的C语言子集的源程序作为词法分析程序的输入数据。
在词法分析中,自文件头开始扫描源程序字符,一旦发现符合“单词”定义的源程序字符串时,将它翻译成固定长度的单词内部表示,并查填适当的信息表。
经过词法分析后,源程序字符串(源程序的外部表示)被翻译成具有等长信息的单词串(源程序的内部表示),并产生两个表格:常数表和标识符表,它们分别包含了源程序中的所有常数和所有标识符。
0.定义部分:定义常量、变量、数据结构。
1.初始化:从文件将源程序全部输入到字符缓冲区中。
2.取单词前:去掉多余空白。
3.取单词后:去掉多余空白。
4.取单词:利用实验一的成果读出单词的每一个字符,组成单词,分析类型。
循环取字符,直到遇到“#”字符就停止扫描。
5.显示结果。
(2)程序实现部分代码char *table[7]={" ","main","int","if","then","else","return"}; //定义关键字char *table1[5]={"++",">=","<=","!=","=="}; //定义运算符符号int lookup(char *TOKEN) //关键字匹配函数,查询所述程序中的关键字{int m,i;for(i=0;i<=6;i++){if((m=strcmp(TOKEN,table[i]))==0)return 1;}return 0;}int lookup1(char *TOKEN) //判断>= <= != ==,方法与lookup()相似int lookup2(int i,char *TOKEN) //判断数字加字母的情况{int j;for(j=1;j<i;j++){if(TOKEN[j]>='a'||TOKEN[j]>='A')return 1;}return 0;}bool zimu(char ch) //bool类型函数,判断是否为字母{if(ch>='a'&&ch<='z'||ch>='A'&&ch<='Z')return true;elsereturn false;}bool shuzi(char ch) //判断是否为数字,方法与zimu()类似bool fuhao(char ch) //判断双字符{if(ch=='+'||ch=='>'||ch=='<'||ch=='!'||ch=='=')return true;elsereturn false;}void out(int c,char *TOKEN) //输出函数形式为(c,“TOKEN”){printf("( %d,“%s”)\n",c,TOKEN);}void scanner(FILE *fp) //扫描函数{char TOKEN[20]={'\0'};int i;ch=fgetc(fp); //获取字符,指针fp并自动指向下一个字符if(zimu(ch)) //判断该字符是否是字母{TOKEN[0]=ch;ch=fgetc(fp); //fgetc(fp)从数据流中读取一个字符i=1;while(shuzi(ch)|| zimu(ch)) //判断该字符是否是字母或数字{TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);if(lookup(TOKEN)) //判断是关键字还是普通的标识符out(1,TOKEN);elseout(2,TOKEN);}else if(shuzi(ch)){TOKEN[0]=ch;ch=fgetc(fp); //fgetc(fp)从数据流中区下一个字符i=1;while(shuzi(ch)||zimu(ch)) //判断该字符是否是字母或数字{ TOKEN[i]=ch;ch=fgetc(fp);i++; }fseek(fp,-1,1);if(lookup2(i,TOKEN)) //如果出现2a的情况下,判断为错误语法printf("(error,“%s”)\n",TOKEN);elseout(3,TOKEN);}else if(fuhao(ch)) //符号函数,用来判断是否是双运算符{TOKEN[0]=ch;ch=fgetc(fp);i=1;while(fuhao(ch)){TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);//调用lookpu1()判断符号是否为table1[5]里的双运算符if(lookup1(TOKEN))out(4,TOKEN);elseout(4,TOKEN);}//判断一般运算符,一般运算符有+、-、*、/、=等,这里以“+”为例else if(ch=='+'){TOKEN[0]=ch;out(4,TOKEN);}//判断分隔符,分隔符有,、;、{、}、[、]、(、)等,这里以“;”为例else if(ch==';'){TOKEN[0]=ch;out(5,TOKEN);}}//main()函数在此省略三、调试错误在程序初步完成时,运行程序就出现了错误,文件读取错误,后来仔细分析了mian()函数的代码,也没有检查出来什么,别人的这种错误都是因为把文件名写成了123.txt.txt,我的并没有这种错误还是打不开,最后还是看了看前面的代码,发现在判断数字的函数那里我把并且符号&&写成了或者符号||,改正之后程序正常运行。
除此还有像双运算符无法识别,那是因为我没有写有关的代码,最后补充了lookup2()还定义了table1[5],用来判断是否出现双运算符的情况,经过调试,双运算符也识别成功。
四、实验结果测试数据:D盘的一个名为123.txt文本文件里的内容如下:main(){int a,b1;b1=10;a<=b1;}#运行结果:运行结果如图1所示,可看出,像<=双字符以及2b1这样的错误语法都给分析了出来,算是达到了预期的效果。
图1 运行结果五、实验总结本实验是为了完成词法分析,正好是编译原理这门课程的理论到实践的一个机会。
原本是怀着期待的心情等到这堂课的,但是看到老师给出的要求,自己要实现功能却一点思路都没有,感觉无从下手。
还好老师给出了一大部分的代码,我们只需补充完整就好,这样对于我们来说就轻松了不少。
刚下手时就开始查资料,翻书,了解老师给出代码中出现的不同函数的作用,其中最多的也就是关于文件的函数,了解了整体框架后就好办了,整体有了一点思路,我只需把判断代码补充好就行。
所以,根据老师给出的判断关键字的函数lookup(),我模仿写了关于判断双运算符号的函数lookup1(),又根据zimu()和shuzi()补充了判断一个字符是字母还是数字的这两个函数。
if(zimu(ch))是用来判断一个字符是不是字母,进而判断它后面的字符是数字还是字母,直到扫描到非字母非数字,再去调用lookup()函数此字符串是不是关键字,是关键字就输出(1,TOKEN),不是关键字就是普通标示符则输出(2,TOKEN);根据zimu()我又添加了else if(shuzi(ch))用来判断一个字符是不是数字,知道扫描到的下一个字符是非数字借书扫描输出(3,)TOKEN;接着再写else if(fuhao())用来判断一个字符是不是一般的运算符号,是则输出(4,TOKEN);最后又补充了几个关于一般的运算符号以及分隔符的判断函数。
再结合mian函数,程序基本上就算是完成了。
但是还有很多细节没有涉及到,像<=这样的双运算符还有像2a这样的错误代码的判断还没有涉及到,关于2a的这种情况就是在判断完数字后在判断下一个字符是否是数字或者字母,如果是字母就输出错误形式(error,TOKEN),如果还是数字那就是纯数字属于第三类,输出(3,TOKEN),这样就把判断函数给补充完整了,这样的程序才更完善。
其中有些特殊的运算符像::或者其他错误的特殊符号此程序中并没有全部涉及到,但是是可以手动添加的,也就是说此程序的扩展性很好。
在程序实现的过程中,很必然的出现了很多错误,最后也都一一解决了,有关遇到的问题在调试错误这部分已具体列出。
总的来说,这次程序的实现并不是很顺利,最后也达到了效果,不过这其中的过程还是让我学到了很多。
虽然已经距离学习C++有很长一段时间了,但这个语言在计算机专业还是有一定作用的,它其中有关的函数还有很多是我不知道的,在这一方面应该加强学习。
此外还有关于编译原理这门课程的,很明显,这门课程对我们了解程序的编译问题起到了很好的作用,很有学好的必要,以后我肯定会更加努力的学习其中的理论知识和理论方法,以便对我以后的工作提供良好的帮助。
源代码:#include<stdio.h>#include<string.h>#include<stdlib.h>#include<ctype.h>char *table[7]={" ","main","int","if","then","else","return"}; //定义关键字char *table1[10]={"+","-","*","/","<",">","=",">=","<=","!="}; //定义运算符符号char ch;int lookup(char *TOKEN) //关键字匹配函数,查询所述程序中的关键字{int m,i;for(i=0;i<=6;i++){if((m=strcmp(TOKEN,table[i]))==0)return 1;}return 0;}int lookup1(char *TOKEN) //判断>= <= !={int m,i;for(i=0;i<=9;i++){if((m=strcmp(TOKEN,table1[i]))==0)return 1;}return 0;}int lookup2(int i,char *TOKEN){int j;for(j=1;j<i;j++){if(TOKEN[j]>='a'||TOKEN[j]>='A')return 1;}return 0;}bool zimu(char ch)//判断是否为字母{if(ch>='a'&&ch<='z'||ch>='A'&&ch<='Z') return true;elsereturn false;}bool shuzi(char ch)//判断是否为数字{if(ch>='0'&& ch<='9')return true;elsereturn false;}bool fuhao(char ch){if(ch=='>'||ch=='<'||ch=='!='||ch=='=')return true;elsereturn false;}void out(int c,char *TOKEN) //输出函数{printf("( %d,“%s”)\n",c,TOKEN);}void scanner(FILE *fp) //扫描函数{char TOKEN[20]={'\0'};int i;ch=fgetc(fp); //获取字符,指针fp并自动指向下一个字符if(zimu(ch)) //判断该字符是否是字母{TOKEN[0]=ch;ch=fgetc(fp); //fgetc(fp)从数据流中读取一个字符i=1;while(shuzi(ch)|| zimu(ch)) //判断该字符是否是字母或数字{TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);if(lookup(TOKEN)) //判断是关键字还是普通的标识符out(1,TOKEN);elseout(2,TOKEN);}else if(shuzi(ch)){TOKEN[0]=ch;ch=fgetc(fp); //fgetc(fp)从数据流中区下一个字符i=1;while(shuzi(ch)||zimu(ch)) //判断该字符是否是字母或数字{TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);if(lookup2(i,TOKEN))printf("<error,%s>\n",TOKEN);elseout(3,TOKEN);}else if(fuhao(ch)){TOKEN[0]=ch;ch=fgetc(fp);i=1;while(fuhao(ch)){TOKEN[i]=ch;ch=fgetc(fp);i++;}fseek(fp,-1,1);if(lookup1(TOKEN))out(4,TOKEN);elseout(4,TOKEN);}//判断分隔符并输出else if(ch==','){TOKEN[0]=ch;out(5,TOKEN);}else if(ch==';'){TOKEN[0]=ch;out(5,TOKEN); }else if(ch=='{') {TOKEN[0]=ch;out(5,TOKEN); }else if(ch=='}') {TOKEN[0]=ch;out(5,TOKEN); }else if(ch=='(') {TOKEN[0]=ch;out(5,TOKEN); }else if(ch==')') {TOKEN[0]=ch;out(5,TOKEN); }else if(ch=='[') {TOKEN[0]=ch;out(5,TOKEN); }else if(ch==']') {TOKEN[0]=ch;out(5,TOKEN); }}int main(){FILE *fp;//读取文件内容,并返回文件指针,该指针指向文件的第一个字符if((fp=fopen("E:\\12.txt","r"))==NULL){fprintf(stderr,"error opening.\n");exit(1);}do{ch=fgetc(fp);if(ch=='#') //文件以#结尾,作为扫描结束条件break;if(ch==' ') //如果是空格,自动跳到下个字符scanner(fp);else{fseek(fp,-1,1); //如果不是空格,则回退一个字符并扫描scanner(fp);}}while(ch!='#');return 0;}。