词法分析器,C语言写的,很不错
C语言词法分析器设计与实现
> C语言词法分析器设计与实现C语言词法分析器的设计与实现一.实验目的1.强化对系统软件综合工程实现能力、规划能力的训练;2.加强对词法分析原理、方法和基本实现技术的理解;二.实验内容用C语言(或 C++ )作为宿主语言完成:其中具体要求:1.使用DFA实现词法分析器的设计;2.实现对C源程序中注释的过滤;3.利用两对半缓冲区从文件中逐一读取单词;4.词法分析结果属性字流存放在独立文件中;5.统计源程序每行单词的个数和整个源文件单词个数;6.具有报告词法错误和出错位置(源程序行号和该行字符)的功能;7.屏幕输出属性字流,每次显示10行,按ESC可中途退出,每行有统计信息,最后有词法分析的全部信息,包括各种属性单词的个数。
三.实验验收与评分要求1.编写C语言词法分析器的源程序并调试通过;2.通过测试程序的验收 (测试程序名称:Test-Lexcial);3.提交简明扼要的书面实验报告。
内容包括:FA设计;源程序主要函数功能;主要数据结构设计。
四. 验收测试用例1. 测试用例一:统一验收测试用例;#include<stdio.h>#include<string.h>char buf[100],str[15];int countdef=0;FILE *fpmiddle;struct define{char with[30];char des[30];char filename[15];}def[30];char* getFileName(){int i=0,k=0;for(i=0;buf[i]!='<'&&i<30&&buf[i]!='\0';i++);i++;while(buf[i]!='>'&&i<30&&buf[i]!='\0')str[k++]=buf[i++];str[k]='\0';puts(str);return str;}long readline(FILE *fpt){if(fgets(buf,100,fpt)==NULL){puts(buf);printf("readline error or reach file end!\n");return 0;}puts(buf);return (long)(strlen(buf)+1);}void writeline(){fprintf(fpmiddle,"%s",buf);}void processDefine(char *filename){int i=8,j=0;while((def[countdef].des[i-8]=buf[i])!=' ') i++;def[countdef].des[i-8]='\0';while((def[countdef].with[j]=buf[i])!='\0'){i++;j++;}def[countdef].with[j-1]='\0';strcpy(def[countdef].filename,filename);countdef++;}long comment(FILE *fpt){char prechar=buf[0],ch='*';int i=0,j=0;for(i=0;buf[i]!='\0'&&!(buf[i]=='/'&&buf[i+1]=='*');i++) ;j=i;buf[i]='\0';if(i==strlen(buf)) return 0L;do{prechar=ch;if((ch=fgetc(fpt))==EOF){printf(" in comment, end");exit(0);}i++;}while(!(prechar=='*'&&ch=='/'));return (long)(i-j+1);}isin(char *p){int i=0,j=0,temp=0;while(temp!=strlen(buf)){while(buf[i]!='\0'&&buf[i]!=p[0])i++;temp=i;while(buf[i]==p[j]&&p[j]!='\0'&&buf[i]!='\0'){i++;j++;}if((i-temp)==strlen(p)) return temp;i=temp+1;j=0;}return -1;}void includeAndDefine(FILE *fpt){void add(char*);void replace(char*);while(readline(fpt)){if(isin("#include")>=0)add(getFileName());else if(isin("#define")>=0)processDefine(str);else{fseek(fpt,comment(fpt),1);replace(str);writeline();}}}void add(char *filename){void replace(char*);FILE *fpp;if((fpp=fopen(filename,"r"))==NULL){printf("file %s not found or open error!",filename);exit(0);}fseek(fpp,-readline(fpp),1);if(isin("#include")<0&&isin("#define")<0)while(readline(fpp)){fseek(fpp,comment(fpp),1);replace(filename);writeline();}elseincludeAndDefine(fpp);fclose(fpp);}void replace(char *filename){int i=0,start=0;for(i=0;i<countdef;i++)if(!strcmp(def[i].filename,filename))break;if(i>=countdef||(start=isin(def[i].des))==-1) return;else{int lenOfWith=strlen(def[i].with);int lenOfDes=strlen(def[i].des);if(lenOfDes>=lenOfWith){int k,j;for(k=start; k<start+lenOfWith; k++)buf[k]=def[i].with[k-start];for(j=(start+lenOfWith); j<start+lenOfDes; j++) buf[j]=' ';}else{int offset=lenOfWith-lenOfDes;int k,j;for(k=offset+strlen(buf);k>start;k--)buf[k]=buf[k-offset];for(j=start;j<start+lenOfWith;j++)buf[j]=def[i].with[j-start];}}}2. 自己编写的C语言词法分析器源码。
词法分析及其C语言实现
或 E前面的尾 数部 分必须 有数字 , 面的指 数部 分必 须是 后
整数 。如果程 序中出现 了 E 5 -5或 1E . , 法分析 器就应 0 05词
该报错。但是 , 因为词法分析器只是 掌握 了程 序及 其语言的
1 3 词法分析器 的实现模式 .
在编译程序中 , 词法分 析器可 以有两种 实现 模式 : 完全 独立模式和相对独立模式 。编译 程序 采用哪种模 式 实现词
法分析器完全取决 于实现者 的总体考虑 。
1 4 词法出错处理 .
它的主要任务是 逐个地扫 描构成源程序的字符流 , 把它们 翻
杂得多 , 仅仅在 词法分析阶段 是无法获得一个标识符的所有 信息 的。
收 稿 日期 :0 6 1 2 修 回 日期 :0 7 1 2 2 0 一l —2 2 0 —0 — 2
中单词识别的方法是 :) 当前字 符是字母 , 向判断所 1若 则转 要识别的单词是标识符还是关键字 , 并将结果插 入到单词 二
填写在符号表 中; 同时把源程序 改造成 等价的计算机 内部表
示——单词记号 , 以便编译 的后续 阶段使用 。 词法分析器所输 出的 中关键 字表 , 号表 ( %d的符 。其 符 运 算符 和分界符 ) 预先建好 。
译 成有 意义的单 词序列 , 提供给语法分析器。
在词法分析阶段发现 的错误统称为词 法错 误 , 大多 它们
是单词拼写错误 。有些 单词元素 由特定 的规定 也 能发 现错 误 。例如 , C+ +语 言 中 , 在 实型 常量 的指 数 形式 要求 在 e
1 词 法分 析器 的设 计
简单C语言编译器
简单C语言编译器编译器是一种将高级语言转换为机器语言的软件工具。
它是编译原理中的一个重要概念,负责将程序源代码转换成可执行文件。
在这个过程中,编译器会对源代码进行词法分析、语法分析、语义分析和代码优化等操作。
一个简单的C语言编译器包含以下主要组件:1. 词法分析器(Lexer):词法分析器将源代码分割成一个个词素(token),例如关键字、标识符、运算符和常量等。
它可以通过有限自动机(DFA)来实现,也可以使用现有的词法分析工具如Lex。
2. 语法分析器(Parser):语法分析器根据对应的语法规则,将一系列的词素组合成语法树。
它可以通过上下文无关文法(CFG)来实现,例如使用自顶向下的递归下降分析法或自底向上的移入-规约分析法。
3. 语义分析器(Semantic Analyzer):语义分析器对语法树进行语义检查,例如检查变量的声明和使用是否匹配、类型转换是否合法、函数调用是否正确等。
它还可以生成符号表,用于存储程序中的变量、函数和类型等信息。
4. 中间代码生成器(Intermediate Code Generator):中间代码生成器将语法树转换成一种中间表示形式,通常是三地址码、虚拟机指令或者抽象语法树。
该中间表示形式能够方便后续的代码优化和目标代码生成。
5. 代码优化器(Code Optimizer):代码优化器对中间代码进行优化,以提高目标代码的性能。
常见的优化技术包括常量折叠、复写传播、循环展开、函数内联等。
优化器的目标是在不改变程序行为的前提下,尽可能地减少执行时间和存储空间。
6. 目标代码生成器(Code Generator):目标代码生成器将优化后的中间代码转换成机器语言代码。
它可以根据目标平台的特点选择合适的指令集和寻址方式,并生成可以被计算机硬件执行的程序。
7. 符号表管理器(Symbol Table Manager):符号表管理器负责管理程序中的符号表,其中包含了变量、函数和类型等信息。
编译原理----词法分析程序----C语言版
编译原理----词法分析程序----C语⾔版#include<stdio.h>#include<string.h>#include<stdlib.h>char KeyWord[20][100]={"begin","end","if","while","var","procedure","else","for","do","int","read","write"};char yunsuanfu[]="+-*/<>%=";char fenjiefu[]=",;(){}:";int main(){char test[]="var a=10;\nvar b,c;\nprocedure p; \n\tbegin\n\t\tc=a+b\n\tend\n";int len_yunsuanfu=strlen(yunsuanfu);int len_fenjiefu=strlen(fenjiefu);puts(test);int length=strlen(test),i,j,k;for(i=0;i<length;i++){if(test[i]==' '||test[i]=='\n'||test[i]=='\t')continue;int tag=0;for(j=0;j<len_fenjiefu;j++){if(fenjiefu [j]==test[i]){printf("分界符\t%c\n",test[i]);tag=1;break;}}if(tag==1)continue;tag=0;for(j=0;j<len_yunsuanfu;j++){if(yunsuanfu[j]==test[i]){printf("运算符\t%c\n",test[i]);tag=1;break;}}if(tag==1)continue;if(test[i]>='0'&&test[i]<='9'){printf("数字\t");while(test[i]>='0'&&test[i]<='9'){printf("%c",test[i]);i++;}printf("\n");continue;}char temp[100];j=0;while(test[i]>='0'&&test[i]<='9'||test[i]>='a'&&test[i]<='z'||test[i]>='A'&&test[i]<='Z'||test[i]=='_') {temp[j++]=test[i];i++;}i--;temp[j++]='\0';tag=0;for(j=0;j<20;j++){if(strcmp(temp,KeyWord[j])==0){tag=1;printf("关键字\t%s\n",temp);break;}}if(tag==0)printf("标识符\t%s\n",temp);}}。
基于LEX的C语言词法分析器
基于LEX的C语言词法分析器下面是一个基于LEX的C语言词法分析器的示例代码:```c#include <stdio.h>%}letter [a-zA-Z]digit [0-9]id {letter}({letter},{digit})*number {digit}+(\.{digit}+)?([eE][+-]?{digit}+)?%%{number} { printf("Number: %s\n", yytext); }{if} { printf("If: %s\n", yytext); }{else} { printf("Else: %s\n", yytext); }{while} { printf("While: %s\n", yytext); }{for} { printf("For: %s\n", yytext); }{id} { printf("Identifier: %s\n", yytext); }[ \t\n]+ // ignore white space. { printf("Unrecognized character: %c\n", yytext[0]); }%%int maiyylex(;return 0;```在上述代码中,首先是一些初始化的定义,定义了一些正则表达式模式,例如`letter`表示字母,`digit`表示数字,`id`表示标识符,`number`表示数字。
然后是各个模式的匹配规则和对应的处理逻辑。
其中,`{number}`表示如果匹配到了数字模式,就打印出该数字;`{if}`、`{else}`、`{while}`、`{for}`和`{id}`分别表示匹配到了if、else、while、for关键字和标识符,就打印出对应的信息;`[ \t\n]+`表示忽略空格和换行符;`.`表示匹配到了其他未定义的字符,就打印出异常信息。
C语言词法分析器和C-语言语法分析器编译原理课程设计
《编译原理课程设计》课程报告题目 C语言词法分析器和C-语言语法分析器学生姓名学生学号指导教师提交报告时间 2019 年 6 月 8 日C语言词法分析器1 实验目的及意义1.熟悉C语言词法2.掌握构造DFA的过程3.掌握利用DFA实现C语言的词法分析器4.理解编译器词法分析的工作原理2 词法特点及正则表达式2.1词法特点2.1.1 保留字AUTO, BREAK , CASE , CHAR , CONST , CONTINUE , DEFAULT , DO , DOUBLE , ELSE,ENUM , EXTERN , FLOAT , FOR , GOTO,IF , INT , LONG , REGISTER , RETURN,SHORT , SIGNED , SIZEOF , STATIC , STRUCT ,SWITCH , TYPEDEF , UNION , UNSIGNED , VOID,VOLATILE , WHILE,2.1.2 符号+ - * / ++ -- += -= *= < <= > >= == != = ; , ( ) [ ] { } /* */ :2.2 正则表达式whitespace = (newline|blank|tab|comment)+digit=0|..|9nat=digit+signedNat=(+|-)?natNUM=signedNat(“.”nat)?letter = a|..|z|A|..|ZID = letter(letter|digit|“_”)+CHAR = 'other+' STRING = “other+”3 Token定义3.2 tokenType类型代码4 DFA设计4.1 注释的DFA设计注释的DFA如下所示,一共分为5个状态,在开始状态1时,如果输入的字符为/, 则进入状态2,此时有可能进入注释状态,如果在状态2时,输入的字符为*,则进入注释状态,状态将转到3,如果在状态3时,输入的字符为*,则有可能结束注释状态,此时状态将转到状态4,如果在状态4时输入的字符为/,则注释状态结束,状态转移到结束状态。
用C语言实现简单的词法分析器
⽤C语⾔实现简单的词法分析器词法分析器⼜称扫描器。
词法分析是指将我们编写的⽂本代码流解析为⼀个⼀个的记号,分析得到的记号以供后续语法分析使⽤。
词法分析器的⼯作是低级别的分析:将字符或者字符序列转化成记号.。
要实现的词法分析器单词符号及种别码对照表:单词符号#begin if then while do End+-*/:: =种别码0123456131415161718单词符号<<><=>>==;()Letter(letter|digit)digit digit*种别码2021222324252627281011#include<stdio.h>#include<string.h>char input[200];//存放输⼊字符串char token[5];//存放构成单词符号的字符串char ch; //存放当前读⼊字符int p; //input[]下标int fg; //switch标记int num; //存放整形值//⼆维字符数组,存放关键字char index[6][6]={"begin","if","then","while","do","end"};main(){p=0;printf("please intput string(End with '#'):\n");do{ch=getchar();input[p++]=ch;}while(ch!='#');p=0;do{scaner();switch(fg){case 11:printf("( %d,%d ) ",fg,num);break;case -1:printf("input error\n"); break;default:printf("( %d,%s ) ",fg,token);}}while(fg!=0);getch(); //⽤于让程序停留在显⽰页⾯}/*词法扫描程序:*/scaner(){int m=0;//token[]下标int n;//清空token[]for(n=0;n<5;n++)token[n]=NULL;//获取第⼀个不为0字符ch=input[p++];while(ch==' ')ch=input[p++];//关键字(标识符)处理流程if((ch<='z'&&ch>='a')||(ch<='Z'&&ch>='A')){while((ch<='z'&&ch>='a')||(ch<='Z'&&ch>='A')||(ch<='9'&&ch>='0')){token[m++]=ch;ch=input[p++];}token[m++]='\0';ch=input[--p];fg=10;for(n=0;n<6;n++)if(strcmp(token,index[n])==0)//strcmp()⽐较两个字符串,相等返回0{fg=n+1;break;}}//数字处理流程else if((ch<='9'&&ch>='0')){num=0;while((ch<='9'&&ch>='0')){num=num*10+ch-'0';ch=input[p++];}ch=input[--p];fg=11;}//运算符界符处理流程elseswitch(ch){case '<':m=0;token[m++]=ch;ch=input[p++];if(ch=='>') //产⽣<>{fg=21;token[m++]=ch;}else if(ch=='=') //产⽣<={fg=22;token[m++]=ch;}else{fg=20;ch=input[--p];}break;case '>':token[m++]=ch;ch=input[p++];if(ch=='=') //产⽣>={fg=24;token[m++]=ch;}else //产⽣>{fg=23;ch=input[--p];}break;case ':':token[m++]=ch;ch=input[p++];if(ch=='=') //产⽣:={fg=18;token[m++]=ch;}else //产⽣:{fg=17;ch=input[--p];}break;case '+':fg=13;token[0]=ch;break; case '-':fg=14;token[0]=ch;break; case '*':fg=15;token[0]=ch;break; case '/':fg=16;token[0]=ch;break; case ':=':fg=18;token[0]=ch;break; case '<>':fg=21;token[0]=ch;break; case '<=':fg=22;token[0]=ch;break; case '>=':fg=24;token[0]=ch;break; case '=':fg=25;token[0]=ch;break; case ';':fg=26;token[0]=ch;break; case '(':fg=27;token[0]=ch;break; case ')':fg=28;token[0]=ch;break; case '#':fg=0;token[0]=ch;break; default:fg=-1;}}。
词法分析器实验报告
词法分析器实验报告词法分析器实验报告一、引言词法分析器是编译器中的重要组成部分,它负责将源代码分解成一个个的词法单元,为之后的语法分析提供基础。
本实验旨在设计和实现一个简单的词法分析器,以深入理解其工作原理和实现过程。
二、实验目标本实验的目标是设计和实现一个能够对C语言代码进行词法分析的程序。
该程序能够将源代码分解成关键字、标识符、常量、运算符等各种词法单元,并输出其对应的词法类别。
三、实验方法1. 设计词法规则:根据C语言的词法规则,设计相应的正则表达式来描述各种词法单元的模式。
2. 实现词法分析器:利用编程语言(如Python)实现词法分析器,将源代码作为输入,根据词法规则将其分解成各种词法单元,并输出其类别。
3. 测试和调试:编写测试用例,对词法分析器进行测试和调试,确保其能够正确地识别和输出各种词法单元。
四、实验过程1. 设计词法规则:根据C语言的词法规则,我们需要设计正则表达式来描述各种词法单元的模式。
例如,关键字可以使用'|'操作符将所有关键字列举出来,标识符可以使用[a-zA-Z_][a-zA-Z0-9_]*的模式来匹配,常量可以使用[0-9]+的模式来匹配等等。
2. 实现词法分析器:我们选择使用Python来实现词法分析器。
首先,我们需要读取源代码文件,并将其按行分解。
然后,针对每一行的代码,我们使用正则表达式进行匹配,以识别各种词法单元。
最后,我们将识别出的词法单元输出到一个结果文件中。
3. 测试和调试:我们编写了一系列的测试用例,包括各种不同的C语言代码片段,以测试词法分析器的正确性和鲁棒性。
通过逐个测试用例的运行结果,我们可以发现和解决词法分析器中的问题,并进行相应的调试。
五、实验结果经过多次测试和调试,我们的词法分析器能够正确地将C语言代码分解成各种词法单元,并输出其对应的类别。
例如,对于输入的代码片段:```cint main() {int a = 10;printf("Hello, world!\n");return 0;}```我们的词法分析器将输出以下结果:```关键字:int标识符:main运算符:(运算符:)运算符:{关键字:int标识符:a运算符:=常量:10运算符:;标识符:printf运算符:(常量:"Hello, world!\n"运算符:)运算符:;关键字:return常量:0运算符:;```可以看到,词法分析器能够正确地将代码分解成各种词法单元,并输出其对应的类别。
实验一、词法分析器(含源代码)
词法分析器实验报告一、实验目的及要求本次实验通过用C语言设计、编制、调试一个词法分析子程序,识别单词,实现一个C语言词法分析器,经过此过程可以加深对编译器解析单词流的过程的了解。
运行环境:硬件:windows xp软件:visual c++6.0二、实验步骤1.查询资料,了解词法分析器的工作过程与原理。
2.分析题目,整理出基本设计思路。
3.实践编码,将设计思想转换用c语言编码实现,编译运行。
4.测试功能,多次设置包含不同字符,关键字的待解析文件,仔细察看运行结果,检测该分析器的分析结果是否正确。
通过最终的测试发现问题,逐渐完善代码中设置的分析对象与关键字表,拓宽分析范围提高分析能力。
三、实验内容本实验中将c语言单词符号分成了四类:关键字key(特别的将main说明为主函数)、普通标示符、常数和界符。
将关键字初始化在一个字符型指针数组*key[]中,将界符分别由程序中的case列出。
在词法分析过程中,关键字表和case列出的界符的内容是固定不变的(由程序中的初始化确定),因此,从源文件字符串中识别出现的关键字,界符只能从其中选取。
标识符、常数是在分析过程中不断形成的。
对于一个具体源程序而言,在扫描字符串时识别出一个单词,若这个单词的类型是关键字、普通标示符、常数或界符中之一,那么就将此单词以文字说明的形式输出.每次调用词法分析程序,它均能自动继续扫描下去,形成下一个单词,直到整个源程序全部扫描完毕,从而形成相应的单词串。
输出形式例如:void $关键字流程图、程序流程图:程序:#include<string.h>#include<stdio.h>#include<stdlib.h>#include<ctype.h>//定义关键字char*Key[10]={"main","void","int","char","printf","scanf","else","if","return"}; char Word[20],ch; // 存储识别出的单词流int IsAlpha(char c) { //判断是否为字母if(((c<='z')&&(c>='a'))||((c<='Z')&&(c>='A'))) return 1;else return 0;}int IsNum(char c){ //判断是否为数字if(c>='0'&&c<='9') return 1;else return 0;}int IsKey(char *Word){ //识别关键字函数int m,i;for(i=0;i<9;i++){if((m=strcmp(Word,Key[i]))==0){if(i==0)return 2;return 1;}}return 0;}void scanner(FILE *fp){ //扫描函数char Word[20]={'\0'};char ch;int i,c;ch=fgetc(fp); //获取字符,指针fp并自动指向下一个字符if(IsAlpha(ch)){ //判断该字符是否是字母Word[0]=ch;ch=fgetc(fp);i=1;while(IsNum(ch)||IsAlpha(ch)){ //判断该字符是否是字母或数字Word[i]=ch;i++;ch=fgetc(fp);}Word[i]='\0'; //'\0' 代表字符结束(空格)fseek(fp,-1,1); //回退一个字符c=IsKey(Word); //判断是否是关键字if(c==0) printf("%s\t$普通标识符\n\n",Word);//不是关键字else if(c==2) printf("%s\t$主函数\n\n",Word);else printf("%s\t$关键字\n\n",Word); //输出关键字 }else //开始判断的字符不是字母if(IsNum(ch)){ //判断是否是数字Word[0]=ch;ch=fgetc(fp);i=1;while(IsNum(ch)){Word[i]=ch;i++;ch=fgetc(fp);}Word[i]='\0';fseek(fp,-1,1); //回退printf("%s\t$无符号实数\n\n",Word);}else //开始判断的字符不是字母也不是数字{Word[0]=ch;switch(ch){case'[':case']':case'(':case')':case'{':case'}':case',':case'"':case';':printf("%s\t$界符\n\n",Word); break;case'+':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word);//运算符“+=”}else if(ch=='+'){printf("%s\t$运算符\n\n",Word); //判断结果为“++”}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word); //判断结果为“+”}break;case'-':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word); }else if(ch=='-'){printf("%s\t$运算符\n\n",Word); //判断结果为“--”}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word); //判断结果为“-”}break;case'*':case'/':case'!':case'=':ch=fgetc(fp);if(ch=='='){printf("%s\t$运算符\n\n",Word);}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word);}break;case'<':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word); //判断结果为运算符“<=”}else if(ch=='<'){printf("%s\t$运算符\n\n",Word); //判断结果为“<<”}else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word); //判断结果为“<”}break;case'>':ch=fgetc(fp);Word[1]=ch;if(ch=='=') printf("%s\t$运算符\n\n",Word);else {fseek(fp,-1,1);printf("%s\t$运算符\n\n",Word);}break;case'%':ch=fgetc(fp);Word[1]=ch;if(ch=='='){printf("%s\t$运算符\n\n",Word);}if(IsAlpha(ch)) printf("%s\t$类型标识符\n\n",Word);else {fseek(fp,-1,1);printf("%s\t$取余运算符\n\n",Word);}break;default:printf("无法识别字符!\n\n"); break;}}}main(){char in_fn[30]; //文件路径FILE *fp;printf("\n请输入源文件名(包括路径和后缀名):");while(1){gets(in_fn);//scanf("%s",in_fn);if((fp=fopen(in_fn,"r"))!=NULL) break; //读取文件内容,并返回文件指针,该指针指向文件的第一个字符else printf("文件路径错误!请重新输入:");}printf("\n******************* 词法分析结果如下 *******************\n");do{ch=fgetc(fp);if(ch=='#') break; //文件以#结尾,作为扫描结束条件else if(ch==' '||ch=='\t'||ch=='\n'){} //忽略空格,空白,和换行else{fseek(fp,-1,1); //回退一个字节开始识别单词流scanner(fp);}}while(ch!='#');return(0);}4.实验结果解析源文件:void main(){int a=3;a+=b;printf("%d",a);return;}#解析结果:5.实验总结分析通过本次实验,让再次浏览了有关c语言的一些基本知识,特别是对文件,字符串进行基本操作的方法。
基于LEX的C语言词法分析器
实验二C-语言的词法分析器(基于Lex)1. 课程设计目标自动构造C-语言的的词法分析器,要求能够掌握编译原理的基本理论,,理解编译程序的基本结构,掌握编译各阶段的基本理论和技术,掌握编译程序设计的基本理论和步骤.,增强编写和调试高级语言源程序的能力,掌握词法分析的基本概念和实现方法,熟悉C-语言的各种Token。
2. 分析与设计基于Parser Genarator的词法分析器构造方法Lex输入文件由3个部分组成:定义集(definition),规则集(rule)和辅助程序集(auxiliary routine)或用户程序集(user routine)。
这三个部分由位于新一行第一列的双百分号分开,因此,Lex输入文件的格式如下{definitions}%%{rules}%%{auxiliary routines}而且第一部分用“%{”和“%}”括起来。
第一和第三个部分为C语言的代码和函数定义,第二个部分为一些规则。
定义正则表达式如下ID = letter letter*NUM = digit digit*Letter = a|…|z|A|…|ZDig it = 0|…|9Keyword = else|if|int|return|void|whileSpecial symbol = +|-|*|/|<|<=|>|>=|==|!=|=|;|,|(|)|[|]|{|}|/*|*/White space = “ ”Enter = \n在lex中的构造letter [A-Za-z]digit [0-9]id ({letter}|[_])({letter}|{digit}|[_])*error_id ({digit})+({letter})+num {digit}+whitespace [ \t]+enter [\n]+在Lex中的规则定义构造定义识别保留字规则"int"|"else"|"return"|"void"|"if"|"while"{Upper(yytext,yyleng);printf("%d 行",lineno);printf("%s reserved word\n",yytext);}//保留字定义识别数字规则{num}{printf("%d 行",lineno);printf("%s NUM\n",yytext);}//数字定义识别专用符号规则","|";"|"("|")"|"{"|"}"|"*"|"/"|"+"|"-"|">"|"<"|">="|"<="|"=="|"!="|"="|"/*"|"*/" {printf("%d 行",lineno);printf("%s special symbol\n",yytext);}//特殊符号定义识别标识符规则{id}{printf("%d 行",lineno);printf("%s ID\n",yytext);}//标识符定义识别错误的字符串规则当开头为数字的后面为字母的字符串时,是错误的标识符。
C语言编译原理词法分析和语法分析
C语言编译原理词法分析和语法分析编程语言的编写和使用离不开编译器的支持,而编译器的核心功能之一就是对代码进行词法分析和语法分析。
C语言作为一种常用的高级编程语言,也有着自己的词法分析和语法分析规则。
一、词法分析词法分析是编译器的第一阶段,也是将源代码拆分为一个个独立单词(token)的过程。
在C语言中,常见的单词包括关键字(如if、while等)、标识符(如变量名)、常量(如数字、字符常量)等。
词法分析器会根据预定义的规则对源代码进行扫描,并将扫描到的单词转化为对应的符号表示。
词法分析的过程可以通过有限自动机来实现,其中包括各种状态和状态转换规则。
词法分析器通常会使用正则表达式和有限自动机的方法来进行实现。
通过词法分析,源代码可以被分解为一个个符号,为后续的语法分析提供基础。
二、语法分析语法分析是编译器的第二阶段,也是将词法分析得到的单词序列转换为一棵具有语法结构的抽象语法树(AST)的过程。
在C语言中,语法分析器会根据C语言的文法规则,逐句解析源代码,并生成相应的语法树。
C语言的语法规则相对复杂,其中包括了各种语句、表达式、声明等。
语法分析的过程主要通过递归下降分析法、LR分析法等来实现。
语法分析器会根据文法规则建立语法树的分析过程,对每个语法结构进行逐步推导和分析,最终生成一棵完整的语法树。
三、编译器中的词法分析和语法分析在编译器中实现词法分析和语法分析是一项重要的技术任务。
编译器通常会将词法分析和语法分析整合在一起,形成一个完整的前端。
在C语言编译器中,词法分析和语法分析器会根据C语言的词法规则和文法规则,对源代码进行解析,并生成相应的中间表示形式,如语法树或者中间代码。
词法分析和语法分析的结果会成为后续编译器中各个阶段的输入,如语义分析、中间代码生成、目标代码生成等。
编译器的优化和错误处理也与词法分析和语法分析有密切关系。
因此,对词法分析和语法分析的理解和实现对于编译器开发者而言是非常重要的。
Simple C语言词法分析器的探讨与实践
> < > = =
G T L T G E L E
EQ
NE
[ ] ( )
/卑
年/
[ ] { )
[ zE _ A— r
][ -Za— A zO-9]
id
指
号 项
}l
向 符
表 表
请 注 意 . 果按 照 从 s r状 态 到 达 接 受状 态 如 tt a 3的边 的顺 序 . 意 味着 > 则 和一 个 与 之无 关 的字 符 已经 被读 过 。 由于这 个无 关字 符 不是关 系操作 符> 的一 部 分 .而是 下 一 个词 素 的一 部 分 .所 以 f - 0 r W r 针 必 须 回滚 一 个 字 符 。状 态 上 的 水表 示 ad指
wh i e 1 v i o d
( )
( )
符 , 果 该 字 符 是 > 则 转 向状 态 1 否 则 便 告 识 如 , , 别 > : 败 。到达 状 态 1时 。 下 一 个 字符 , 或> 失 遇 如
果 它 是=。 转 向状 态 2 否 则 标 有 o e 的边 表 明 则 . tr h 已经 转 向状态 3 。在 状态 2上 有双 圈 . 示它 是接 表 受状 态 。 当进 入这 个 状态 时 . 态转 换 图识别 了记 状
+ 一 木/ < < > >= == != = =
;, { ) 【 ]() 厂 水 水 /
图 31状态 转 换 图 .
( 下转 第 15页 ) 6
21 0 2年第 4期
福 建 电
脑
15 6
界 面 和遥 控逻 辑 .实 现一 个通 用 遥 控器 遥 控 多个 间的服 务发 现 问题 .这 些将 在后 续 的工作 中展 开 不 同类 型 的受 控 应 用 , 图 2 图 3所 示 。在 系统 研 究 。 如 ,
编译原理词法分析器
编译原理词法分析器编译原理是计算机科学中的重要领域,而词法分析器则是编译器的第一个阶段。
它的主要任务是将源代码转化为一个个词法单元,以便接下来的语法分析和语义分析等阶段进行处理。
在本文中,我们将深入探讨词法分析器的原理和实现。
一、什么是词法分析器词法分析器(Lexical Analyzer)是编译器中实现词法分析的部分。
它负责从源代码中提取出各个合法的词法单元,并进行分类和标记。
词法单元通常包括关键字、标识符、运算符、分隔符和常量等。
二、词法分析器的原理词法分析器的工作原理可以概括为以下几个步骤:1. 预处理:词法分析器首先会对源代码进行预处理,去除注释、替换宏定义等。
2. 分割:将预处理后的源代码分割成一个个字符。
3. 匹配:根据预定义的词法规则,将字符序列匹配到对应的词法单元上。
4. 标记:对每个词法单元都打上相应的标记,以便后续的语法分析。
三、词法分析器的实现1. 正则表达式:词法分析器通常使用正则表达式定义词法规则,用以匹配词法单元。
例如,使用正则表达式"\d+"可以匹配一个或多个数字。
2. 有限自动机:词法分析器可以通过构造有限自动机来进行词法分析。
有限自动机可以根据当前状态和输入字符进行状态转移,最终得到一个词法单元的序列。
3. 符号表:词法分析器使用符号表来存储已经识别出的标识符和关键字,并为每个标识符分配一个唯一的标识符号。
四、应用举例以C语言为例,假设我们要编写一个词法分析器来分析C源代码。
下面是一个简单的示例代码:```c#include <stdio.h>int main() {int a = 10;printf("Hello, World!\n");return 0;}```我们可以使用词法分析器将其分解为以下词法单元序列:1. 关键字:include、stdio、int、main、return2. 标识符:a3. 运算符:=4. 常量:105. 分隔符:()、{}6. 函数名:printf7. 字符串常量:"Hello, World!\n"通过词法分析器的处理,我们可以将源代码转化为一个个词法单元,为后续的语法分析提供准备。
编译原理词法分析和语法分析报告+代码[C语言版]
词法分析一、实验目的设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。
二、实验要求2.1 待分析的简单的词法(1)关键字:begin if then while do end所有的关键字都是小写。
(2)运算符和界符:= + - * / < <= <> > >= = ; ( ) #(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:ID = letter (letter | digit)*NUM = digit digit*(4)空格有空白、制表符和换行符组成。
空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。
2.2 各种单词符号对应的种别码:表2.1 各种单词符号对应的种别码2.3 词法分析程序的功能:输入:所给文法的源程序字符串。
输出:二元组(syn,token或sum)构成的序列。
其中:syn为单词种别码;token为存放的单词自身字符串;sum为整型常数。
例如:对源程序begin x:=9: if x>9 then x:=2*x+1/3; end #的源文件,经过词法分析后输出如下序列:(1,begin)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的算法思想:算法的基本任务是从字符串表示的源程序中识别出具有独立意义的单词符号,其基本思想是根据扫描到单词符号的第一个字符的种类,拼出相应的单词符号。
3.1 主程序示意图:主程序示意图如图3-1所示。
其中初始包括以下两个方面:⑴关键字表的初值。
关键字作为特殊标识符处理,把它们预先安排在一张表格中(称为关键字表),当扫描程序识别出标识符时,查关键字表。
如能查到匹配的单词,则该单词为关键字,否则为一般标识符。
关键字表为一个字符串数组,其描述如下:Char *rwtab[6] = {“begin”, “if”, “then”, “while”, “do”, “end”,};是图3-1(2)程序中需要用到的主要变量为syn,token和sum3.2 扫描子程序的算法思想:首先设置3个变量:①token用来存放构成单词符号的字符串;②sum用来整型单词;③syn用来存放单词符号的种别码。
C语言词法分析器构造实验报告(1)1
C 语言词法分析器构造实验报告02计算机(2) 2002374203 冯绍欣一、题目要求:完成一个C 语言的词法分析器的构造。
此词法分析器能识别附值语句、循环语句、条件语句、并能处理注释。
二、设计方案:这个词法分析器分析的主要关键字有:main, int, float, char, if, else, for, while, do, switch, case, break; default 。
选择要分析的c 文件,首先对其去掉注释和与空格处理,再根据字符的不同类型分析。
1、全局数据结构:字符数组 set[ ]:存放从文件中读到的所有字符;str[ ]:存放经过注释处理和预空格处理的字符;strtoken[ ]:存放当前分析的字符;结构体 KEYTABLE :存放关键字及其标号;全局字符变量 ch :当前读入字符;全局整型变量 sr, to :数组str, strtoken 的指针。
2、以层次图形式描述模块的组成及调用关系3、主要函数的设计要求(功能、参数、返回值):openfile :打开文件;GetChar :将下一个输入字符读到ch 中,搜索指示器前移一字符位置;GetBC :检查ch 中的字符是否为空白。
若是,则调用GetChar 直至ch 中进入一个非空白字符; Main ( )Openfile ( ) Analysis ( )Reflesh() Process()Set32()GetChar() GetBC()Concat()Reserve()IsLetter() IsDigit()Retract()GetChar()Concat :将ch 中的字符连接到strtoken 之后;IsLetter 和IsDigit :布尔函数过程,分别判断ch 中的字符是否为字母和数字;Reserve :整型函数过程,对strtoken 中的字符串查找关键字表,若是关键字则返回编码,否则返回-1;Retract :将搜索指示器回调一个字符位置,将ch 置为空白字符;reflesh :刷新,把strtoken 数组置为空;prearrange1:将注释部分置为空格;prearrange2:预处理空格,去掉多余空格;analysis:词法分析;main :主函数。
C语言实现词法分析器
C语⾔实现词法分析器问题描述:⽤C或C++语⾔编写⼀个简单的词法分析程序,扫描C语⾔⼩⼦集的源程序,根据给定的词法规则,识别单词,填写相应的表。
如果产⽣词法错误,则显⽰错误信息、位置,并试图从错误中恢复。
简单的恢复⽅法是忽略该字符(或单词)重新开始扫描。
相关词法规则<标识符>::=<字母><标识符>::=<标识符><字母><标识符>::=<标识符><数字><常量>::=<⽆符号整数><⽆符号整数>::=<数字序列><数字序列>::=<数字序列><数字><数字序列>::=<数字><字母>::=a|b|c|……|x|y|z<数字>::=0|1|2|3|4|5|6|7|8|9<加法运算符>::=+|-<乘法运算符>::=*|/<关系运算符>::=<|>|!=|>=|<=|==<分界符>::=,|;|(|)|{|}<保留字>::=main|int|if|else|while|do编写词法分析程序的步骤:(1)确定所要翻译的语⾔(或其⼦集)。
C语⾔(2)设计属性字,及各类表格,如标识符表、常量表、符号及其机内表⽰对照表等。
与词法分析有关的表格:1. 字符表保留字:main,int,if,else,while,do字母(全⼩写):a|b|c|……|x|y|z数字:0,1,2,3,4,5,6,7,8,9运算符和界符:<,>,!=,>=,<=,==,,,;,(,),{,}2. 特定单词机内表⽰表3.画出总控流程图及各个⼦程序的流程图。
4. 程序输⼊:⼀个存放C语⾔程序的s.txt⽂件输出:存放以(单词,种别码)形式输出的result.txt⽂件需要6个数组:1. 存储关键字 key[6]2. 存储对应下标关键字的种别码 keyNum[6]3. 存储运算符和界符 symbol[17]4. 存储运算符对应下标的种别码 symbolNum[17]5. 存储从⽂件中取出的每个字符(不包括括号)letter[1000]主要函数:TakeWord();功能:将⽂件letter[]中每个字符进⾏提取,找出关键字,输出种别码Num作为全局变量保存提取到字符的哪个下标1. 先提取⼀个字符,如果是字母,进⼊case1,调⽤identifier(),不断的提取字母或数字进⾏连接,没连接⼀个字符⽤int isKeyWord()程序(返回关键字种别码)判断是否为关键字,是就退出函数返回string,不是就继续执⾏函数,直到连接的字符不再是字母或数字,即此时字符串为标识符2. 如果是数字,进⼊case 2,调⽤Number()函数,不断进⾏字符串连接,知道下⼀个连接字符不再是数字3. 如果是符号,进⼊case 3,调⽤symbolStr()函数,如果是=,>,<,!,则要继续进⾏下个字符判断,其余符号可以直接返回其他辅助函数:int isSymbol()判断运算符和界符,并返回种别码bool isNum()判断是否为数字bool isLetter()判断是否为字母int isKeyWord()判断是否为关键字,是返回种别码int typeword()返回单个字符的类型string identifier()标识符的连接string symbolStr()符号和界符的连接string Number()数字的连接void print()输出程序:#include <iostream>#include<stdio.h>#include<string.h>#include<stdlib.h>using namespace std;//关键字string key[6]={"main","int","if","else","while","do"};//关键字的种别码int keyNum[6]={1,2,3,4,5,6};//运算符和界符string symbol[17]={"<",">","!=",">=","<=","==",",",";","(",")","{","}","+","-","*","/","="};//char symbol[12]={'<','>','!=','>=','<=','==',',',';','(',')','{','}'};//运算符和界符的种别码int symbolNum[17]={7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23};//存放⽂件取出的字符string letter[1000];//将字符转换为单词string words[1000];int length; //保存程序中字符的数⽬int num;int isSymbol(string s){ //判断运算符和界符int i;for(i=0;i<17;i++){if(s==symbol[i])return symbolNum[i];}return 0;}//判断是否为数字bool isNum(string s){if(s>="0" && s<="9")return true;return false;}//判断是否为字母bool isLetter(string s){if(s>="a" && s<="z")return true;return false;}//判断是否为关键字,是返回种别码int isKeyWord(string s){int i;for(i=0;i<6;i++){if(s==key[i])return keyNum[i];}return 0;}//返回单个字符的类型int typeword(string str){if(str>="a" && str<="z") // 字母return 1;if(str>="0" && str<="9") //数字return 2;if(str==">"||str=="="||str=="<"||str=="!"||str==","||str==";"||str=="("||str==")"||str=="{"||str=="}" ||str=="+"||str=="-"||str=="*"||str=="/") //判断运算符和界符return 3;}string identifier(string s,int n){int j=n+1;int flag=1;while(flag){if(isNum(letter[j]) || isLetter(letter[j])){s=(s+letter[j]).c_str();if(isKeyWord(s)){j++;return s;}j++;}else{flag=0;}}num=j;return s;}string symbolStr(string s,int n){int j=n+1;string str=letter[j];if(str==">"||str=="="||str=="<"||str=="!") { s=(s+letter[j]).c_str();j++;}num=j;return s;}string Number(string s,int n){int j=n+1;int flag=1;while(flag){if(isNum(letter[j])){s=(s+letter[j]).c_str();j++;}else{flag=0;}}num=j;return s;}void print(string s,int n){cout<<"("<<s<<","<<n<<")"<<endl;}void TakeWord(){ //取单词int k;for(num=0;num<length;){string str1,str;str=letter[num];k=typeword(str);switch(k){case 1:{str1=identifier(str,num);if(isKeyWord(str1))print(str1,isKeyWord(str1));elseprint(str1,0);break;}case 2:{str1=Number(str,num);print(str1,24);break;}case 3:{str1=symbolStr(str,num);print(str1,isSymbol(str1));}}}}int main(){char w;int i,j;freopen("s.txt","r",stdin);freopen("result.txt","w",stdout); //从控制台输出,⽽不是⽂本输出 length=0;while(cin>>w){if(w!=' '){letter[length]=w;length++;} //去掉程序中的空格}TakeWord();// for(j=0;j<length;j++){// cout<<letter[j]<<endl;// }fclose(stdin);//关闭⽂件fclose(stdout);//关闭⽂件return 0;}运⾏结果:s.txtResult.txt以上就是本⽂的全部内容,希望对⼤家的学习有所帮助,也希望⼤家多多⽀持。
pl0词法分析器(C语言版)
#include<stdio.h>#include<string.h>#include<stdlib.h>void init();void getsym();enum symbol {nul,ident,number,plus,minus,times,slash,oddsym,eql,neq, beginsym,endsym,ifsym,thensym,whilesym,writesym,readsym,dosym,callsym, constsym,varsym,procsym,programsym,};#define norw 14#define al 10#define nmax 10char word [norw][al];char ch;enum symbol sym;enum symbol wsym[norw];enum symbol ssym[256];FILE *fin,*fout;void main(){printf("please input outfile's name:\n");//词法分析之后的结果要输出到的文件}char outname[30],inname[30]; scanf("%s",outname);if((fout=fopen(outname,"w"))==NULL){printf("cannot open output file!");exit(0);}printf("please input infile's name:\n");//需要词法分析的源程序scanf("%s",inname);if((fin=fopen(inname,"r"))==NULL){printf("cannot open file!\n");exit(0);}ch=fgetc(fin);while(ch!=EOF){}getsym();//读取源文件void getsym(){long m;char id[al+1],a[al+1];int i,k;init();if(ch==' '||ch==10||ch==9){}else {if(ch>='a'&&ch<='z'||ch>='A'&&ch<='Z'){k=0;ch=fgetc(fin);do {if(k<al){a[k]=ch;k++;}ch=fgetc(fin);}while((ch>='a'&&ch<='z'||ch>='0'&&ch<='9')||(ch>='A'&&ch<='Z'||ch>='0'&&ch<='9') );a[k]=0;strcpy(id,a);for(i=0;i<norw;i++){if(strcmp(id,word[i])==0){sym=wsym[i]; printf("%s %ssym\n",id,id);fprintf(fout,"%s %ssym\n",id,id);break;}else {if(i==(norw-1)){sym=ident;printf("%s ident\n",id);fprintf(fout,"%s ident\n",id);}}}}else {if(ch>='0'&&ch<='9'){k=0;m=0;sym=number;do}{m=10*m+ch-'0';k++;ch=getc(fin);}while(ch>='0'&&ch<='9');if(k>=nmax){printf("error!数值太大!\n");//exit(0);}printf("%d number\n",m);fprintf(fout,"%d number\n",m); else {if(ch==':'){ch=getc(fin);printf(":fprintf(fout,":ch=fgetc(fin);}else {}sym=nul; fprintf(fout,":nul\n");printf(":nul\n");else {if(ch=='<'){ch=fgetc(fin); if(ch=='='){sym=leq;printf("<=lep\n");fprintf(fout,"<=ch=fgetc(fin);}else {sym=lss; printf("<fprintf(fout,"<}}else {if(ch=='>'){ch=fgetc(fin); if(ch=='='){sym=geq;printf(">=fprintf(fout,">=ch=fgetc(fin);}else {sym=gtr;printf(">fprintf(fout,">}}else {sym=ssym[ch];if(ch=='+'){printf("+plus\n");ch=fgetc(fin);}else lep\n");lss\n");lss\n");geq\n");geq\n");gtr\n");gtr\n");plus\n");fprintf(fout,"+if(ch=='-'){printf("-minus\n");fprintf(fout,"-else if(ch=='*'){printf("*times\n");fprintf(fout,"*elseif(ch=='/'){printf("/slash\n");fprintf(fout,"/minus\n");ch=fgetc(fin);} times\n");ch=fgetc(fin);}slash\n");ch=fgetc(fin);}if(ch=='('){printf("(rparen\n");ch=fgetc(fin);}eql\n");ch=fgetc(fin);}neq\n");ch=fgetc(fin);}period\n");ch=fgetc(fin);}semicoln\n");ch=fgetc(fin);}nul\n",ch);ch=fgetc(fin);}}}}}}}}//对关键字等实现初始化void init(){int i;for(i=0;i<=255;i++){elselparen\n");fprintf(fout,"(elseif(ch==')'){printf(")elseif(ch=='='){printf("=elseif(ch==','){printf(",elseif(ch=='#'){printf("#elseif(ch=='.'){printf(".elseif(ch==';'){printf(";else{printf("%c lparen\n");ch=fgetc(fin);}rparen\n");fprintf(fout,")neq\n");fprintf(fout,"#period\n");fprintf(fout,".semicoln\n");fprintf(fout,"; nul\n",ch);fprintf(fout,"%c }ssym[i]=nul;}ssym['+']=plus;ssym['-']=minus;ssym['*']=times;ssym['/']=slash;ssym['(']=lparen;ssym[')']=rparen;ssym['=']=eql;ssym['.']=period;ssym['#']=neq;ssym[';']=semicolon;strcpy(&(word[0][0]),"begin");strcpy(&(word[1][0]),"call");strcpy(&(word[2][0]),"const");strcpy(&(word[3][0]),"do");strcpy(&(word[4][0]),"end");strcpy(&(word[5][0]),"if");strcpy(&(word[6][0]),"odd");strcpy(&(word[7][0]),"procedure");strcpy(&(word[8][0]),"read");strcpy(&(word[9][0]),"program"); strcpy(&(word[10][0]),"var"); strcpy(&(word[11][0]),"whlie"); strcpy(&(word[12][0]),"write"); strcpy(&(word[13][0]),"then"); wsym[0]=beginsym;wsym[1]=callsym;wsym[2]=constsym;wsym[3]=dosym;wsym[4]=endsym;wsym[5]=ifsym;wsym[6]=oddsym;wsym[7]=procsym;wsym[8]=readsym;wsym[9]=programsym;wsym[10]=varsym;wsym[11]=whilesym;wsym[12]=writesym;wsym[13]=thensym;。
编译原理词法分析器
编译原理词法分析器
编译原理词法分析器是编译器的一个重要组成部分,负责将输入的源代码转换成一系列的词法单元,供后续的语法分析器进行进一步处理。
词法分析器的主要任务是按照预先定义的词法规则,识别出源代码中的各个合法的词法单元,并将其转化为内部表示形式。
在这个过程中,词法分析器需要读取输入字符流,并根据定义的词法规则进行模式匹配和转换。
一个基本的词法分析器通常由以下几个部分组成:
1. 字符扫描器(Scanner):负责从输入流中读取字符,并进行必要的预处理。
例如,过滤掉注释、空白字符等。
2. 词法规则(Lexical Rules):是定义词法单元的正则表达式或者有限自动机。
每个词法单元都有一个对应的识别规则。
3. 标记生成器(Token Generator):根据词法规则和字符扫描器的输出,生成符合内部表示形式的词法单元。
4. 符号表(Symbol Table):维护着程序中出现的所有标识符的符号表,包括标识符的名称和属性信息。
词法分析器的工作流程如下:
1. 初始化字符扫描器,读取第一个字符。
2. 逐个字符进行扫描和匹配,直到获取了一个完整的词法单元。
3. 根据匹配到的词法规则,生成对应的词法单元。
4. 如果需要记录标识符信息,将其添加到符号表中。
5. 返回步骤2,直到扫描完整个输入代码。
通过词法分析器的工作,我们能够将输入的源代码按照词法规则进行分割,将其转换为一系列的词法单元,为后续的语法分析器提供了处理的基础。
(完整版)词法分析器(c语言实现)
词法分析c实现一、实验目的设计、编制并调试一个词法分析程序,加深对词法分析原理的理解。
二、实验要求2.1待分析的简单的词法(1)关键字:beg in if the n while do end所有的关键字都是小写。
(2)运算符和界符:= + -*/<<=<>>>= = ;()#(3)其他单词是标识符(ID)和整型常数(SUM),通过以下正规式定义:ID = letter (letter | digit)*NUM = digit digit*(4)空格有空白、制表符和换行符组成。
空格一般用来分隔ID、SUM、运算符、界符和关键字,词法分析阶段通常被忽略。
2.2各种单词符号对应的种别码:2.3词法分析程序的功能:输入:所给文法的源程序字符串。
输出:二元组(syn,token或sum)构成的序列。
其中:syn为单词种别码;token为存放的单词自身字符串;sum为整型常数。
例如:对源程序begi n x:=9: if x>9 then x:=2*x+1/3; end # 的源文件,经过词法分析后输出如下序列:(1,begi n)(10,x)(18,:=)(11,9)(26,;)(2,if)……三、词法分析程序的C语言程序源代码:#i nclude <stdio.h>#in clude <stri ng.h>char prog[80],toke n[ 8],ch;int syn,p,m,n,sum;char *rwtab[6]={"begin","if","then","while","do","end"};scaner();main(){p=0;printf("\n please input a string(end with '#'):/n");do{ scanf("%c",&ch); prog[p++]=ch; }while(ch!='#');p=0;do{scaner();switch(syn){case 11:printf("( %-10d%5d )\n",sum,syn);break;case -1:printf("you have input a wrong string\n");getch();exit(0);default: printf("( %-10s%5d )\n",token,syn); break;} }while(syn!=0); getch();}scaner(){ sum=0; for(m=0;m<8;m++)token[m++]=NULL; ch=prog[p++];m=0;while((ch==' ')||(ch=='\n'))ch=prog[p++]; if(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))) { while(((ch<='z')&&(ch>='a'))||((ch<='Z')&&(ch>='A'))||((ch>='0')&&(ch<='9'))){token[m++]=ch;ch=prog[p++];}p--;syn=10;for(n=0;n<6;n++) if(strcmp(token,rwtab[n])==0){ syn=n+1;break;}else if((ch>='0')&&(ch<='9')){ while((ch>='0')&&(ch<='9')){ sum=sum*10+ch-'0';ch=prog[p++];}p--;syn=11;}else switch(ch){ case '<':token[m++]=ch; ch=prog[p++]; if(ch=='='){ syn=22;}token[m++]=ch;}else{ syn=20; p--;}break;case '>':token[m++]=ch; ch=prog[p++]; if(ch=='=') { syn=24; token[m++]=ch;}else{ syn=23; p--;}break;case '+': token[m++]=ch; ch=prog[p++]; if(ch=='+') { syn=17; token[m++]=ch;}else{ syn=13;p--;}break;case '-':token[m++]=ch; ch=prog[p++]; if(ch=='-'){ syn=29; token[m++]=ch;}else{ syn=14;p--;}break;case '!':ch=prog[p++]; if(ch=='=') { syn=21; token[m++]=ch; } else { syn=31; p--;}break;case '=':token[m++]=ch; ch=prog[p++]; if(ch=='='){ syn=25; token[m++]=ch;}else{ syn=18;p--;}break; case '*': syn=15; token[m++]=ch; break;case '/': syn=16; token[m++]=ch; break;case '(': syn=27; token[m++]=ch; break;case ')': syn=28;toke n[ m++]=ch; break;case '{': syn=5;toke n[ m++]=ch; break;case '}': syn=6;toke n[ m++]=ch; break;case ';': syn=26; toke n[ m++]=ch; break; case '、"': syn=30; toke n[ m++]=ch; break; case '#': syn=0; toke n[ m++]=ch; break; case ':':s yn=17;toke n[ m++]=ch; break;default: syn=-1;break; }toke n[ m++]='\0'; }四、结果分析:输入 beg in x:=9: if x>9 then x:=2*x+1/3; end # 后经词法分析输出如下序列: (begin 1)(x 10)(: 17)(=11)(; 26)(if2)1 y 10) 17〉 is y 11〉 26、2 ?IH 、 23 ) 11 y 3〉 io y 17〉 18 \ II 、15 > 10 ) 13 ? 11〉 16 ) 11〉 2£ 〉 m 、 u y;HC 三卜TV®译原理比IFAFE" ・exe如图5-1所示:X9Xend ttbegin Xx>0。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我自己写的个词法分析程序可以完成一个非常非常基本的C语言词法分析.自己鼓励下自己 :-)#include <iostream>#include <vector>#include <utility>#include <string>#include <fstream>#include <algorithm>#include <cstdlib>using namespace std;//用来存储目标文件名string file_name;//提取文本文件中的信息。
string GetText();//获得一个单词符号,从位置i开始查找。
//并且有一个引用参数j,用来返回这个单词最后一个字符在str的位置。
string GetWord(string str,int i,int& j);//这个函数用来除去字符串中连续的空格和换行//第一个参数为目标字符串,第二个参数为开始位置//返回值为连续的空格和换行后的第一个有效字符在字符串的位置int DeleteNull(string str,int i);//判断i当前所指的字符是否为一个分界符,是的话返回真,反之假bool IsBoundary(string str,int i);//判断i当前所指的字符是否为一个运算符,是的话返回真,反之假bool IsOperation(string str,int i);//此函数将一个pair数组输出到一个文件中void OutFile(vector<pair<int,string> > v);//此函数接受一个字符串数组,对它进行词法分析,返回一个pair型数组vector<pair<int,string> > analyst(vector<string> vec);//此函数判断传递的参数是否为关键字,是的话,返回真,反之返回假bool IsKey(string str);int main(){cout<<"###########################\n";cout<<"###copyright: Giftedbird###\n";cout<<"###########################\n";string com1=" ";string com2="\n";string fileline=GetText();int begin=0,end=0;vector<string> array;do{begin=DeleteNull(fileline,begin);string nowString;nowString=GetWord(fileline,begin,end);if(end==-1)break;if(pare(com1)&&pare(com2))array.push_back(nowString);begin=end+1;}while(true);vector<pair<int,string> > mid_result;mid_result=analyst(array);OutFile(mid_result);cout<<"**********************************************************************\n ";cout<<"***程序已完成词法分析,分析结果已经存储在文件"<<file_name<<"中!!!***\n";cout<<"**********************************************************************\n ";system("pause");return 0;}//提取文本文件中的信息string GetText(){string file_name1;cout<<"请输入源文件名(包括路径和后缀名):";cin>>file_name1;ifstream infile(file_name1.c_str(),ios::in);if (!infile){cerr<<"哦!无法打开文件 "<<file_name1.c_str()<<" !!!"<<endl;exit(-1);}cout<<endl;char f[1000];infile.getline(f,1000,EOF);infile.close();return f;}//获得一个单词符号,从位置i开始查找。
//并且有一个引用参数j,用来返回这个单词最后一个字符在原字符串的位置。
string GetWord(string str,int i,int& j){string no_use("(){} , ; \n+=*/-<>\"");j=str.find_first_of(no_use,i);if(j==-1)return "";if(i!=j)j--;return str.substr(i,j-i+1);}//这个函数用来除去字符串中连续的空格和换行//第一个参数为目标字符串,第二个参数为开始位置//返回值为连续的空格和换行后的第一个有效字符在字符串的位置int DeleteNull(string str,int i){for(;;i++)if(str[i]!=' '&&str[i]!='\n')return i;}//判断i当前所指的字符是否为一个分界符,是的话返回真,反之假bool IsBoundary(string str,int i){int t;char arr[7]={',',';','{','}','(',')','\"'};for (t=0;t<7;t++)if(str[i]==arr[t])return true;return false;}//判断i当前所指的字符是否为一个运算符,是的话返回真,反之假bool IsOperation(string str,int i){int t;char arr[7]={'+','-','*','/','=','<','>'};for (t=0;t<7;t++)if(str[i]==arr[t])return true;return false;}//此函数将一个个字符串数组输出到一个文件中void OutFile(vector<pair<int,string> > v){cout<<"请输入目标文件名(包括路径和后缀名):";cin>>file_name;ofstream outfile(file_name.c_str(),ios::out);if (!outfile){cerr<<"哦!无法打开文件 "<<file_name.c_str()<<" !!!"<<endl;exit(-1);}cout<<endl;int i;outfile<<"###########################\n";outfile<<"###copyright: Giftedbird###\n";outfile<<"###########################\n\n";for(i=0;i<v.size();i++)outfile<<"<"<<v[i].first<<" , \""<<v[i].second<<"\">"<<endl; outfile<<"\n\n*********************************\n";outfile.close();return;}//此函数接受一个字符串数组,对它进行词法分析,返回一个pair型数组vector<pair<int,string> > analyst(vector<string> vec){vector<pair<int,string> > temp;int i;for(i=0;i<vec.size();i++){if(vec[i].size()==1){if((vec[i]==">"||vec[i]=="<"||vec[i]=="!")&&vec[i+1]=="="){string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(4,jk);temp.push_back(pp);continue;}if((vec[i]=="+"&&vec[i+1]=="+")||(vec[i]=="-"&&vec[i+1]=="-")) {string jk=vec[i];jk.append(vec[++i],0,1);pair<int,string> pp(4,jk);temp.push_back(pp);continue;}if(IsBoundary(vec[i],0)){pair<int,string> pp(5,vec[i]);temp.push_back(pp);}else if(IsOperation(vec[i],0)){pair<int,string> pp(4,vec[i]);temp.push_back(pp);}else if(vec[i][0]<='9'&&vec[i][0]>='0'){pair<int,string> pp(3,vec[i]);temp.push_back(pp);}else{pair<int,string> pp(2,vec[i]);temp.push_back(pp);}}else if(vec[i][0]<='9'&&vec[i][0]>='0'){pair<int,string> pp(3,vec[i]);temp.push_back(pp);}else if(IsKey(vec[i])){pair<int,string> pp(1,vec[i]);temp.push_back(pp);}else{pair<int,string> pp(2,vec[i]);temp.push_back(pp);}}return temp;}//此函数判断传递的参数是否为关键字,是的话,返回真,反之返回假bool IsKey(string str){stringp[16]={"char","double","int","long","double","float","for","while","do","break" ,"continue","switch","short","case","return","if"};vector<string> ppp(p,p+16);int u;for(u=0;u<ppp.size();u++)if(!pare(ppp[u]))return true;return false;}//finished。