从lex&yacc到编译器

合集下载

Lex和Yacc从入门到精通（ＰＤＦ）

Lex和Yacc从入门到精通熊春雷Abstract在开发程序的过程中经常会遇到文本解析的问题，例如：解析C语言源程序，编写脚本引擎等等，解决这种文本解析的方法有很多，一种方法就是自己手动用C或者 C++直接编写解析程序，这对于简单格式的文本信息来说，不会是什么问题，但是对于稍微复杂一点的文本信息的解析来说，手工编写解析器将会是一件漫长痛苦而容易出错的事情。

本系列文档就是专门用来由浅入深的介绍两个有名的Unix工具Lex和Yacc，并会一步一步的详细解释如何用这两个工具来实现我们想要的任何功能的解析程序，为了方便理解和应用，我会在该系列的文章中尽可能的采用具体可行的实例来加以阐释，而且这种实例都是尽可能的和具体的系统平台无关的，因此我采用命令行程序作为我们的解析程序的最终结果。

1、环境配置篇开发Lex和Yacc程序最需要的程序就是lex和yacc了，如果你是Unix或者Linux系统，则系统自带了这两个工具，无需安装，不过值得说明的是GNU/Linux下面的Lex是flex，而Yacc则是bison。

另外需要的就是一个C/C++语言编译器，由于我们采用的是GNU的 lex和yacc，所以，理所当然的我们就使用GNU的编译器了，如果是Unix或者Linux系统，那么编译器应该已经安装了。

在这里我重点讨论的是Windows系统环境下的Lex和 Yacc程序的开发，至于为什么选择Windows系统作为开发平台，则是为了尽可能的让初学者容易入门。

1.1．必备工具言归正传，首先列举Windows平台下面Lex和Yacc开发环境所需要安装的程序：1.Lex(flex.exe)和Yacc(bison.exe)环境2.C/C++编译器1.2．flex和bison值得说明的是，flex.exe和bison.exe是UnxUtils包中的文件，已经将许多 Unix/Linux平台的程序都移植到了Windows平台，可以直接到UnxUtils网站下载，下载解压缩之后在系统的PATH环境变量中增加UnxUtils所有的exe文件所在的目录，使得DOS命令行可以直接搜索到flex.exe和bison.exe，除此之外还需要从网络上下载 bison需要的bison.simple和bison.hairy两个文件，并且还要分别设置环境变量 BISON_HAIRY指向bison.hairy，BISON_SIMPLE指向bison.simple。

lex原理 -回复

lex原理-回复lex原理的基本原理和使用方法一、介绍Lex原理Lex是一个流行的词法分析器生成器，它是由AT&T贝尔实验室的Eric Schmidt和Mike Lesk在1975年开发的。

Lex程序通过读取输入流并将其分解为词素（tokens）序列的方式来处理输入。

它的设计目的是为了将词法分析器的开发过程自动化，并提供一种快速、高效的方法来生成词法分析器。

二、词法分析原理在分析过程中，词法分析器根据预先定义好的规则模式来将输入流分解为词素。

每个词素都有一个与之对应的记号（token），用于表示它所代表的语言单元。

这些规则通常是用一种基于正则表达式的模式语言来描述的。

1. 模式匹配模式匹配是词法分析器的核心原理。

在Lex中，模式是由正则表达式表示的。

词法分析器将按照定义的顺序尝试每个规则，直到找到匹配输入流的最长的模式。

如果多个模式都匹配到了同样长度的最长模式，则将按照定义顺序选择最先被定义的规则。

例如，假设我们有以下两个规则：[0-9]+ { printf("NUM\n"); }[+-] { printf("OP\n"); }当输入流中的文本是"123"时，模式"[0-9]+"会匹配到整个输入，因此词法分析器会将其解释为一个NUM记号，并执行与之对应的操作。

如果输入文本是"+"，则模式"[+-]"会匹配到该输入，词法分析器会将其解释为一个OP记号，并执行对应的操作。

2. 动作执行当词法分析器找到与输入流匹配的模式时，将执行与之关联的动作。

这些动作通常是一些C语言代码或其他程序代码片段，用于对匹配的词素进行进一步处理。

例如，在前面的例子中，动作是将识别到的记号打印到控制台。

3. 生成词法分析器使用Lex生成词法分析器主要包括两个步骤：编写词法规则文件和生成词法分析器。

编写词法规则文件时，我们需要定义一系列的词法规则，每个规则用一个模式-动作对来表示。

lex工具实例

翻译规则部分(续)

为避免二义性，在Ri中若需出现空格、回车或制表符，则应用‘\s’， ‘\n’，‘\t’表示。每个代码段Actioni可引用已定义的常量、全局变量和外部变量，也可以调用在辅助函数部分定义的函数。
注意:Actioni中的C
程序语句多于一条时, 必须用花括号{ }将它们括起来,否则,LEX将会报错
词法分析程序的使用

用户可通过调用函数yylex()使用词法分析程序。每调用yylex()函数一次，yylex()将从输入流中识别一个单词，并返回一个整型值（被识别出的单词之内部码）。所谓单词的内部码是指词法分析程序在识别出某一类单词时所返回的整型数值（也称为类别码），它由用户自行定义其取值。例如，用户可定义标识符Id的内部码为300，实型数 RealNo的内部码为450等等。一般说来，用户自定义的单词类别码应大于256，而小于256的内部码值可用于字符单词的类别码，用其ASCII码值来表示。如单词 '+'的内部码可定义为‘+’的ASCII码值43。
LEX的命令格式及选项
格式：lex [-ctvn -V -Q[y|n]] [files] 选项： -c 指明动作为C语句(缺省设置). -t 输出到stdout 而不是 lex.yy.c(缺省设置); -v 提供一个两行的统计概述 -n 不输出-v的概述 -V 在stderr上输出lex的版本信息. -Q[y|n] y:在输出文件lex.yy.c上打印版本信息. n:不打印(缺省设置). 若files为多个文件,则被视为一个,若files为空,则使用stdin.
1.声明(declaration)
LEX的声明又可以分两个

LEX

多重入口及其应用（续）

在LEX源程序定义部分，用关键字%start定义若干所需的开始条件名：
%start cond1 cond2 … condk

其中，开始条件名出现顺序是任意的，若一行写不下时，可用多行进行定义，但每行必须以%start开头。对于已定义的开始条件名 condi，其使用方法是将它们用一对尖括号括起来，置于某些识别规则的词型正规式r 的左侧，即

<condi>r {...} 它表示当LEX处在条件condi 时此识别规则才起作用。为了使LEX进入条件condi，用户须在某个语义动作中设置一个形如 BEGIN condi; 的语句，其中BEGIN是由LEX 系统为用户提供的一个宏。当执行此语句后，LEX便处于condi条件之下，即词法分析程序下一次将从附加有开始条件condi的识别规则开始进行词型匹配。
1.声明(declaration)
LEX的声明又可以分两个

部分：C语言部分和辅助定义部分 C语言部分被括在LEX的特殊括号“%{”与“%}”之间，它必须符合C语言规范。这部分内容包括C语言程序的预处理语句（包含的头文件、常量定义）、类型其中, Di(i=1,2,…,n)是要定义的一组宏和变量定义、子程序的声名字, ri (i=1,2,…,n) 是定义在Σ∪{D1, 明等。其中，常量定义可 …,Di-1}上的正规式，Σ为词法分析用于定义单词的内部码。程序要识别单词相应的字符集。

Hale Waihona Puke 其中，用方括号括起来的部分表示一个字符类，[0-9]表示任一数字字符，即有[0-9]=0|1|2|…|9, 同理，[a-zA-Z]=a|b|…|c|A|B|…|Z 注意，在引用已定义的宏时，需用花括号{ }将其括起来。上例中可看出宏iden的定义是建立在宏alpha和alnum上的声明部分还可定义多重入口，我们将在后面作专门的讨论。

(完整版)基于LEX的词法分析器实验报告

printf("%s special symbol\n",yytext);}//特殊符号
定义识别标识符规则
{id}
{printf("%d行",lineno);
printf("%s ID\n",yytext);}//
定义识别错误的字符串规则当开头为数字的后面为字母的字符串时，是错误的标识符。{error_id}
yylex();/*start the analysis*/
printf("ok2\n");
printf(" No of words: %d\n number: %d\n", wordCount, numcount);
return0;
}
int yywrap()
{
return1;
}
2、新建文本文件，更名为b.c，敲入下面代码此为输入源代码
{printf（"error:%s\n",yytext）;}//以数字开头的字符自动报错定义忽略空格规则
{whitespace}{/*skip whitespace*/}//忽略空格定义忽略回车规则
{enter}
{lineno++;}//遇到回车自动加行号忽略辅助程序集中包括
主函数main（）和辅助函数toupper（）。程序代码实现
二、实验原理及方法
Lex输入文件由3个部分组成：定义集(definition)，规则集(rule)和辅助程序集(auxiliary routine)或用户程序集(user routine)。这三个部分由位于新一行第一列的双百分号分开，因此，Lex输入文件的格式如下
{definitions}

LEX

LEX（词法分析器生成工具）学习笔记1LEX介绍LEX（Lexical Analyzer Generator）即词法分析器生成工具是1972年贝尔实验室的M.E.Lesk和E.Schmidt在UNIX 操作系统上首次开发的。

GNU同时推出了和LEX完全兼容的FLEX（Fast Lexical Analyzer Genrator）。

下面用到的例子都是基于flex的。

LEX工作原理：LEX通过对源文件的扫描，经过宏替换将规则部分的正则表达式转换成与之等价的DFA，并产生DFA的状态转换矩阵（稀疏矩阵）；利用该矩阵和源文件的C代码产生一个名为int yylex()的词法分析函数，将yylex()函数拷贝到输出文件lex.yy.c中。

函数yylex()以在缺省条件下的标准输入（stdin）作为词法分析的输入文件。

定义部分%%规则部分%%用户附加的C语言代码例1：int num_chars=0,num_lines=0;/*定义两个全局变量，一个及字符数，一个记行数.注意：该语句不能顶行*/%%\n ++num_chars++; ++num_lines;. ++num_chars;%%int main(){yylex();printf(“%d,%d”, num_chars,num_lines);}int yywrap()/*文件结束处理函数，当yylex()读到文件结束标记EOF时，调用该函数时会，用户必须提供该函数，否则会提示编译出错 */{return 1;//返回1表示文件扫描结束，不必再扫描别的文件}lex 的输入文件分成三个段，段间用%% 来分隔。

由于必须存在一个规则段，第一个%% 总是要求存在。

模式LEX的模式是机器可读的正则表达式。

表意字符匹配字符. 除换行外的所有字符\n 换行* 0 次或无限次重复前面的表达式+ 1 次或更多次重复前面的表达式? 0 次或1 次出现前面的表达式^行的开始$ 行的结尾a|b a 或者 b(ab)+ 1 次或玩多次重复 ab"a+b"字符串a+b 本身（ C 中的特殊字符仍然有效）[] 字符类[^ab] 除a,b外的任意字符[a^b] a, ^, b中的一个[az]从a到z中的任意字符[a\-z] a,-,z中的一个[a-z] a, z 中的一个<EOF>匹配文件结束标记表 1 ：简单模式匹配在方括号（[]）中，通常的操作失去了本来含意。

lex用法

lex用法
"lex"是一种文本分析工具，主要用于编写词法分析器。

它能够根据用户所定义的模式匹配规则，自动生成C语言代码实现词法分析功能。

具体来说，使用"lex"需要以下几个步骤：
1. 编写"lex"文件：该文件包含"lex"语法及模式匹配规则，决定了如何从输入的字符流中识别
和提取出各种符号和单词。

2. 使用"lex"命令编译生成C程序：命令格式为: `lex -o output.c input.l`，其中"output.c"为生成
的C源程序文件，"input.l"为"lex"文件名。

3. 编译并链接生成的C程序：使用C语言编译器（如gcc）编译生成的C源程序文件，并将其与主程序进行链接，形成可执行文件。

4. 运行程序并测试：将待分析的文本输入到程序中，程序会按照模式匹配规则进行词法分析，并输出分析结果。

"lex"的优点在于可以大大简化词法分析器的编写和维护工作，同时也增强了程序的可读性和
可移植性。

它常被用于编写编译器、解释器、文本编辑器等需要对文本内容进行识别和分析的应
用程序中。

浅析“法”和“法律”的区分

浅析“法”和“法律”的区分对“法”和“法律”的比较，从二者的含义上去理解，去区分，会更加明显。

目前学术理论界大多数人认为从古希腊到马克思一直到现在，对“法”的研究中，“法”不同于“法律”，二者之间有区别，有差异。

标签：“法”；“法律”；区分；形而上学什么是法，何为法律，如何去定义它们，如何去界定它们，区分它们，不仅仅拘泥于法学领域，在哲学领域也是很有必要，也有着重要意义。

一、“法”和“法律”概念的来源对“法”和“法律”二者的概念，来源于古罗马时期的“jus”和“lex”这组概念,不过当时并没有作以很大的区别，后来在拉丁文上二者的区分在一定程度上有所体现。

“jus”指抽象的法则、正义、权利；“lex”是指具体的法律，即罗马王政时期国王制定的法律以及共和国时期各立法机关通过的法律。

再后来的德语中“法”和“法律”的区分也比较明显，在德语中用“Recht”来表示“法”、“权利”和“正义”的概念，而用“Gesetz”来表示“法律”的概念。

“jus”与“lex”、“Recht”与“Gesetz”两组概念的区分在英语中很难找到，但在英语中用“Right”来表示普遍的、一般性的“法”，而用“alaw”或“astatute”来表示“法律”。

总体上讲“法”可以用“jus”、“Recht”“Right”与之相对应；而“法律”可以用“lex”、“Gesetz”、“alaw”或“astatute”与之对应。

在对法的研究过程中又形成了一门单独的学科叫“法哲学”。

这一名词盛行于17世纪末、是18世纪初的欧洲德国哲学家莱布尼茨在《法学教学的新方法》中，首先提到“法哲学”这一词。

接着，德国启蒙大师康德与1797年写下了《法学的形而上学》（在当时“形而上学”意即哲学）。

19世纪末，唯心辩证法大师黑格尔于1821年出版了《法哲学原理》，系统地论述了他的法哲学思想。

英国分析法哲学派创始人奥斯丁于1832年发表了《法理学和实在法哲学讲义》。

Lex使用指南

Lex使用指南Lex是由美国Bell实验室等人用C语言开发的一种词法分析器自动生成工具，它提供一种供开发者编写词法规则（正规式等）的语言（Lex语言）以及这种语言的翻译器（这种翻译器将Lex语言编写的规则翻译成为C语言程序）。

Lex是linux下的工具，本实验使用的编译工具是cygwin（cygwin在windows下模拟一个linux环境）下的flex，它与lex的使用方法基本相同，只有很少的差别。

一、Lex的基本原理和使用方法Lex的基本工作原理为：由正规式生成NFA，将NFA变换成DFA，DFA经化简后，模拟生成词法分析器。

其中正规式由开发者使用Lex语言编写，其余部分由Lex翻译器完成.翻译器将Lex源程序翻译成一个名为的C语言源文件，此文件含有两部分内容：一部分是根据正规式所构造的DFA状态转移表，另一部分是用来驱动该表的总控程序yylex()。

当主程序需要从输入字符流中识别一个记号时，只需要调用一次yylex()就可以了。

为了使用Lex所生成的词法分析器，我们需要将程序用C编译器进行编译，并将相关支持库函数连入目标代码。

Lex的使用步骤可如下图所示：生成词法分析器的过程：使用所生成的词法分析器的过程：二、lex源程序的写法：Lex源程序必须按照Lex语言的规范来写，其核心是一组词法规则（正规式）。

一般而言，一个Lex源程序分为三部分，三部分之间以符号%%分隔。

`[第一部分：定义段]%%第二部分：词法规则段[%%第三部分：辅助函数段]其中，第一部分及第三部分和第三部分之上的%%都可以省略（即上述方括号括起的部分可以省略）。

以%开头的符号和关键字，或者是词法规则段的各个规则一般顶着行首来写，前面没有空格。

Lex源程序中可以有注释，注释由/*和*/括起，但是请注意，注释的行首需要有前导空白。

1. 第一部分定义段的写法：定义段可以分为两部分：第一部分以符号%{和%}包裹，里面为以C语法写的一些定义和声明：例如，文件包含，宏定义，常数定义，全局变量及外部变量定义，函数声明等。

legal词根词缀

legal词根词缀
"Legal"这个词源自拉丁语，其词根为"leg-"或"lex"，这在拉丁语中表示“法”或“规则”。

前缀"le-"在拉丁语中有“to”的意思，后缀"-al"则表明该词是形容词性质。

因此，"legal"的含义可以理解为“与法律相关的”或“合法的”。

从"legal"派生出来的词有很多。

例如，"illegal"是由否定前缀"il-"和词根"leg-"构成的，表示“非法的”。

此外，诸如"legislate","legislation","legislative","legislator","legitimate "等单词也都源于同一词根，它们分别表示“制定法律”，“立法”，“立法机构”，“立法者”和“合法的”。

再比如，“legal”的名词形式是“legality”，表示“合法性”，而动词形式“legalize”则表示“使合法化”。

从lexyacc说到编译器（二）：flex的使用

从lexyacc说到编译器（二）：flex的使用二、flex的使用看了第一篇的关于正则表达式的说明后,下面我们就来通过它,使用flex这个词法分析工具来构造我们的编译器的词法分析器.关于lex的教程应该是很多,这里我就简单地介绍一下,然后着重后面的lex和yacc的配合使用以及其技巧.所以,如果你不看了后还是不太明白lex或者yacc的使用,请你自己上网去查查,这方面的教程是很多的.我知道的一篇常见的就是Yacc 与 Lex 快速入门Lex 与 Yacc 介绍它的作者就是Ashish Bansal.Flex就是fast lex的意思.而lex就是Lexical Analyzar的意思.flex 可以在cygwin或者gnupro中找到.它是unix的一个工具,属于GNU 组织产品.网上也可以找到单独可以在windows下用的版本.我们一般把我们的词法扫描程序要扫描的一些单词(token)用正则表达式写好,然后作为lex的输入文件,输入命令flex xxx.l(xxx.l就是输入文件),lex经过处理后,就能得到一个名字叫lex.yy.c的C源代码.这个C源代码文件,就是我们的词法扫描程序.通常lex为我们生成的词法分析器的C源代码都是十分复杂而且庞大的,我们一般根本不会去查看里面的代码(放心好了,flex这个东西不会出错的)下面让我们看看几个我已经使用过的几个lex输入文件.这是一个前段时间我为GBA上的一个RPG游戏写的脚本引擎所使用的lex输入文件(部分)例2.1%{/* need this for the call to atof() below */#include <stdio.h>#include <stdlib.h>#include <math.h>#include "globals.h"%}digit [0-9]number ("-"|"+")?{digit}+hexnumber "0x"({digit}|[a-fA-F])+letter [a-zA-Z]identifier ({letter}|_)({number}|{letter}|_)* newline [\n]whitespace [ \t]+string \"[^"]*\"comment "#"[^#]*"#"%%{string} { return VM_STRING; } "Logo" { return VMIN_LOGO; } "FaceIn" { return VMIN_FACEIN; } "FaceOut" { return VMIN_FACEOUT; } "LoadTile" { return VMIN_LOAD_TILE; } "CreateRole" { return VMIN_CREATE_ROLE; } "ReleaseRole" { return VMIN_RELEASE_ROLE;} "CreateMap" { return VMIN_CREATE_MAP; } "ReleaseMAP" { return VMIN_RELEASE_MAP;} "ShowBitmap" { return VMIN_SHOWBITMAP; } "CreateDialog" { return VMIN_CREATE_DIALOG; }"ReleaseDialog" { return VMIN_RELEASE_DIALOG;}"Fight" { return VMIN_FIGHT; }"Delay" { return VMIN_DELAY; }"PressA" { return VMIN_PRESS_A; }"PressB" { return VMIN_PRESS_B; }"PressR" { return VMIN_PRESS_R; }"PressL" { return VMIN_PRESS_L; }"PressStart" { return VMIN_PRESS_START; }"PressSelect" { return VMIN_PRESS_SELECT;}{number} { return VM_NUMBER; }{whitespace} { /* skip whitespace */ }{identifier} { return VM_ID; }{newline} ;. ;%%int yywrap(){return 1;}这里的lex输入文件一共有三个部分,用%%分开.第一部分中的%{和}%中的内容就是直接放在lex输出C代码中的顶部.我们通过它可以来定义一些所需要的宏,函数和include一些头文件等等.我的这个lex输入文件中也没什么特别的东西,就是常规的C源文件的include头文件%{/* need this for the call to atof() below */#include <stdio.h>#include <stdlib.h>#include <math.h>#include "globals.h"%}第一部分中,除了前面的%{和}%包含的部分,下面的就是正则表达式的定义.看了第一篇的正则表达式,这样你就能够在这里派上用场了.让我们来看看我这里定义的正则表达式:digit [0-9]number ("-"|"+")?{digit}+hexnumber "0x"({digit}|[a-fA-F])+letter [a-zA-Z]identifier ({letter}|_)({number}|{letter}|_)*newline [\n]whitespace [ \t]+string \"[^"]*\"comment "#"[^#]*"#"digit就不用说了,就是0-9的阿拉伯数字定义,第一篇文章中也举了这个例子.number就是digit的1到无限次的重复,再在其前面加上”+”和”-“符号.注意:“a”: 即使a是元字符,它仍是字符a\a: 当a是元字符时候,为字符aa?: 一个可选的a,也就是说可以是a,也可以没有aa|b: a或b(a): a本身[abc]: 字符a,b或c中的任一个[a-d]: a,b,d或者d中的任一个[^ab]: 除了a或b外的任何一个字符.: 除了新行之外的任一个字符{xxx}: 名字xxx表示的正则表达式这里需要特别说明的就是newline [\n]newline就是新行,这里我使用了[]把\n换行号括起来.因为如果我直接用\n表示的话,那么按照上面的规则,那就会看成\和n两个字符,所以我使用了[\n].有些时候newline也被写成[\n]|[\r\n].因为在文本文件中,一般换行一次,那么就是一个\n(0xA),可是在二进制文件中,换行有时候又是\r\n(0xD,0xA)一共两个字符号.第二部分就是定义扫描到正则表达式的动作.这些动作其实就是C代码,它们将会被镶嵌在lex输出的C文件中的yylex()函数中.上面的例子的动作其实十分平常,就是返回一个值.我们在外部使用这个lex为我们生成C代码的时候,只需要使用它的int yylex()函数.当我们使用一次yylex(),那么就会自动去扫描一个匹配的正则表达式,然后完成它相应的动作.这里的动作都是返回一值,那么yylex就会返回这个值.通常默认yylex返回0时候,表示文件扫描结束,所以你的动作中最好不要返回0,以免发生冲突.当然,动作中也可以不返回一值,那么yylex就会完成这个动作后自动扫描下一个可以被匹配的字符串,一直到扫描到文件结束.当扫描到一个可以被匹配的字符串,那么这个时候,全局变量yytext 就等于这个字符串请大家一定记住这些正则表达式的顺序.如果出现一个字符串,可以同时匹配多个正则表达式,那么它将会被定义在前面的正则表达式匹配.所以我一般把字符串string定义在最前面.如果文件中的字符没有被lex输入文件中任何一个字符匹配,那么它会自动地被标准输出.所以大家一定要记住在每个正则表达式处理完毕后,一定要加上{newline}和.这两个正则表达式的动作.好,让我们看看lex为我们输出C文件中提供一些常量Lex 变量例2.2这是<<编译原理与实践>>书中配套的源代码的lex输入文件.大家可以参考一下,作者为它自己定义的一个Tiny C编译所做的词法扫描器./****************************************************//* File: tiny.l *//* Lex specification for TINY *//* Compiler Construction: Principles and Practice *//* Kenneth C. Louden *//****************************************************/%{#include "globals.h"#include "util.h"#include "scan.h"/* lexeme of identifier or reserved word */char tokenString[MAXTOKENLEN+1];%}digit [0-9]number {digit}+letter [a-zA-Z]identifier {letter}+newline \nwhitespace [ \t]+%%"if" {return IF;} "then" {return THEN;} "else" {return ELSE;} "end" {return END;} "repeat" {return REPEAT;} "until" {return UNTIL;} "read" {return READ;} "write" {return WRITE;} ":=" {return ASSIGN;} "=" {return EQ;} "<" {return LT;} "+" {return PLUS;} "-" {return MINUS;} "*" {return TIMES;} "/" {return OVER;} "(" {return LPAREN;} ")" {return RPAREN;} ";" {return SEMI;} {number} {return NUM;} {identifier} {return ID;}{newline} {lineno++;} {whitespace} {/* skip whitespace */} "{" { char c;do{ c = input();if (c == EOF) break;if (c == ‘\n‘) lineno++;} while (c != ‘}‘);}. {return ERROR;}%%TokenType getT oken(void){ static int firstTime = TRUE;TokenType currentToken;if (firstTime){ firstTime = FALSE;lineno++;yyin = source;yyout = listing;}currentToken = yylex();strncpy(tokenString,yytext,MAXTOKENLEN); if (TraceScan) {fprintf(listing,"\t%d: ",lineno); printToken(currentToken,tokenString);}return currentT oken;}这里有点不同的就是,作者用了另外一个getToken函数来代替yylex作为外部输出函数.其中getToken里面也使用了lex默认的输出函数yylex(),同时还做了一些其它的事情.不过我建议大家不要像作者那样另外写自己的结果输出函数,因为在后面,需要和yacc搭配工作的时候,yacc生成的语法分析程序只认名字叫yylex()的词法结果输出函数.if (firstTime){ firstTime = FALSE;lineno++;yyin = source;yyout = listing;}其中的yyin,yyout,source,listing都是FILE*类型.yyin就是要lex 生成的词法扫描程序要扫描的文件,yyout就是基本输出文件(其实我们通常都不用yyout,即使要生成一些输出信息,我们都是自己通过fprintf 来输出)."{" { char c;do{ c = input();if (c == EOF) break;if (c == ‘\n‘) lineno++;} while (c != ‘}‘);}其中,作者的这个Tiny C是以{}来包括注释信息.作者并没有写出注释信息的正则表达式,但是它可以通过检索“{”,然后用lex内部函数input()一一检查 { 后面的字符是不是 } 来跳过注释文字.(C语言的/* */注释文字正则表达式十分难写,所以很多时候我们都用这种方法直接把它的DFA(扫描自动机)写出来).本文就是通过简单地举出两个比较实际的例子来讲解flex输入文件的.再次说明,如果你是第一次接触lex,那么请看看前面我推荐的文章,你可以在IBM的开发者网上查到.下一篇关于yacc于BNF文法的说明也是如此.请大家先参考一下其它标准的教程.。

编译原理之lex,yacc学习

编译原理之lex,yacc学习写在前⾯的⼏句废话最近在项⽬的过程中接触了lex 和 yacc，他们可以帮助我们来实现⾃⼰的领域语⾔。

最典型的应⽤就是可以帮助我们来实现⾃定义测试脚本的执⾏器。

但是，这⾥也有⼀个限制，就是测试脚本要做的基本事情必须有现成的C语⾔库来实现，否则就做不到了；如果基本的操作是⽤java来做的，那么还可以⽤Antlr，这⾥不对Antlr做详细介绍。

lex是什么？教科书上把lex的作⽤的作⽤叫做“词法分析 lexical analysis ”，这个中⽂叫法⾮常让⼈看不明⽩（叫做“符号提取”更合适），其实从它的英⽂单词lexical上来看他的意思其实是⾮常清楚的。

lexical，在webster上的解释是：of or relating to words or the vocabulary of a language as distinguished from its grammar and construction。

指的是：⼀种语⾔中关于词汇、单词的，与之相对的是这种语⾔的语法和组织这么来看的话 lexical analysis 的作⽤就应该是语⾔中的词汇和单词分析。

事实上他的作⽤就是从语⾔中提取单词。

放到编程语⾔中来说，他要做的事情其实就是提取编程语⾔占⽤的各种保留字、操作符等等语⾔的元素。

所以他的另外⼀个名字scanner其实更形象⼀些，就是扫描⼀个⽂本中的单词。

lex把每个扫⾯出来的单词叫统统叫做token，token可以有很多类。

对⽐⾃然语⾔的话，英语中的每个单词都是token，token有很多类，⽐如non(名词)就是⼀个类token，apple就是属于这个类型的⼀个具体token。

对于某个编程语⾔来说，token的个数是很有限的，不像英语这种⾃然语⾔中有⼏⼗万个单词。

lex⼯具会帮我们⽣成⼀个yylex函数，yacc通过调⽤这个函数来得知拿到的token是什么类型的，但是token的类型是在yacc中定义的。

Lex和Yacc简明教程

和简明教程 Lex Yacc作者 :Thomas Niemann翻译：傅惠忠目录序言3 导言4 Lex6 理论6练习7 YACC11 理论11练习，第一部分12练习，第二部分15 计算器18 描述18包含文件20Lex21 输入文件Yacc22 输入文件解释器26编译器27图28Lex34 进阶字符串34保留字35lex35 的调试Yacc37 进阶递归37IfElse37 歧义错误信息38继承属性39内含动作39调试Yacc39 参考书目40lex yacc lex yacc本书将教会你如何使用和构造一个编译器。

Lex和Yacc简明教程

Lex入门学习

图2
Yacc 使用者会发现 yylex 是 Yacc 用于接收语法分析器结果的名字，所以使用 Lex 中的名字可以简化操作。
Lex 由源文件中的正则表达式产生确定的有穷状态自动机[4]。为了节省空间，这个自动机是被解释，而不是被编译得到的。结果仍是高速分析器。特别的，Lex 程序识别和分割输入流的时间与输入的长度成正比。Lex 中规则的数量和复杂度对于执行速度来说是无关的，除非规则中包含的前向上下文需要大量的反复扫描。与规则的数量和复杂度相关的是有穷自动机的体积，因此也就是 Lex 生成程序的大小。
%%
（没有 definitions 和 rules），这个程序输入将不加修改地复制到输出。
由上面的 Lex 程序轮廓可知，规则（rules）反映了用户的控制；它是一个表格，左侧是正则表达式（regular expressions）（参见第 3 节），而右侧是动作（actions），当表达式被识别出以后，动作的程序片断被执行。所以，一个单独的规则可能是
翻译：彭一凡北京工业大学计算机科学与技术
摘要
Lex 用于编写一些程序，这些程序能够通过正则表达式识别输入流中的控制流。它能很好的适用于文本脚本类型的翻译，以及用于语法分析例程的输入分段。 Lex 源文件是一个由正则表达式和相应程序片断构成的表格。表格被转换成程序，该程序读取输入流、拷贝它到输出流、并且将输入分割成能够匹配给定表达式的字符串。每一次当字符串被识别后，相应的程序片断被执行。表达式的识别由 Lex 生成的有限状态自动机执行。输入流中相应的正则表达式被识别后，用户写的程序片断按顺序被执行。 Lex 写就的词法分析器接受二义性的说明书，在每一个输入点上选择最长的可能匹配。如果必要，输入中会有前向搜索，但是输入流会回退到当前的分割处，这样用户可以在很大程度上拥有操作的自由。 Lex 可以生成 C 或者 Ratfor 的分析器，Ratfor 是一种可以被自动转换为 Fortran 的语言。在 PDP-11 UNIX、Honeywell GCOS 和 IBM OS 系统上都可以使用 Lex。然而，这个使用手册只讨论了 UNIX 系统上用 C 语言生成解析器的方法，它只适用于 UNIX Version 7 下的 Lex 形式。对于那些希望联合使用编译器生成器的程序，Lex 的设计使其很容易与 Yacc 一起使用。

Lex使用指南

Lex使⽤指南Lex是由美国Bell实验室M.Lesk等⼈⽤C语⾔开发的⼀种词法分析器⾃动⽣成⼯具，它提供⼀种供开发者编写词法规则（正规式等）的语⾔（Lex语⾔）以及这种语⾔的翻译器（这种翻译器将Lex语⾔编写的规则翻译成为C语⾔程序）。

Lex是linux下的⼯具，本实验使⽤的编译⼯具是cygwin（cygwin在windows下模拟⼀个linux环境）下的flex，它与lex的使⽤⽅法基本相同，只有很少的差别。

1.Lex的基本原理和使⽤⽅法Lex的基本⼯作原理为：由正规式⽣成NFA，将NFA变换成DFA，DFA经化简后，模拟⽣成词法分析器。

其中正规式由开发者使⽤Lex语⾔编写，其余部分由Lex翻译器完成.翻译器将Lex源程序翻译成⼀个名为lex.yy.c的C语⾔源⽂件，此⽂件含有两部分内容：⼀部分是根据正规式所构造的DFA状态转移表，另⼀部分是⽤来驱动该表的总控程序yylex()。

当主程序需要从输⼊字符流中识别⼀个记号时，只需要调⽤⼀次yylex()就可以了。

为了使⽤Lex所⽣成的词法分析器，我们需要将lex.yy.c程序⽤C编译器进⾏编译，并将相关⽀持库函数连⼊⽬标代码。

Lex的使⽤步骤可如下图所⽰：2.lex源程序的写法Lex源程序必须按照Lex语⾔的规范来写，其核⼼是⼀组词法规则（正规式）。

⼀般⽽⾔，⼀个Lex源程序分为三部分，三部分之间以符号%%分隔。

[第⼀部分：定义段]%%第⼆部分：词法规则段[%%第三部分：辅助函数段]其中，第⼀部分及第三部分和第三部分之上的%%都可以省略（即上述⽅括号括起的部分可以省略）。

以%开头的符号和关键字，或者是词法规则段的各个规则⼀般顶着⾏⾸来写，前⾯没有空格。

Lex源程序中可以有注释，注释由/*和*/括起，但是请注意，注释的⾏⾸需要有前导空⽩。

1）第⼀部分定义段的写法：定义段可以分为两部分：第⼀部分以符号%{和%}包裹，⾥⾯为以C语法写的⼀些定义和声明：例如，⽂件包含，宏定义，常数定义，全局变量及外部变量定义，函数声明等。

利用LEX及YACC实现嵌入式SQL分析器

收稿日期：2001-12-08作者简介：姚泽勤（1977-），男，硕士研究生，主要研究方向为计算机系统结构。

利用LEX 及YACC 实现嵌入式SO L 分析器姚泽勤1，柏又青2，马建峰1（1.西安电子科技大学计算机学院，陕西西安710071；2.空军工程大学电讯工程学院，陕西西安710077）摘要：Lex 和Yacc 是用来产生词法分析器和语法分析器的工具。

本文讨论了LEX 与YACC 之间的关系，然后讨论了如何利用LEX 和YACC 实现嵌入式SOL 分析器。

在上面的研究基础之上，文章最后给出了利用LEX 和YACC 实现嵌入式SOL 分析器的流程图。

关键词：嵌入式数据库；词法生成器；语法生成器；嵌入式SOL ；有限状态自动机中图分类号：TP314文献标识码：A文章编号：1671-654 （2002）01-0055-04引言从S y base 公司的SOL An y where Studio 7.0到中兴公司的Database1.0，无论是世界著名的数据库专业开发厂商还是国内大的数据库应用厂家，嵌入式数据库都是不可缺少的产品和应用工具。

而评价众多的嵌入式数据库的一个关键就是它支持SOL （结构化查询语言）的程度，一个优秀的嵌入式数据库不仅要能支持标准的SOL 语句，而且要有高的分析和执行效率。

一个高效安全的SOL 编译器是一个优秀嵌入式数据库的核心和基础。

但是直到提出LEX 与YACC 之前，编写一个编译器是一个非常耗时、令人心烦的工作，程序员不得不动手编写处理各种语法处理的函数。

1975年，Lesk 和Johnson 发表了关于LEX 和YACC ，我们可以很方便地对一条语句进行词法和语法分析。

语法分析生成器LEX 是一个UNIX 下的实用工具，它将一个词法分析规则转换为C 函数的实现。

词法分析器读入字符串，根据词法规则，将一个个的word 或字符转换为符合token 。

语法分析器YACC 能够识别的语法是BNF （Backus Naur Form ）范式，用户定义一个BNF 类型的语法规则，YACC 将该规则转换为语法分析器，通过在BNF 语法规则中嵌入语法动作，可以建立某种形式的语法树。

lex工具介绍

Lex程序的例子（3）
• Lex处理源程序时，辅助函数被直接拷贝到lex.yy.c中 • 辅助函数可在规则中直接调用
Lex中的冲突解决方法
• 冲突：多个输入前缀与某个模式相匹配，或者一个前缀和多个模式匹配 • Lex解决冲突的方法
– 多个前缀可能匹配时，选择最长的前缀
• 保证词法分析器把<=当作一个词法单元识别
词法分析工具Lex/Flex
• Lex/Flex是一个有用的词法分析器生成工具 • 通常和Yacc一起使用，生成编译器的前端
Lex源程序的结构
• 声明部分包含：
– 明示常量：表示常数的标识符 – 正则定义
• 转换规则
– 模式 {动作}
• 模式是正则表达式 • 动作表示识别到相应模式时采取的处理方式。
声明部分 %% 转换规则 %% 辅助函数 Lex程序的形式
• 辅助函数
– 各个动作中使用的函数
词法分析器的工作方式
• Lex生成的词法分析器作为一个函数被调用； • 在每次调用过程中，不断读入余下的输入符号 • 发现最长的、与某个模式匹配的输入前缀时，调用相应的动作；
– 该动作进行相关处理，并把控制返回； – 如果不返回，则词法分析器继续寻找其它词素。
Lex正规式
字符 A-Z, 0-9, a-z . 含义构成了部分模式的字符和数字。匹配任意字符，除了 \n。用来指定范围。例如：A-Z 指从 A 到 Z 之间的所有字符。
[]
一个字符集合。匹配括号内的任意字符。如果第一个字符是 ^ 那么它表示否定模式。例如: [abC] 匹配 a, b, 和 C中的任何一个。
– 某个前缀和多个模式匹配时，选择列在前面的模式
• 如果保留字的规则在标识符的规则之前，词法分析器将识别出保留字