武汉理工大学《编译原理》课程设计说明书1利用LEX自动生成词法分析程序摘要:《编译原理》是国内外各高等院校计算机科学技术类专业,特别是计算机专业的一门重要专业课程。该课程系统地向学生介绍编译程序的结构、工作流程及编译程序各组成部分的设计原理和实现技术编译原理涉及词法分析,语法分析,语义分析及优化设计等各方面。词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。本课设是用lex自动生成简单的c语言词法分析程序。关键字:lexc语言词法分析程序引言词法分析程序是对代码中单词的分析,是编译过程的第一阶段,在这个阶段中从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。Lex是一个广泛的使用工具,UNIX系统中使用lex命令调用。它用于构造各种各样的语言词法分析程序。词法分析是所有分析优化的基础,涉及的知识较少,如状态转换图等,易于实现。下面将论述lex构造简单C语言的词法分析程序,深刻地去理解词法分析。1概述1.1设计目标对C语言设计并实现一个简单的词法分析器,要求能够掌握编译原理的基本理论,,理解编译程序的基本结构,掌握编译各阶段的基本理论和技术,掌握编译程序设计的基本理论和步骤.,增强编写和调试高级语言源程序的能力,掌握词法分析的基本概念和实现方法,熟悉C语言的各种Token。1.2设计内容用lex对C语言设计并实现一个简单的词法分析器,并用C语言代码进行测试,用二元式的方式给出测试结果。2设计原理基于ParserGenarator的词法分析器构造方法。Lex输入文件由3个部分组成:定义集(definition),规则集(rule)和辅助程序集(auxiliaryroutine)或用户程序集(userroutine)。这三个部分由位于新一行第一列的双百分号分开,因此,Lex输入文件的格式如下{definitions}%%{rules}%%{auxiliaryroutines}而且第一部分用“%{”和“%}”括起来。第一和第三个部分为C语言的代码和函数定义,第二个部分为一些规则。武汉理工大学《编译原理》课程设计说明书22.1正规式定义定义正则表达式如下ID=letterletter*NUM=digitdigit*Letter=a|…|z|A|…|ZDigit=0|…|9Keyword=else|if|int|return|void|whileSpecialsymbol=+|-|*|/||=||=|==|!=|=|;|,|(|)|[|]|{|}|/*|*/Whitespace=“”Enter=\n在lex中的构造letter[A-Za-z]digit[0-9]id({letter}|[_])({letter}|{digit}|[_])*error_id({digit})+({letter})+num{digit}+whitespace[\t]+enter[\n]+2.2转换规则定义在Lex中的规则定义构造定义识别保留字规则int|else|return|void|if|while{Upper(yytext,yyleng);printf(%d行,lineno);printf(%sreservedword\n,yytext);}//保留字定义识别数字规则{num}{printf(%d行,lineno);printf(%sNUM\n,yytext);}//数字定义识别专用符号规则,|;|(|)|{|}|*|/|+|-|||=|=|==|!=|=|/*|*/{printf(%d行,lineno);printf(%sspecialsymbol\n,yytext);}//特殊符号定义识别标识符规则{id}{printf(%d行,lineno);printf(%sID\n,yytext);}//标识符定义识别错误的字符串规则当开头为数字的后面为字母的字符串时,是错误的标识符。{error_id}{printf(error:%s\n,yytext);}//以数字开头的字符自动报错武汉理工大学《编译原理》课程设计说明书3定义忽略空格规则{whitespace}{/*skipwhitespace*/}//忽略空格定义忽略回车规则{enter}{lineno++;}//遇到回车自动加行号忽略2.3辅助程序辅助程序集中包括主函数main()和辅助函数toupper()。3程序代码实现Lex代码//定义集,包括头文件和变量定义%{#includectype.h#includestdio.h#includestring.h#includestdlib.hintlineno=1;//定义行号%}//定义正则表达式letter[A-Za-z]//字母digit[0-9]//数字id({letter}|[_])({letter}|{digit}|[_])*//开头为字母的标识符error_id({digit})+({letter})+//开头为数字的错误标识符num{digit}+//数字集合whitespace[\t]+//空格enter[\n]+//回车//定义识别规则%%//识别保留字int|else|return|void|if|while{Upper(yytext,yyleng);printf(%d行,lineno);//打印行号printf(%sreservedword\n,yytext);}//输出保留字//识别数字{num}{printf(%d行,lineno);//打印行号printf(%sNUM\n,yytext);}//输出数字//识别专用符号,|;|(|)|{|}|*|/|+|-|||=|=|==|!=|=|/*|*/{printf(%d行,lineno);//打印行号printf(%sspecialsymbol\n,yytext);}//输出特殊符号武汉理工大学《编译原理》课程设计说明书4//识别标识符{id}{printf(%d行,lineno);//打印行号printf(%sID\n,yytext);}//打印标识符//识别错误的标识符{error_id}{printf(%d行,lineno);printf(error:%s\n,yytext);}//以数字开头的字符自动报错//识别空格{whitespace}{/*skipwhitespace*/}//忽略空格//识别回车{enter}{lineno++;}//遇到回车自动加行号忽略%%//转换大小写Upper(char*s,intl){inti;for(i=0;il;i++){s[i]=toupper(s[i]);}}//将保留字变为大写//主函数main(void){//定义输入文件名变量charinfilename[400];printf(输入文件名:);scanf(%s,&infilename);yyin=fopen(infilename,r);//读取文件printf(开始词法分析:\n);returnyylex();}武汉理工大学《编译原理》课程设计说明书54测试结果测试的C语言代码词法分析程序分析的结果5总结通过本次课程设计的练习,学会运用Lex自动构造词法分析器,学会了基于ParserGenarator的词法分析器构造方法。掌握了词法分析器的原理以及功能。词法分析是编译过程中的一个阶段,在语法分析前进行。也可以和语法分析结合在一起作为一遍,由语法分析程序调用词法分析程序来获得当前单词供语法分析使用。词法分析程序的主要任务:读源程序,产生单词符号。词法分析程序的其他任务:滤掉空格,跳过注释、换行符追踪换行标志,复制出错源程序,宏展开,等等等等。词法分析工作从语法分析工作独立出来的原因:简化设计,改进编译效率,增加编译系统的可移植性。而且从划分关键字,运算符,界符,标识符和常量,才发现数字,字母及符号组合有很多很多,无法全部枚举,所以在新建的文本文档中只象征性的列出几种符号,武汉理工大学《编译原理》课程设计说明书6但这并不影响此法分析结果的完成。总之,通过本次实验,一点点分析词法分析器的功能,并努力实现它,掌握了课程设计内容的同时也锻炼了自己分析解决问题的能力以及编程能力,收获颇丰!参考文献《编译原理》(第2版)张素琴清华大学出版社