编译原理实验报告一

beyond308
1 ℃
2019-11-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

实验一词法分析程序实现一、实验目的与要求通过编写和调试一个词法分析程序，掌握在对程序设计语言的源程序进行扫描的过程中，将字符流形式的源程序转化为一个由各类单词符号组成的流的词法分析方法二、实验内容基本实验题目：若某一程序设计语言中的单词包括五个关键字begin、end、if、then、else；标识符；无符号常数；六种关系运算符；一个赋值符和四个算术运算符，试构造能识别这些单词的词法分析程序（各类单词的分类码参见表I）。表I语言中的各类单词符号及其分类码表单词符号类别编码类别码的助记符单词值begin1BEGINend2ENDif3IFthen4THENelse5ELSE标识符6ID字母打头的字母数字串无符号常数7UCON机内二进制表示8LT=9LE=10EQ11NE12GT=13GE:=14IS+15PL-16MI*17MU/18DI输入：由符合和不符合所规定的单词类别结构的各类单词组成的源程序文件。输出：把所识别出的每一单词均按形如（CLASS，VALUE）的二元式形式输出，并将结果放到某个文件中。对于标识符和无符号常数，CLASS字段为相应的类别码的助记符；VALUE字段则是该标识符、常数的具体值；对于关键字和运算符，采用一词一类的编码形式，仅需在二元式的CLASS字段上放置相应单词的类别码的助记符，VALUE字段则为“空”。三、实现方法与环境词法分析是编译程序的第一个处理阶段，可以通过两种途径来构造词法分析程序。其一是根据对语言中各类单词的某种描述或定义（如BNF），用手工的方式（例如可用C语言）构造词法分析程序。一般地，可以根据文法或状态转换图构造相应的状态矩阵，该状态矩阵连同控制程序一起便组成了编译器的词法分析程序；也可以根据文法或状态转换图直接编写词法分析程序。构造词法分析程序的另外一种途径是所谓的词法分析程序的自动生成，即首先用正规式对语言中的各类单词符号进行词型描述，并分别指出在识别单词时，词法分析程序所应进行的语义处理工作，然后由一个所谓词法分析程序的构造程序对上述信息进行加工。如美国BELL实验室研制的LEX就是一个被广泛使用的词法分析程序的自动生成工具。处理过程简述：在一个程序设计语言中，一般都含有若干类单词符号，为此可首先为每类单词建立一张状态转换图，然后将这些状态转换图合并成一张统一的状态图，即得到了一个有限自动机，再进行必要的确定化和状态数最小化处理，最后添加当进行状态转移时所需执行的语义动作，就可以据此构造词法分析程序了。为了使词法分析程序结构比较清晰，且尽量避免某些枝节问题的纠缠，我们假定要编译的语言中，全部关键字都是保留字，程序员不得将它们作为源程序中的标识符；在源程序的输入文本中，关键字、标识符、无符号常数之间，若未出现关系和算术运算符以及赋值符，则至少须用一个空白字符加以分隔。作了这些限制以后，就可以把关键字和标识符的识别统一进行处理。即每当开始识别一个单词时，若扫视到的第一个字符为字母，则把后续输入的字母或数字字符依次进行拼接，直至扫视到非字母、数字字符为止，以期获得一个尽可能长的字母数字字符串，然后以此字符串查所谓保留字表（此保留字表要事先造好），若查到此字符串，则取出相应的类别码；反之，则表明该字符串应为一标识符。采用上述策略后，针对表I中的部分单词可以参考教材P80的图3-22（见图1）图1识别表I所列语言中的部分单词的DFA及相关的语义过程图1中所出现的语义变量及语义函数的含义和功能说明如下：函数GETCHAR：每调用一次，就把扫描指示器当前所指示的源程序字符送入字符变量ch，然后把扫描指示器前推一个字符位置。字符数组TOKEN：用来依次存放一个单词词文中的各个字符。函数CAT：每调用一次，就把当前ch中的字符拼接于TOKEN中所存字符串的右边。函数LOOKUP：每调用一次，就以TOKEN中的字符串查保留字表，若查到，就将相应关键字的类别码赋给整型变量c；否则将c置为零。函数RETRACT：每调用一次，就把扫描指示器回退一个字符位置（即退回多读的那个字符）。函数OUT：一般仅在进入终态时调用此函数，调用的形式为OUT(c，VAL)。其中，实参c为相应单词的类别码助记符；实参VAL为TOKEN（即词文）或为空串。函数OUT的功能是，在送出一个单词的内部表示之后，返回到调用该词法分析程序的那个程序。总的来说，开发一种新语言时，由于它的单词符号在不停地修改，采用LEX等工具生成的词法分析程序比较易于修改和维护。一旦一种语言确定了，则采用手工编写词法分析程序效率更高。四．源程序#includestdio.h#includectype.h#includestring.h#includemath.h#defineID6#defineINT7#defineLT8#defineLE9#defineEQ10#defineNE11#defineGT12#defineGE13#defineIS14#definePL15#defineMI16#defineMU17#defineDI18#defineMAX_KEY_NUMBER20//关键字的数量#defineKEY_WORD_ENDwaitingforyourexpanding//关键字结束标记char*KeyWordTable[MAX_KEY_NUMBER]={begin,end,if,then,else,KEY_WORD_END};charTOKEN[20]=;charch='';//用于存储带判断的字符introw=1;//row标识错误在第几行#defineDIGIT1#definePOINT2#defineOTHER3#definePOWER4#definePLUS5#defineMINUS6#defineUCON7//假设无符号常量的类数是7#defineClassOther200#defineEndState-1intindex=0;//保存已读的字符串的索引intw,n,p,e,d;intClass;//用于表示类的词intICON;floatFCON;staticintCurrentState;//用于目前的当前状态,初始值:0intEXCUTE(intstate,intsymbol,FILE*fp,charJudgeStr[],introw,intindex);intGetChar(charch);intHandleError(charStrJudge[],introw);///////////////////查保留字表，判断是否为关键字intlookup(char*token){intn=0;while(strcmp(KeyWordTable[n],KEY_WORD_END))//strcmp比较两串是否相同，若相同返回0{if(!strcmp(KeyWordTable[n],token))//比较token所指向的关键字和保留字表中哪个关键字相符{returnn+1;//根据单词分类码表I，设置正确的关键字类别码，并返回此类别码的值break;}n++;}return6;//单词不是关键字，而是标识符}///////////////////输出分析结果voidout(inti,char*pStr){charMnemonic[5];if(1==i){strcpy(Mnemonic,BEGIN);}elseif(2==i){strcpy(Mnemonic,END);}elseif(3==i){strcpy(Mnemonic,IF);}elseif(4==i){strcpy(Mnemonic,THEN);}elseif(5==i){strcpy(Mnemonic,ELSE);}elseif(6==i){strcpy(Mnemonic,ID);}elseif(7==i){strcpy(Mnemonic,INT);}elseif(8==i){strcpy(Mnemonic,LT);}elseif(9==i){strcpy(Mnemonic,LE);}elseif(10==i){strcpy(Mnemonic,EQ);}elseif(11==i){strcpy(Mnemonic,NE);}elseif(12==i){strcpy(Mnemonic,GT);}elseif(13==i){strcpy(Mnemonic,GE);}elseif(14==i){strcpy(Mnemonic,IS);}elseif(15==i){strcpy(Mnemonic,PL);}elseif(16==i){strcpy(Mnemonic,MI);}elseif(17==i){strcpy(Mnemonic,MU);}elseif(18==i){strcpy(Mnemonic,DI);}else{strcpy(Mnemonic,UnkownType);}printf((%s)对应%s\n,Mnemonic,pStr);}///////////////////报错voidreport_error(introw){printf(%sError!Inthe%drow\n,TOKEN,row);}///////////////////扫描程序voidscanner(FILE*fp)//总的判断函数开始就应该判断已读取的字符是否为空字符，不为则不用再读，直接进行判断，否则再读{inti,c;fseek(fp,-1,1);//首先回溯一个字符，就是将文件所有的字符都在scanner内部判断，外部while循环不会浪费任何字符ch=fgetc(fp);//scanner中要想判断字符，必须开头先读一个字符while(''==ch||'\n'==ch||'\t'==ch)//将文件中的所有空字符浪费在这里{if('\n'==ch){row++;}ch=fgetc(fp);}if(EOF==ch){return;}//必须在这里判断一下if(isalpha(ch))/*itmustbeaidentifer!*/{TOKEN[0]=ch;ch=fgetc(fp);i=1;while(isalnum(ch)){TOKEN[i]=ch;i++;ch=fgetc(fp);}TOKEN[i]='\0';fseek(fp,-1,1);/*retract*/c=lookup(TOKEN);if(c!=6)out(c,TOKEN);elseout(c,TOKEN);}elseif(isdigit(ch)||'.'==ch){fseek(fp,-1,1);//首先回溯一个字符，下面为了循环内部使用先读字符后判断的格式。intType;CurrentState=0;i=0;do{ch=fgetc(fp);TOKEN[i]=ch;i++;TOKEN[i]='\0';//为随时输出字符串做准备Type=GetChar(ch);EXCUTE(CurrentState,Type,fp,TOKEN,row,i);}while(CurrentState!=EndState);}elseswitch(ch){case'':ch=fgetc(fp);if(ch=='=')out(LE,=);elseif(ch=='')out(NE,);else{fseek(fp,-1,1);out(LT,);}break;case'=':{ch=fgetc(fp);if('='==ch){out(EQ,==);}else{fseek(fp,-1,1);out(IS,=);}}break;case'':ch=fgetc(fp);if(ch=='=')out(GE,=);else{fseek(fp,-1,1);out(GT,);}break;case'+':{out(PL,+);}break;case'-':{out(MI,-);}break;case'*':{out(MU,*);}break;case'/':{out(DI,/);}break;default:re