编译原理实验-词法分析

文章详细介绍了如何使用flex生成一个识别SysY语法的词法分析器,包括编写auto_lex.l文件,定义枚举和联合类型,正则表达式规则,以及编译和测试过程。实验结果显示词法分析器能有效识别常数、运算符、界符、标识符和关键字。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

具体代码已放至Github(仅供参考):

qxpBlog/Compiler_UESTC: 电子科技大学编译原理实验 (github.com)

具体实验过程如下:

一、实验内容及步骤:

 1. 实验内容:

用flex生成一个词法分析器,用以识别SysY语法,具体的以test_cases中的文件作为输入,输出token二元组,识别程序中所有的常数、运算符、界符、标识符及关键字。        

 2.实验步骤:

(1)编写一个auto_lex.l文件,在文件中把要识别的单词用正则表达式写好。

(2)在声明部分,定义一个枚举类型,用以表示单词的类型。定义一个联合_YYLVAL用以记录单词的属性值。如下图1-1(a),1-1(b)所示。

 

图 1-1(a) 枚举类型的声明

 

图1-1(b) 储存属性的联合的定义

(3)在定义部分,给正则表达式命名,以提高规则部分可读性。如图1-2所示。

图1-2 正则定义部分

(4)在规则部分,编写词法分析器要识别符号的正则表达式及其对应的相关的动作。如图 1-3所示。

 

图1-3 正则表达式及相应动作

(5)在辅助函数部分,编写主函数,以及词法分析过程需要使用到的yywrap函数。如图1-4所示。

 

图1-4 辅助函数部分

(6)在Windows 10系统的DOS命令台上输入flex auto_lex.l,经过flex编译后生成lex.yy.c文件。如图1-5所示。

 

图1-5 编译auto_lex.l文件

(7)之后,在DOS命令台上输入命令gcc -o scan lex.yy.c经过gcc编译后,生成我们所需要的词法分析器的可执行文件scan.exe。如图1-6所示。

 

图1-6 生成可执行文件scan.exe

(8)输入命令scan,执行scan.exe文件,并在命令行上输入要识别的字符序列,例如输入int a = 10;按回车键后,会自动输出所识别的单词序列,每个单词都是一个二元组,包含该单词的类别和属性。对于SysY语言,我们识别时对关键词、界符、运算符采用一字一码的形式,对标识符、常数采用一类一码的形式。如图1-7所示。

 

图1-7 测试用例

二、实验运行结果及测试:

1.首先先对SysY语言所涉及到的常数以及各个关键词、标识符、界符、运算符进行测试。

(1) 分别输入整数123,-123以及浮点数12.5,-12.5,测试该词法分析器对整数与浮点数的分析效果,结果如图2-1所示。

 

图2-1 整数及浮点数测试

(2)输入一个变量符号identifier_case,测试该词法分析器对标识符的分析效果,结果如图2-2所示。

 

图2-2 标识符测试

(3)输入三个数据类型int,float,void,测试该词法分析器对数据类型的分析效果,结果如图2-3所示。

 

图2-3 数据类型测试

(4)输入SysY文法的各个关键词,测试该词法分析器对关键词的分析效果,结果如图2-4所示。

 

图2-4 关键词测试

(5)输入SysY文法的各个算术运算符以及逻辑运算符,测试该词法分析器对算术运算符以及逻辑运算符的分析效果,结果如图2-5所示。

 

图2-5 运算符测试

(6)输入SysY文法的各个界符,测试该词法分析器对界符的分析效果,结果如图2-6所示。

 

图2-6 界符测试

2.选取test_cases文件中的两个文件对该此法分析器进行测试:

(1)输入03_arr_defn2.sy文件,文件内容见图2-7(a)测试结果见图2-7(b).

 

图2-7(a) 文件内容

 

图2-7(b) 测试结果

(2)输入36_op_priority2.sy文件,文件内容见图2-8(a),测试结果见图2-8(b)、图2-8(c)。

 

图2-8(a) 文件内容

 

图2-8(b) 测试结果1

 

图2-8(c) 测试结果2

从上述两个方面的测试输出结果来看,该词法分析器较好的完成了对SysY文法的词法分析功能。

六、实验结论与总结:

        本试验中所生成的词法分析器能够识别SysY文法中所有的常数、运算符、界符、标识符及关键字,并能够正确输出所识别的单词序列。比较好的完成了实验要求,满足基本的功能要求,代码简洁。但同时该词法分析器也只局限于识别SysY文法,对于一些在SysY文法中未定义的单词是无法识别的。

        总的来说,通过本次词法分析器实现的实验,对Flex这一词法分析器生成工具的功能有了一个整体的认识,同时也对编译过程中的词法分析过程有了一个更加全面的认知。

设计思想 (1)程序主体结构部分: 说明部分 %% 规则部分 %% 辅助程序部分 (2)主体结构的说明 在这里说明部分告诉我们使用的LETTER,DIGIT, IDENT(标识符,通常定义为字母开头的字母数字串)和STR(字符串常量,通常定义为双引号括起来的一串字符)是什么意思.这部分也可以包含一些初始化代码.例如用#include来使用标准的头文件和前向说明(forward ,references).这些代码应该再标记"%{"和"%}"之间;规则部分>可以包括任何你想用来分析的代码;我们这里包括了忽略所有注释中字符的功能,传送ID名称和字符串常量内容到主调函数和main函数的功能. (3)实现原理 程序中先判断这个句语句中每个单元为关键字、常数、运算符、界符,对与不同的单词符号给出不同编码形式的编码,用以区分之。 PL/0语言的EBNF表示 <常量定义>::=<标识符>=<无符号整数>; <标识符>::=<字母>={<字母>|<数字>}; <加法运算符>::=+|- <乘法运算符>::=*|/ <关系运算符>::==|#|<|<=|>|>= <字母>::=a|b|…|X|Y|Z <数字>::=0|1|2|…|8|9 三:设计过程 1. 关键字:void,main,if,then,break,int,Char,float,include,for,while,printfscanf 并为小写。 2."+”;”-”;”*”;”/”;”:=“;”:”;”<“;”<=“;”>“;”>=“;”<>“;”=“;”(“;”)”;”;”;”#”为运算符。 3. 其他标记 如字符串,表示以字母开头的标识符。 4. 空格符跳过。 5. 各符号对应种别码 关键字分别对应1-13 运算符分别对应401-418,501-513。 字符串对应100 常量对应200 结束符# 四:举例说明 目标:实现对常量的判别 代码: digit [0-9] letter [A-Za-z] other_char [!-@\[-~] id ({letter}|[_])({letter}|{digit}|[_])* string {({letter}|{digit}|{other_char})+} int_num {digit}+ %% [ |\t|\n]+ "auto"|"double"|"int"|"struct"|"break"|"else"|"long"|"switch"|"case"|"enum"|"register"|"typedef"|"char"|"extern"|"return"|"union"|"const"|"float"|"short"|"unsigned"|"continue"|"for"|"signed"|"void"|"default"|"goto"|"sizeof"|"do"|"if"|"static"|"while"|"main" {Upper(yytext,yyleng);printf("%s,NULL\n",yytext);} \"([!-~])*\" {printf("CONST_string,%s\n",yytext);} -?{int_num}[.]{int_num}?([E][+|-]?{int_num})? {printf("CONST_real,%s\n",yytext);} "0x"?{int_num} {printf("CONST_int,%s\n",yytext);} ","|";"|"("|")"|"{"|"}"|"["|"]"|"->"|"."|"!"|"~"|"++"|"--"|"*"|"&"|"sizeof"|"/"|"%"|"+"|"-"|">"|"<"|">="|"<="|"=="|"!="|"&"|"^"|"|"|"&"|"||"|"+="|"-="|"*="|"/="|"%="|">>="|"<<="|"&="|"^="|"|="|"=" {printf("%s,NULL\n",yytext);} {id} {printf("ID,%s\n",yytext);} {digit}({letter})+ {printf("error1:%s\n",yytext);} %% #include <ctype.h> Upper(char *s,int l) { int i; for(i=0;i<l;i++) { s[i]=toupper(s[i]); } } yywrap() { return 1; } 五:DFA 六:数据测试 七:心得体会 其实匹配并不困难,主要是C++知识要求相对较高,只要把握住指针就好了。 附源程序: #include<iostream.h> #include<stdio.h> #include<stdlib.h> #include<string.h> int i,j,k,flag,number,status; /*status which is use to judge the string is keywords or not!*/ char ch; char words[10] = {" "}; char program[500]; int Scan(char program[]) { char *keywords[13] = {"void","main","if","then","break","int", "char","float","include","for","while","printf", "scanf"}; number = 0; status = 0; j = 0; ch = program[i++]; /* To handle the lettle space ands tab*/ /*handle letters*/ if ((ch >= 'a') && (ch <= 'z' )) { while ((ch >= 'a') && (ch <= 'z' )) { words[j++]=ch; ch=program[i++]; } i--; words[j++] = '\0'; for (k = 0; k < 13; k++) if (strcmp (words,keywords[k]) == 0) switch(k) { case 0:{ flag = 1; status = 1; break; } case 1:{ flag = 2; status = 1; break; } case 2:{ flag = 3; status = 1; break; } case 3:{ flag = 4; status = 1; break; } case 4:{ flag = 5; status = 1; break; } case 5:{ flag = 6; status = 1; break; } case 6:{ flag = 7; status = 1; break; } case 7:{ flag = 8; status = 1; break; } case 8:{ flag = 9; status = 1; break; } case 9:{ flag = 10; status = 1; break; } case 10:{ flag = 11; status = 1; break; } case 11:{ flag = 12; status = 1; break; } case 12:{ flag = 13; status = 1; break; } } if (status == 0) { flag = 100; } } /*handle digits*/ else if ((ch >= '0') && (ch <= '9')) { number = 0; while ((ch >= '0' ) && (ch <= '9' )) { number = number*10+(ch-'0'); ch = program[i++]; } flag = 200; i--; } /*opereation and edge handle*/ else switch (ch) { case '=':{ if (ch == '=') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 401; } else { i--; flag = 402; } break; } case'>':{ if (ch == '>') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 403; } else { i--; flag = 404; } break; } case'<':{ if (ch == '<') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 405; } else { i--; flag = 406; } break; } case'!':{ if (ch == '!') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 407; } else { i--; flag = 408; } break; } case'+':{ if (ch == '+') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 409; } else if (ch == '+') { words[j++] = ch; words[j] = '\0'; flag = 410; } else { i--; flag = 411; } break; } case'-':{ if (ch == '-') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 412; } else if( ch == '-') { words[j++] = ch; words[j] = '\0'; flag = 413; } else { i--; flag = 414; } break; } case'*':{ if (ch == '*') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 415; } else { i--; flag = 416; } break; } case'/':{ if (ch == '/') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 417; } else { i--; flag = 418; } break; } case';':{ words[j] = ch; words[j+1] = '\0'; flag = 501; break; } case'(':{ words[j] = ch; words[j+1] = '\0'; flag = 502; break; } case')':{ words[j] = ch; words[j+1] = '\0'; flag = 503; break; } case'[':{ words[j] = ch; words[j+1] = '\0'; flag = 504; break; } case']':{ words[j] = ch; words[j+1] = '\0'; flag = 505; break; } case'{':{ words[j] = ch; words[j+1] = '\0'; flag = 506; break; } case'}':{ words[j] = ch; words[j+1] = '\0'; flag = 507; break; } case':':{ words[j] = ch; words[j+1] = '\0'; flag = 508; break; } case'"':{ words[j] = ch; words[j+1] = '\0'; flag = 509; break; } case'%':{ if (ch == '%') words[j++] = ch; words[j] = '\0'; ch = program[i++]; if (ch == '=') { words[j++] = ch; words[j] = '\0'; flag = 510; } else { i--; flag = 511; } break; } case',':{ words[j] = ch; words[j+1] = '\0'; flag = 512; break; } case'#':{ words[j] = ch; words[j+1] = '\0'; flag = 513; break; } case'@':{ words[j] = '#'; flag = 0; break; } default:{ flag = -1; break; } } return flag; } main() { i=0; printf("please input a program end with @"); do { ch = getchar(); program[i++] = ch; }while(ch != '@'); i = 0; do{ flag = Scan(program); if (flag == 200) { printf("(%2d,%4d)",flag,number); } else if (flag == -1) { printf("(%d,error)",flag); } else { printf("(%2d,%4s)",flag,words); } }while (flag != 0); system("pause"); }
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

实名吃香菜

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值