antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。ANTLR—Another Tool for Language Recognition,其前身是PCCTS,它为包括Java,C++,C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器(recognizer),编译器(parser)和解释器(translator)的框架。

  

1 ANTLR简介

ANTLR—Another Tool for Language Recognition,其前身是PCCTS,它为包括Java,C++,C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器(recognizer),编译器(parser)和解释器(translator)的框架。ANTLR可以通过断言(Predicate)解决识别冲突;支持动作(Action)和返回值(Return Value)来;更棒的是,它可以根据输入自动生成语法树并可视化的显示出来(这一点我将在下面的例子中演示)。由此,计算机语言的翻译变成了一项普通的任务—在这之前YACC/LEX显得过于学院派,而以LL(k)为基础的ANTLR虽然在效率上还略有不足,但是经过近些年来的升级修改,使得ANTLR足以应付现存的绝大多数应用。感谢Terence Parr博士和他的同事们十几年来的出色工作,他们为编译理论的基础和语言工具的构造做了大量基础性工作,也直接导致了ANTLR的产生。

1.1 词法分析器(Lexer)

词法分析器又称为Scanner,Lexical analyser和Tokenizer。程序设计语言通常由关键字和严格定义的语法结构组成。编译的最终目的是将程序设计语言的高层指令翻译成物理机器或虚拟机可以执行的指令。词法分析器的工作是分析量化那些本来毫无意义的字符流,将他们翻译成离散的字符组(也就是一个一个的Token),包括关键字,标识符,符号(symbols)和操作符供语法分析器使用。

1.2 语法分析器(Parser)

编译器又称为Syntactical analyser。在分析字符流的时候,Lexer不关心所生成的单个Token的语法意义及其与上下文之间的关系,而这就是Parser的工作。语法分析器将收到的Tokens组织起来,并转换成为目标语言语法定义所允许的序列。

无论是Lexer还是Parser都是一种识别器,Lexer是字符序列识别器而Parser是Token序列识别器。他们在本质上是类似的东西,而只是在分工上有所不同而已。如下图所示:

了解antlr字符输入流、tokens和AST之间的关系

1.3 树分析器 (tree parser)

树分析器可以用于对语法分析生成的抽象语法树进行遍历,并能执行一些相关的操作。

1.4 ANTLR

ANTLR将上述结合起来,它允许我们定义识别字符流的词法规则和用于解释Token流的语法分析规则。然后,ANTLR将根据用户提供的语法文件自动生成相应的词法/语法分析器。用户可以利用他们将输入的文本进行编译,并转换成其他形式(如AST—Abstract Syntax Tree,抽象的语法树)。

 

一.ANTRL 是什么

ANTLR 是用JAVA写的语言识别工具,它用来声明语言的语法,简称为“元语言”(meta-language)。

ANTLR 语法识别一般分为二个阶段:

1.词法分析阶段 (lexical analysis)

对应的分析程序叫做 lexer ,负责将符号(token)分组成符号类(token class or token type)

2.解析阶段

根据词法,构建出一棵分析树(parse tree)或叫语法树(syntax tree) 
 

了解antlr

 


 

ANTLR 的直观印象,就像是在走迷宫,或者说是电路板更准确,最终只有一条最优路可通达开始与结束,中间的各种叉路与开关,就是我们所编写的规则,下面是我编写的一个SQL查询的简单实现,截取一部分图示:

了解antlr

 

 

ANTLR 官方网址 http://www.antlr.org/

ANTLR 官方 Github https://github.com/antlr/antlr4

大量语法文件例子 https://github.com/antlr/grammars-v4


 

二.主要应用场景

1.定制特定领域语言(DSL)

类似hibernate中的HQL,用DSL来定义要执行操作的高层语法,这种语法接近人可理解的语言,由DSL到计算机语言的翻译则通过ANTLR来做,可在ANTLR的结构语言中定义DSL命令具体要执行何种操作。

2.文本解析 可利用ANTLR解析JSON,HTML,XML,EDIFACT,或自定义的报文格式。解析出来的信息需要做什么处理也可以在结构文件中定义。

3.数学计算 加减乘除,线性方程,几何运算,微积分等等


 

三.ANTRL 语法

1.结构

了解antlr

/** Optional javadoc style comment */
grammar Name; 
options {...}
import ... ;

tokens {...}
channels {...} // lexer only
@actionName {...}

rule1 // parser and lexer rules, possibly intermingled
...
ruleN

了解antlr

 

grammar

声明语法头,类似于java类的定义

grammar  SPL;

options

选项,如语言选项,输出选项,回溯选项,记忆选项等等


options { output=AST;  language=Java; }

options { tokenVocab=MySqlLexer; }

@actionName

动作(Actions)实际上是用目标语言写成的、嵌入到规则中的代码(以花括号包裹)。它们通常直接操作输入的标号,但是他们也可以用来调用相应的外部代码。属性,到目前为止我的理解还不多,感觉像是C++中类里面的成员。常用属性或动作说明:

  • @header { package com.zetyun.aiops.antlr.test; }

    这个动作很有用,即在运行脚本后,生成的类中自动带上这个包路径,避免了手动加入的麻烦。

  • @members { int i; public TParser(TokenStream input, int foo) { this(input); i = foo; }}

  • @after {System.out.println("after matching rule; before finally");}

rule

这是核心,表示规则,以 “:” 开始, “;” 结束, 多规则以 "|" 分隔。

了解antlr

ID : [a-zA-Z0-9|'_']+ ;    //数字 
STR:'\'' ('\'\'' | ~('\''))* '\''; 
WS: [ \t\n\r]+ -> skip ; // 系统级规则 ,即忽略换行与空格

sqlStatement
    : ddlStatement 
    | dmlStatement     | transactionStatement
    | replicationStatement     | preparedStatement
    | administrationStatement     | utilityStatement
    ;

了解antlr

 

2.注释

  • 单行、多行、javadoc风格
  • javadoc风格只能在开头使用

了解antlr

/** 
 * This grammar is an example illustrating the three kinds
 * of comments.
 */
grammar T;

/* a multi-line
  comment
*/

/** This rule matches a declarator for my language */

decl : ID ; // match a variable name

了解antlr

 

3.标识符

  • 符号(Token)名大写开头
  • 解析规则(Parser rule)名小写开头,后面可以跟字母、数字、下划线
ID, LPAREN, RIGHT_CURLY // token names
expr, simpleDeclarator, d2, header_file // rule names

 

 

四.遍历模式

1、Listener (观察者模式,通过结点监听,触发处理方法)

  • 程序员不需要显示定义遍历语法树的顺序,实现简单
  • 缺点,不能显示控制遍历语法树的顺序
  • 动作代码与文法产生式解耦,利于文法产生式的重用
  • 没有返回值,需要使用map、栈等结构在节点间传值

2、Visitor (访问者模式,主动遍历)

  • 程序员可以显示定义遍历语法树的顺序
  • 不需要与antlr遍历类ParseTreeWalker一起使用,直接对tree操作
  • 动作代码与文法产生式解耦,利于文法产生式的重用
  • visitor方法可以直接返回值,返回值的类型必须一致,不需要使用map这种节点间传值方式,效率高

五.示例

计算器之四则运算(官方例子照抄)

1、新建g4文件,如Math.g4

了解antlr

grammar Math;

@header{package com.zetyun.aiops.core.math;} 

prog : stat+;

stat: expr NEWLINE          # printExpr
    | ID '=' expr NEWLINE   # assign
    | NEWLINE               # blank
    ;

expr:  expr op=('*'|'/') expr   # MulDiv
| expr op=('+'|'-') expr        # AddSub
| INT                           # int
| ID                            # id
| '(' expr ')'                  # parens
;

MUL : '*' ; // assigns token name to '*' used above in grammar
DIV : '/' ;
ADD : '+' ;
SUB : '-' ;
ID : [a-zA-Z]+ ;
INT : [0-9]+ ;
NEWLINE:'\r'? '\n' ;
WS : [ \t]+ -> skip;

了解antlr

 

2、运行Math.g4文件,生成.java文件

了解antlr

 

如果没有安装eclipse antlr插件的话,根据如下指示操作即可:

help -> Eclipse Marketplace -> 搜索 Antlr -> 选中合适版本,安装即可。

了解antlr

 

 

3、编写测试文件,检验语法,验证结果等

了解antlr

package com.zetyun.aiops.test;

import org.antlr.v4.runtime.CharStream;
import org.antlr.v4.runtime.CharStreams;
import org.antlr.v4.runtime.CommonTokenStream;
import org.antlr.v4.runtime.tree.ParseTree;

import com.zetyun.aiops.core.math.MathLexer;
import com.zetyun.aiops.core.math.MathParser;

public class Math {


    public static void main(String[] args) {


         CharStream input = CharStreams.fromString("12*2+12\r\n");
         MathLexer lexer=new MathLexer(input);
         CommonTokenStream tokens = new CommonTokenStream(lexer);
         MathParser parser = new MathParser(tokens);
         ParseTree tree = parser.prog(); // parse
         MathVisitorTest vt=new MathVisitorTest();
         vt.visit(tree);

    }


}

了解antlr

 

4、语法树分析

  • 1) 下载antlr4运行包,这里我选择的版本是 antlr-4.7-complete.jar

    http://www.antlr.org/download.html

  • 2) 新建运行脚本 antlr4.bat 和 grun.bat,放置于任意目录,如 E:/tools/antlr4

    antlr4.bat 内容:

    java org.antlr.v4.Tool %*
    

    grun.bat 内容:

    java org.antlr.v4.gui.TestRig %*
    

    注:antlr依赖于java,如果java环境变量没有设置,请先行设置好。

  • 3) 设置antlr4的系统环境变量(classpath 和 path)

    classpath:

    了解antlr

     

    path (.bat所在目录) :

    了解antlr

     

  • 4) 选择要分析的g4文件,运行命令生成相关java文件与token文件

D:\workspace\AntlrTest\test\math> antlr4 Math.g4

了解antlr

 

  • 5) 编译java文件
D:\workspace\AntlrTest\test\math>javac ./*.java

了解antlr

 

  • 6) 分析语法树

输入grun命令回车,在命令行输入你要测试的语法,再回车,按Ctrl+z 后回车。

D:\workspace\AntlrTest\test\math>grun Math expr -gui

D:\workspace\AntlrTest\test\math>java org.antlr.v4.gui.TestRig Math expr -gui
(2+3)*5-25/5
^Z

执行完命令后,会出现GUI窗口:

了解antlr

 

通过语法树,我们可以直观的知道语法是否正确,以便随时调整。

标签: Antlr4 入门Antlr4 语法g4 语法Antlr4 操作说明

相关文章:

  • 2021-09-12
  • 2021-08-13
  • 2021-11-16
  • 2021-11-10
  • 2022-02-23
  • 2022-12-23
  • 2021-05-10
  • 2021-05-21
猜你喜欢
  • 2021-05-16
  • 2022-12-23
  • 2021-10-09
  • 2022-12-23
  • 2021-10-22
  • 2021-08-20
相关资源
相似解决方案