ANTLR4 词法分析器无法解决语法顺序中的歧义答案

【问题标题】：ANTLR4 lexer not resolving ambiguity in grammar orderANTLR4 词法分析器无法解决语法顺序中的歧义
【发布时间】：2014-03-02 00:11:33
【问题描述】：

使用 ANTLR 4.2，我正在尝试对此测试数据进行非常简单的解析：

RRV0#ABC

使用最小语法：

grammar Tiny;

thing : RRV N HASH ID ;

RRV : 'RRV' ;
N : [0-9]+ ;
HASH : '#' ;
ID : [a-zA-Z0-9]+ ;
WS : [\t\r\n]+ -> skip ; // match 1-or-more whitespace but discard

根据 Terence Parr 的 Definitive ANTLR 4 reference 以下摘录，我希望词法分析器 RRV 在 ID 之前匹配：

BEGIN : 'begin' ; // match b-e-g-i-n sequence; ambiguity resolves to BEGIN
ID : [a-z]+ ; // match one or more of any lowercase letter

用上面的测试数据运行ANTLR4测试台，输出为

[@0,0:3='RRV0',<4>,1:0]
[@1,4:4='#',<3>,1:4]
[@2,5:7='ABC',<4>,1:5]
[@3,10:9='<EOF>',<-1>,2:0]
line 1:0 mismatched input 'RRV0' expecting 'RRV'

我可以看到 ID 的第一个标记是，值为 'RRV0'

我尝试重新排列词法分析器项目的顺序。我还尝试通过在语法规则中显式匹配（而不是通过显式词法分析器项目）来使用隐式词法分析器项目。我也尝试使匹配不贪心。这些对我来说并不成功。

如果我将 lexed ID 项目更改为不匹配大写，那么 RRV 项目确实匹配并且解析会更进一步。

我从 ANTLR 4.1 开始时遇到了同样的问题。

我在 ANTLRWorks 和命令行中进行了检查，两种方式的结果都相同。

如何更改语法以匹配词法分析器项目 RRV 而不是 ID？

【问题讨论】：

标签： antlr4

【解决方案1】：

语法顺序解析策略仅适用于两个不同的词法分析器规则匹配相同长度的标记。当长度不同时，最长的总是获胜。在您的情况下，ID 规则匹配长度为 4 的令牌，比仅匹配 3 个字符的 RRV 令牌长。

这种策略在 Java 等语言中尤为重要。考虑以下输入：

String className = "";

连同以下两条语法规则（略简化）：

CLASS : 'class';
ID : [a-zA-Z_] [a-zA-Z0-9_]*;

如果我们只考虑语法顺序，那么输入className 将产生一个关键字，后跟标识符Name。重新排列规则并不能解决问题，因为这样就无法创建 CLASS 令牌，即使对于输入 class。

【讨论】：

这很有意义。可以编写语法以明确匹配“RRV”作为标记吗？我猜我需要选择匹配 ID，然后使用进一步的代码来检查 ID 是否为“RRV”