【问题标题】:ANTLR AST building: root node as string instead of characterANTLR AST 构建:根节点作为字符串而不是字符
【发布时间】:2010-10-25 13:49:52
【问题描述】:

我可能会问一个愚蠢/基本的问题,但我对 ANTLR AST 构建感到困惑。

我想要做的是一种布尔表达式解析器,这样在父节点上我有运算符及其操作数作为子节点。 例如,一个句子

( ( A B C & D ) | ( E & ( F | G ) ) )

最好是代表

              |
             / \
            /   \
           /     \
          /       \
         &         &
        / \       / \
       /   \     /   \
      /     D   E     |
     /|\             / \
    A B C           /   \
                   F     G 

来自以下语法。

grammar Test;

options
{
   language = 'Java';
   output=AST;
}


exp    :    word (expRest^)? | '('! exp ')'! (expRest^)?  ;

expRest :    (('&'|'|'|'!'|'&!'|'|!')^) exp | (('~'^) digit+ exp);
word    :   letter letter* -> ^(letter letter*);
letter  :        '0'|'1'|'2'|'3'|'4'|'5'|'6'|'7'|'8'|'9'|'a'|'b'|'c'|'d'|'e'|'f'|'g'|'h'|'i'|'j'|'k'|'l'|'m'|'n'|'o'|'p'|'q'|'r'|'s'|'t'|'u'|'v'|'w'|'x'|'y'|'z'|'A'|'B'|'C'|'D'|'E'|'F'|'G'|'H'|'I'|'J'|'K'|'L'|'M'|'N'|'O'|'P'|'Q'|'R'|'S'|'T'|'U'|'V'|'W'|'X'|'Y'|'Z';
digit   :    '0'|'1'|'2'|'3'|'4'|'5'|'6'|'7'|'8'|'9';

问题是,我将“A B C”作为节点列表(数组)作为“&”的子节点。

是否可以将其限制为单个字符串???即“A B C” 或者换句话说,AST的根节点是否可以有多个字符???如果是,那我该如何实现呢?

作为参考,我想制作一个“风险因素和当前经济状况”的语法树

P.S.我也试过了:

word    :   (letter letter*)^ ;

仅供参考,我使用的是 .NET 环境。

【问题讨论】:

  • 你的语法中有language = 'Java';,但你说“...我正在使用.NET环境”
  • 很抱歉,实际上我在生成代码时将其设为“CSharp”。有趣的是,我打算添加评论,但我看到了你的:)...谢谢。

标签: c# string antlr root abstract-syntax-tree


【解决方案1】:

您可以在语法中插入虚构的标记,这些标记将成为单词“组”的根。我认为将ABC 粘在一起不是一个好主意,因为您可能需要将它们分开,对吧?

我无法真正弄清楚您到底想做什么,所以这里有一个小演示,您可以(尝试)了解一下:

grammar BoolExp;

options { 
  output=AST; 
}

tokens {
  MultiWord;
}

parse
  :  booleanExp EOF!
  ;

booleanExp
  :  orExp
  ;

orExp
  :  andExp ('|'^ andExp)*
  ;

andExp
  :  notExp ('&'^ notExp)*
  ;

notExp
  :  '!'^ atom
  |  atom
  ;

atom
  :  '(' booleanExp ')' -> booleanExp
  |  WORD WORD+         -> ^(MultiWord WORD+)
  |  WORD
  ;

WORD
  :  ('a'..'z' | 'A'..'Z')+
  ;

SPACE
  :  (' ' | '\t' | '\r' | '\n'){skip();}
  ;

如果您从中生成解析器并使用输入进行测试:

( ( A B C & D ) | ( E & ( F | G ) ) )

您将获得以下 AST:

我没有发布生成 DOT 文件的 (Java) 测试类,该文件用于创建上面的 AST 图像,因为您说您使用的是 .NET 目标。想看的可以留言,我也会发上来的。

【讨论】:

  • 我想它会起作用,但让我试着让你知道。我使用的单词和您使用的“单词”有什么区别???当我使用“WORD”时,它的颜色是蓝色而不是红色(与其他非终端不同)。
  • 我猜你的意思是有些规则是蓝色的,有些是红色的 ANTLRWorks,对吧? (有一段时间没有使用过 ANTLRWorks)。以大写字母开头的规则是词法分析器规则,以小写字母开头的规则是解析器规则。 HTH。
  • 啊,对。伟大的。实际上,MultiWord 提示已经成功了。每当有一个多字文本作为节点文本并且子节点是叶子节点时,我选择所有子节点作为空格分隔。谢谢你帮助我。
【解决方案2】:

如果您希望“A B C”作为单个节点,则定义字母以在字符之间包含“”,例如:

letter : character (space character)*;
character : '0'..'9'|'a'..'z'|'A'..'Z';
space : ' ';

其中将包含空格作为字母节点的子节点。

【讨论】:

  • 显然,编写上述语法没有问题,但我无法使用上述语法进行调试。不知道有什么问题...(我正在使用 ANTLRWorks 1.4 进行调试)
猜你喜欢
  • 2019-03-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多