【问题标题】:Need a simple Bison grammar for HTMLHTML 需要一个简单的 Bison 语法
【发布时间】:2011-01-22 20:48:04
【问题描述】:

我查看了 Bison 帮助并写了这个,但我不确定它是否完全正确。我还需要一个处理词法分析器的yylex()(它应该是Flex 工具)。我知道一些关于上下文无关语法的基本知识。但我不知道如何正确实施它们! :(

我想要一个用于 HTML 的简单 Bison 语法。问题是:下面的语法应该改变什么?

%{
    #include <stdio.h>
    int yylex(void);
    int yyerror(char const *);
%}

%token NUM_TOKEN FILENAME_TOKEN COLOR_TOKEN NAME_TOKEN

/* Html Grammer follows... */
%%


/* Any html tag follow this pattern: */
EXPRESSION: 
            '<' TAG CLUSER '>' INNER_EXPRESSION "</" TAG '>' ;

/* Some html tags: */
TAG: 
     "a"    |
     "html" |
     "head" |
     "link" |
     "div"  |
     "input"|
     "from" |
     "title"|
     "img"  |
     "table"|
     "td"   |
     "tr"   ;


CLUSER:
       ALIGN|
       CLASS|
       ID|
       SRC|
       TEPY|
       ACTION|
       HREF|
       REL|
       /* € (Eplsilone) */
       ;


ALIGN:
      "align" '=' "left"|
      "align" '=' "right"|
      "align" '=' "center"
      ;

CLASS:
      "class" '=' NAME_TOKEN
      ;

ID:
      "id" '=' NAME_TOKEN
      ;

SRC:
      "src" '=' FILENAME_TOKEN
      ;

TEPY:
      "type" '=' CONT
      ;

ACTION:
      "action" '=' FILENAME_TOKEN
      ;

HREF:
      "href" '=' '\"#\"'|
      "href" '=' FILENAME_TOKEN
      ;

REL:
      "rel" '=' "stylesheet"|
      "rel" '=' "\"stylesheet\""
      ;


DOMIN:
      "px"|
      "mm"|
      "cm"|
      "inch"
      ;

PAS:
     "php"|
     "asp"|
     "aspx"|
     "css"
     ;

CONT:
     "button"|
     "checkbox"|
     "text"|
     "password"|
     "file"|
     "submit"
     ;

INNER_EXPRESSION:
     EXPRESSION|
     /* € (Eplsilone) */
     ;


/* Html grammer ends. */
%% 

这是 Bison 的输出:

E:\Program Files\GnuWin32\bin>bison "E:\Dev-Cpp\HtmlBison\html.y" -o "E:\html.c"

E:\Dev-Cpp\HtmlBison\html.y: warning: 2 nonterminals useless in grammar
E:\Dev-Cpp\HtmlBison\html.y: warning: 8 rules useless in grammar
E:\\Dev-Cpp\\HtmlBison\\html.y:83.1-5: warning: nonterminal useless in grammar:
DOMIN
E:\\Dev-Cpp\\HtmlBison\\html.y:90.1-3: warning: nonterminal useless in grammar:
PAS
E:\\Dev-Cpp\\HtmlBison\\html.y:84.7-10: warning: rule useless in grammar: DOMIN:
 "px"
E:\\Dev-Cpp\\HtmlBison\\html.y:85.7-10: warning: rule useless in grammar: DOMIN:
 "mm"
E:\\Dev-Cpp\\HtmlBison\\html.y:86.7-10: warning: rule useless in grammar: DOMIN:
 "cm"
E:\\Dev-Cpp\\HtmlBison\\html.y:87.7-12: warning: rule useless in grammar: DOMIN:
 "inch"
E:\\Dev-Cpp\\HtmlBison\\html.y:91.6-10: warning: rule useless in grammar: PAS: "
php"
E:\\Dev-Cpp\\HtmlBison\\html.y:92.6-10: warning: rule useless in grammar: PAS: "
asp"
E:\\Dev-Cpp\\HtmlBison\\html.y:93.6-11: warning: rule useless in grammar: PAS: "
aspx"
E:\\Dev-Cpp\\HtmlBison\\html.y:94.6-10: warning: rule useless in grammar: PAS: "
css"
m4: cannot open `Files\GnuWin32/share/bison': No such file or directory
m4: cannot open `E:\Program': No such file or directory
m4: cannot open `Files\GnuWin32/share/bison/m4sugar/m4sugar.m4': No such file or
 directory

它不会是一个完整的 HTML 解析器。我只想验证没有任何CSS 样式或JavaScripts 或...的非常简单的HTML 文档 我还看到了this。 注意:解决方案必须是 Bison 语法!

【问题讨论】:

标签: html c grammar bison context-free-grammar


【解决方案1】:

TAG 应该是从词法分析器返回的令牌,否则您将一直编写案例直到奶牛回家。

属性等也是如此。

【讨论】:

  • 我认为“TAG”不应该是一个标记;在我看来,这是一个解析器级别的构造。我想这取决于您所说的“标签”是什么意思;它只是标签名称吗?在这种情况下,是的,词法分析器应该只担心标签标识符作为标记,而解析器应该担心它愿意识别的标签集合。
  • @Pointy:这就是我的意思。最好叫它IDENTIFIER 之类的。
  • 虽然现在我想起来了,我曾经使用过的一个有限的 XML 解析器生成器会将标识符表预加载到哈希中。词法分析器会识别“标识符”,但随后会为了方便而执行哈希查找。然后它可以给解析器一个整数代码作为标签名称(或类似 -1 的未知名称),这使得解析器更快。当然,我猜解析器也可以执行该查找。
  • @Pointy:我同意。问题仍然存在,但野牛是否真的支持“字符串文字”。我知道许多像 ANTLR 一样的集成词法分析器/解析器。
  • 谢谢 leppie & Pointy 的回复,你对 Bison 的输出有什么想法吗???
猜你喜欢
  • 2013-02-26
  • 1970-01-01
  • 2013-05-17
  • 1970-01-01
  • 2014-03-04
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多