【发布时间】:2012-11-15 10:21:23
【问题描述】:
我有一个词法分析器,基于该词法分析器,我现在想创建一个使用该词法分析器生成的标记的语法。我尝试调整我发现的一些示例,现在我有一些可以编译和工作的东西,但我的一个应该失败的测试没有。现在我想知道为什么,我也想知道我在那里实际做了什么(我想了解 - 我只是从一些示例中复制了一些代码,但这并没有真正提高理解)。
词法分析器:
#include <boost/spirit/include/lex_lexertl.hpp>
namespace lex = boost::spirit::lex;
enum LexerIDs { ID_IDENTIFIER, ID_WHITESPACE, ID_INTEGER, ID_FLOAT, ID_PUNCTUATOR };
template <typename Lexer>
struct custom_lexer : lex::lexer<Lexer>
{
custom_lexer()
: identifier("[a-zA-Z_][a-zA-Z0-9_]*")
, white_space("[ \\t\\n]+")
, integer_value("[1-9][0-9]*")
, hex_value("0[xX][0-9a-fA-F]+")
, float_value("[0-9]*\\.[0-9]+([eE][+-]?[0-9]+)?")
, float_value2("[0-9]+\\.([eE][+-]?[0-9]+)?")
, punctuator("\\[|\\]|\\(|\\)|\\.|&>|\\*\\*|\\*|\\+|-|~|!|\\/|%|<<|>>|<|>|<=|>=|==|!=|\\^|&|\\||\\^\\^|&&|\\|\\||\\?|:|,")// [ ] ( ) . &> ** * + - ~ ! / % << >> < > <= >= == != ^ & | ^^ && || ? : ,
{
using boost::spirit::lex::_start;
using boost::spirit::lex::_end;
this->self.add
(identifier, ID_IDENTIFIER)
/*(white_space, ID_WHITESPACE)*/
(integer_value, ID_INTEGER)
(hex_value, ID_INTEGER)
(float_value, ID_FLOAT)
(float_value2, ID_FLOAT)
(punctuator, ID_PUNCTUATOR);
this->self("WS") = white_space;
}
lex::token_def<std::string> identifier;
lex::token_def<lex::omit> white_space;
lex::token_def<int> integer_value;
lex::token_def<int> hex_value;
lex::token_def<double> float_value;
lex::token_def<double> float_value2;
lex::token_def<> punctuator;
};
语法:
namespace qi = boost::spirit::qi;
namespace lex = boost::spirit::lex;
template< typename Iterator, typename Lexer>
struct custom_grammar : qi::grammar<Iterator, qi::in_state_skipper<Lexer>>
{
template< typename TokenDef >
custom_grammar(const TokenDef& tok) : custom_grammar::base_type(ges)
{
ges = qi::token(ID_INTEGER) | qi::token(ID_FLOAT);
BOOST_SPIRIT_DEBUG_NODE(ges);
debug(ges);
}
qi::rule<Iterator, qi::in_state_skipper<Lexer>> ges;
};
还有例子:
BOOST_AUTO_TEST_CASE(BasicGrammar)
{
namespace lex = boost::spirit::lex;
namespace qi = boost::spirit::qi;
std::string test("1234 56");
typedef lex::lexertl::token<char const*, lex::omit, boost::mpl::true_> token_type;
typedef lex::lexertl::lexer<token_type> lexer_type;
typedef custom_lexer<lexer_type>::iterator_type iterator_type;
custom_lexer<lexer_type> my_lexer;
custom_grammar<iterator_type, custom_lexer<lexer_type>::lexer_def> my_grammar(my_lexer);
char const* first = test.c_str();
char const* last = &first[test.size()];
lexer_type::iterator_type iter = my_lexer.begin(first, last);
lexer_type::iterator_type end = my_lexer.end();
bool r = qi::phrase_parse(iter,end,my_grammar, qi::in_state( "WS" )[ my_lexer.self ]);
BOOST_CHECK(r);
}
我的假设是返回 true 因为空格被跳过 - 因为 auf qi::in_state("WS").真的吗?此外,我知道如何为空格输出额外的标记 - 但是我不知道在 qi::in_stat 现在所在的位置放置什么 - 没有它,它就无法工作。
关于结构我可以改进的任何想法?为什么调试输出这么有趣?
<ges>
<try>[]</try>
<success></success>
<attributes>[]</attributes>
</ges>
感谢您的帮助。
问候
托比亚斯
【问题讨论】:
-
parse函数的返回值不取决于整个输入是否已被消耗,仅取决于是否无法解析您所询问的内容。在这种情况下,您要求获取整数或浮点数。由于解析了一个整数,因此它返回 true。为了检查整个输入是否已被解析,您可以检查iter和end是否相等或使用qi::eoi,如sehe 解释的here。该调试输出的原因是您对token_type的定义。 lex::omit->boost::mpl::vector. -
谢谢。 qi::eoi 'trick' 很棒。如何定义令牌类型才能在输出中看到有意义的内容?
-
typedef lex::lexertl::token<char const*, boost::mpl::vector<int,float,std::string>, boost::mpl::true_> token_type;。如果qi::eoi技巧有帮助,您可能应该支持 sehe 的答案。 -
哦啊哈。刷新页面有帮助:) 我添加了一个答案。它还演示了如何使用
lex::tokenize_and*系列 API。 @llonesmiz 关于 token_type 的观点是正确的,我忘了提。 -
我可能会 - 一旦我阅读并尝试了它。他昨天帮我解决了一个问题——所以我毫不怀疑。
标签: c++ boost boost-spirit boost-spirit-qi boost-spirit-lex