解析字符串（带空格）但忽略（Spirit）末尾的空格答案

【问题标题】：Parsing a string (with spaces) but ignoring the spaces at the end of the (Spirit)解析字符串（带空格）但忽略（Spirit）末尾的空格
【发布时间】：2012-01-31 04:52:04
【问题描述】：

我有一个要解析的输入字符串。它可能看起来像两者中的任何一个：

sys(error1, 2.3%)
sys(error2 , 2.4%)
sys(this error , 3%)

有时请注意逗号前的空格。在我的语法（增强精神库）中，我想分别捕获“error1”、“error2”和“this error”。

这是我必须捕捉到的原始语法 - 它吸收了名称末尾的空格：

name_string %= lexeme[+(char_ - ',' - '"')];
name_string.name("Systematic Error Name");

start = (lit("sys")|lit("usys")) > '('
  > name_string[boost::phoenix::bind(&ErrorValue::SetName, _val, _1)] > ','
  > errParser[boost::phoenix::bind(&ErrorValue::CopyErrorAndRelative, _val, _1)]
  > ')';

我首先尝试解决这个问题：

name_string %= lexeme[*(char_ - ',' - '"') > (char_ - ',' - '"' - ' ')];

然而那完全失败了。看起来它无法解析任何中间有空格的东西。

我对 Spirit 还很陌生 - 所以也许我缺少一些简单的东西。看起来 lexeme 在前沿关闭了跳过 - 我需要在前沿和后沿执行它的东西。

提前感谢您的帮助！

感谢下面的 psur，我能够整理出一个答案。它并不完美（见下文），但我想我会更新这篇文章，让每个人都能在上下文中看到它并且格式很好：

qi::rule<Iterator, std::string(), ascii::space_type> name_word;
qi::rule<Iterator, std::string(), ascii::space_type> name_string;
ErrorValueParser<Iterator> errParser;

name_word %= +(qi::char_("_a-zA-Z0-9+"));
//name_string %= lexeme[name_word >> *(qi::hold[+(qi::char_(' ')) >> name_word])];

name_string %= lexeme[+(qi::char_("-_a-zA-Z0-9+")) >> *(qi::hold[+(qi::char_(' ')) >> +(qi::char_("-_a-zA-Z0-9+"))])];

start = (
         lit("sys")[bind(&ErrorValue::MakeCorrelated, _val)]
         |lit("usys")[bind(&ErrorValue::MakeUncorrelated, _val)]
         )
  >> '('
  >> name_string[bind(&ErrorValue::SetName, _val, _1)] >> *qi::lit(' ')
  >> ','
  >> errParser[bind(&ErrorValue::CopyErrorAndRelative, _val, _1)]
  >> ')';

这行得通！他们的关键是 name_string，其中包含 qi::hold，这是我之前不熟悉的运算符。它几乎就像一个子规则：qi::hold[...] 中的所有内容都必须成功解析才能运行。因此，在上面，如果后面有另一个单词，它只会在一个单词之后允许一个空格。结果是，如果单词序列以空格结尾，则不会解析最后的空格！它们可以被后面的 *qi::lit(' ') 吸收（参见开始规则）。

这里有两点我想弄清楚如何改进：

最好将实际的字符串解析放入 name_word。问题是 name_word 的声明 - 当它被放在 name_string 定义中的适当位置时它会失败。
如果 name_string 可以包含对尾随空格的解析会更好，尽管它的返回值没有。我想我知道该怎么做...

当/如果我弄清楚这些，我会更新这篇文章。感谢您的帮助！

【问题讨论】：

标签： c++ string parsing boost-spirit

【解决方案1】：

以下规则应该适合你：

name_word %= +(qi::char_("_a-zA-Z0-9"));

start %= qi::lit("sys(")
  >> qi::lexeme[ name_word >> *(qi::hold[ +(qi::char_(' ')) >> name_word ]) ]
  >> *qi::lit(' ')
  >> qi::lit(',')
  // ...

name_word 只解析名称中的一个单词；我假设它只包含字母、数字和下划线。

在start 规则qi::hold 中很重要。只有当 next 是 name_word 时，它才会解析空间。在其他情况下，解析器将回滚并移至*qi::lit(' ')，然后移至逗号。

【讨论】：

我花了一段时间才明白这一点。我不熟悉“hold”——看起来很完美。如果可行，我会尝试并标记答案。
我很抱歉，我收到了一个 gcc 模板错误转储，我最初没有勇气尝试对其进行排序。我认为错误表明我期望 qi::lexeme 的值是一个字符串，但它实际上是别的东西。如果我这样做：qi::rule<Iterator, std::string(), ascii::space_type> name_word; qi::rule<Iterator, std::string(), ascii::space_type> name_string;，然后对于名称，我将其定义为name_word %= +(qi::char_("_a-zA-Z0-9"))；并将字符串命名为 name_string %= qi::lexeme[name_word >> *(qi::hold[+(qi::char_(' ')) >> name_word ])]; 我得到了一个糟糕的 gcc 转储。
好的，我上面的评论是不正确的......其他原因导致编译器错误......正在处理它......
所以 - 它是导致编译器错误的词位 - 如果你删除它，那么内部表达式构建就好了。
好的，问题是我如何声明 name_word... 我怀疑 (??) 那里的 space_type 引起了麻烦...