【问题标题】:Conditionally replace regex matches in string有条件地替换字符串中的正则表达式匹配
【发布时间】:2012-07-15 13:34:38
【问题描述】:

我正在尝试用不同的替换模式替换字符串中的某些模式。

例子:

string test = "test replacing \"these characters\"";

我想要做的是将所有 ' ' 替换为 '_' 并将所有其他非字母或数字字符替换为空字符串。我创建了以下正则表达式,它似乎可以正确标记,但我不确定如何(如果可能)使用regex_replace 执行条件替换。

string test = "test replacing \"these characters\"";
regex reg("(\\s+)|(\\W+)");

替换后的预期结果是:

string result = "test_replacing_these_characters";

编辑: 我不能使用 boost,这就是为什么我把它排除在标签之外。所以请不要回答包括提升。我必须用标准库来做这件事。可能是不同的正则表达式可以实现目标,或者我只是被困在做两次传球。

编辑2: 在我最初的正则表达式时,我不记得\w 中包含哪些字符,在查找之后我进一步简化了表达式。再次,目标是任何匹配 \s+ 的东西都应该替换为 '_' 并且任何匹配 \W+ 的东西都应该替换为空字符串。

【问题讨论】:

  • 为什么在示例输出中删除了最后一个 "-char?
  • @rubberboots - 因为只有空格应该替换为下划线,任何其他非字母和数字字符都应该替换为空。
  • 我明白了,所以您会希望一次使用不同的替换文本。这在 c++ 正则表达式中不起作用。如果有人现在对此有窍门,我也想使用它;-)
  • @rubberboots - 是的,这就是我提出问题的原因,我想我最终会发现 - “你不能那样做”,但我想我可以问并希望有人聪明会有解决办法的。
  • 我发现了一个带有回调函数的方法,不幸的是,它实际上在我的 C++11 实现(g++ 4.6.1,VS2012)中不起作用(但在 boost 中起作用)。

标签: c++ regex visual-studio-2010 visual-c++ c++11


【解决方案1】:

c++ (0x, 11, tr1) 正则表达式do not really work (stackoverflow) 在所有情况下(查找phrase regex on this page 以获取gcc),所以最好暂时使用use boost

如果您的编译器支持所需的正则表达式,您可以尝试:

#include <string>
#include <iostream>
#include <regex>

using namespace std;

int main(int argc, char * argv[]) {
    string test = "test replacing \"these characters\"";
    regex reg("[^\\w]+");
    test = regex_replace(test, reg, "_");
    cout << test << endl;
}

以上适用于 Visual Studio 2012Rc。

编辑 1:要一次性替换为 两个不同的字符串(取决于比赛),我认为这在这里行不通。在 Perl 中,这可以很容易地在评估的替换表达式中完成(/e 开关)。

因此,正如您已经猜到的那样,您需要两次通行证:

 ...
 string test = "test replacing \"these characters\"";
 test = regex_replace(test, regex("\\s+"), "_");
 test = regex_replace(test, regex("\\W+"), "");
 ...

编辑 2

如果可以在regex_replace 中使用回调函数 tr(),那么您可以在那里修改替换,例如:

 string output = regex_replace(test, regex("\\s+|\\W+"), tr);

tr() 做替换工作:

 string tr(const smatch &m) { return m[0].str()[0] == ' ' ? "_" : ""; }

问题已经解决了。不幸的是,在某些 C++11 正则表达式实现中没有这种重载,但是 Boost has one。以下内容适用于 boost 并使用一次传递:

...
#include <boost/regex.hpp>
using namespace boost;
...
string tr(const smatch &m) { return m[0].str()[0] == ' ' ? "_" : ""; }
...

string test = "test replacing \"these characters\"";
test = regex_replace(test, regex("\\s+|\\W+"), tr);   // <= works in Boost
...

也许有一天这将适用于 C++11 或接下来的任何数字。

问候

rbo

【讨论】:

  • 我不想用下划线替换“,应该什么都不替换。这是我的问题的症结所在,我想将第一个匹配组替换为_,第二个匹配组替换为空字符串。我还应该提到我不能使用 boost。
  • 您在 VS2012 中运行的第二次编辑仍然无法解决我的问题。空格必须替换为_,所有其他非字母和数字字符必须替换为空字符串
  • 两遍版本在我的系统上执行此操作,结果为test_replacing_these_characters
【解决方案2】:

执行此操作的方法通常是通过使用四个反斜杠来删除影响实际 C 代码的反斜杠来完成的。然后你需要对括号进行第二次传递,然后在你的正则表达式中转义它们。

string tet = "test replacing \"these characters\"";
//regex reg("[^\\w]+");
regex reg("\\\\"); //--AS COMMONLY TAUGHT AND EXPLAINED
tet = regex_replace(tet, reg, " ");
cout << tet << endl;

regex reg2("\""); //--AS SHOWN
tet = regex_replace(tet, reg2, " "); 
cout << tet << endl;

并且在单次使用中;

string tet = "test replacing \"these characters\"";
//regex reg("[^\\w]+");
regex reg3("\\\""); //--AS EXPLAINED
tet = regex_replace(tet, reg3, "");
cout << tet << endl;

【讨论】:

  • 这没有回答问题。问题是我是否有办法(早在 2012 年)用下划线替换所有空格字符,用空字符串替换所有非字母和数字字符。我希望一次性完成。您的答案也没有输出正确的结果,即:test_replacing_these_characters
猜你喜欢
  • 1970-01-01
  • 2015-11-30
  • 2012-01-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-09-02
  • 1970-01-01
相关资源
最近更新 更多