【问题标题】:How to match c++ with word boundaries如何将c ++与单词边界匹配
【发布时间】:2018-05-19 08:11:49
【问题描述】:

我想在 Python 3 中将单词“c++”与单词边界匹配。但我的猜测是 \b 也会在加号上触发。

为了清楚起见,我已简化为以下测试用例:

\bc\+\+\b

我希望我可以保留单词边界但以某种方式更改其设置。

这样做的原因是我想将正则表达式放在 TfidfVectorizer 中的 token_pattern 中,我无法控制它们如何使用它。

Link to online regex tool

【问题讨论】:

  • 尝试(?<!\S)c\+\+(?!\S) 或保留第一个单词边界。这实际上取决于您对单词边界的期望。
  • 这个案子some text -c++... with .c+++怎么样?
  • 照常使用(?<!\w)c\+\+(?!\w)

标签: regex python-3.x


【解决方案1】:

影响字符类“行为”的方式非常有限——它们被称为标志:

re.ASCII ... re.VERBOSE

他们 f.e.允许 r'.' 匹配换行符 (re.DOTALL),更改 ^$ (re.MULTILINE) 的行为或使您的正则表达式匹配不区分大小写 (re.IGNORECASE)。

它们都没有将\b 更改为没有'+'。如果您想将 c++ 与 wordboundaries 匹配,您必须在您的模式中模仿 \b-行为:

\b    Matches the empty string, but only at the beginning or end of a word. 
      A word is defined as a sequence of word characters. Note that formally, 
      \b is defined as the boundary between a \w and a \W character (or vice versa), 
      or between \w and the beginning/end of the string. This means that r'\bfoo\b' 
      matches 'foo', 'foo.', '(foo)', 'bar foo baz' but not 'foobar' or 'foo3'.

来源:https://docs.python.org/3/library/re.html#regular-expression-syntax

最简单的可能是将'c++' 与之前的单词边界和之后的空格或非单词字符相匹配。 r'\bc\+\+[\s\W]' 但这也将匹配 'c+++'。如果您想仅匹配 'c++' 而不是 'c+++',您可能需要将 '\s' 放入您的模式并使用您允许的其他字符扩展它:

r'\b(c\+\+)[\s.,!?]' 

在括号中扩展字符以适应 c++ 之后允许的更多内容 - 将它们从分组中排除 (c++) 将需要它们匹配但不将它们包含在组中。

至于正则表达式测试工具,可能更改为https://regex101.com/ - 它支持python,您甚至可以保存模式和测试文本并提供链接:

https://regex101.com/r/6XtVTS/1

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-07-06
    • 1970-01-01
    相关资源
    最近更新 更多