【问题标题】:Captured group in optional part of a regular expression在正则表达式的可选部分中捕获的组
【发布时间】:2015-04-05 01:08:12
【问题描述】:

我想在字符串的可选部分捕获一个组。

例如:

在字符串“firstName:Bill-lastName:Gates”中,我想捕获2组:

  1. 比尔
  2. 盖茨

我使用这个正则表达式:

firstName:(.*)-lastName:(.*)

但是当lastName-part是可选的时候,我还是想抓到第一个 组(名字)。

我使用了这个正则表达式,使 lastName 部分成为可选的(在非捕获组中):

firstName:(.*)(?:-lastName:(.*))?

使用这个更新的正则表达式,生成的组是:

  • 当 lastName 部分不存在时,例如 "firstName:Bill" 捕获的组是:

    1. 比尔
    2. /空字符串/

这是正确的

  • 当 firstName 和 lastName 部分存在时:"firstName:Bill-lastName:Gates"组不正确

    1. 比尔姓氏:盖茨
    2. /空/

我认为这与第一个捕获组的贪婪有关,但是当 lastName-part 是可选的时,如何调整这个正则表达式以使正则表达式工作?

【问题讨论】:

    标签: c# regex regex-group


    【解决方案1】:

    你是对的,这是关于贪婪。查找第一个匹配组的分隔符。因此,如果您的名字“从不”包含破折号,则仅将破折号以外的所有内容与第一个匹配组匹配。

    firstName:([^-]*)(?:-lastName:(.*))?
    
    firstName:([^-]*)(?:-lastName:(.*))?
    

    Debuggex Demo

    如果找不到这样的分隔符,则需要采取不同的方法。即使您尝试使第一个模式“惰性”,Regex 引擎总是更喜欢 更大的 匹配而不是匹配额外的可选匹配。

    这是因为惰性匹配组将匹配满足表达式的第一个字符串(!重要的措辞!)

    可能有一个带有外观的选项,但您也可以使用 or 语句而不提供可选匹配项:

    firstName:(.*)-lastName:(.*)|firstName:(.*)
    

    这样,正则表达式引擎将匹配或匹配,但更喜欢具有 2 个匹配项的模式,因为它首先列出。只有当这不适用时,它才会尝试单一匹配。

    【讨论】:

    • 谢谢,效果很好! +1 用于 Debuggex 可视化工具和 or 语句解释。
    • 你为什么重复同一行两次?
    【解决方案2】:

    即使您已经接受了@dognose 的回答,我向您保证,名字中有破折号(您不想惹恼 Jean-Claude van Damme)。我建议你这样做:

        firstName:((?:(?!-lastName:).)*)(?:-lastName:(.*))?
    

    Debuggex Demo

    您可以从可视化中看到(?:(?!-lastName:).) 表示“如果当前位置后面没有'-lastName:',则捕获另一个字符” p>

    【讨论】:

      猜你喜欢
      • 2012-11-20
      • 1970-01-01
      • 1970-01-01
      • 2022-11-21
      • 2016-03-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-15
      相关资源
      最近更新 更多