【问题标题】:How can I transform this Backus–Naur Form expression into a Regex (.Net)?如何将此 Backus–Naur 形式表达式转换为正则表达式 (.Net)?
【发布时间】:2025-11-24 09:30:01
【问题描述】:

表达式为:

N | ( 1 { A | B | C | D | E1 | E2 | E3 } )

表示描述符“N”或列出的描述符中的一个或多个,不重复。

我得到的最好的是:

@"^(N|(A|B|C|D|E1|E2|E3){1,})$"

但这并不能防止重复。

@"^(N|(A{0,1}B{0,1}...)$" 

这可以防止重复,但随后需要元素的特定顺序,这也不是很好。

有什么想法吗?

(我实际上不确定 bnf 表达式本身是否不允许重复,但这正是我所需要的。)

【问题讨论】:

  • kore-nordmann.de/blog/do_NOT_parse_using_regexp.html 使用正则表达式来识别单词,而不是结构。
  • 我想这是有道理的。但是我会用什么来识别这个结构呢? @DavidBrabant 它将用于验证上述表单的输入。
  • 或者PCRE是你建议的方法?
  • 根据你的“A”,“B”的复杂性......我想我会写一个下降解析器。
  • 其实一点也不复杂。 (对不起,如果我的问题表述得很糟糕)。允许用户输入例如“N”、“A”、“B”或“AB”,但不能输入“AA”或“BB”。字母本身就是这样。因此,问题是验证该输入。我写的两个正则表达式确实部分验证了这些情况,认为不完全如问题中所述。

标签: .net regex bnf


【解决方案1】:

嗯,你可以,但它不漂亮:

Regex regexObj = new Regex(
    @"^           # Start of string
    (?:           # Either match...
     N            # N
    |             # or...
     (?:          # Match one of the following:
      A(?!.*A)    # A unless followed somewhere later by another A
     |            # or
      B(?!.*B)    # B unless...
     |            # etc. etc.
      C(?!.*C)
     |
      D(?!.*D)
     |
      E1(?!.*E1)
     |
      E2(?!.*E2)
     |
      E3(?!.*E3)
     )+           # one or more times
    )             # End of alternation
    $             # End of string", 
    RegexOptions.IgnorePatternWhitespace);

此解决方案使用negative lookahead assertions

【讨论】:

  • 只是一个问题@Tim。 '?:' 有什么功能?如果没有这两个,它似乎也能正常工作。
  • @Daniel:唯一的区别是(...) 是一个捕获组,这意味着正则表达式引擎将该组内匹配的任何内容存储在一个反向引用中,然后您可以稍后参考。如果您不需要这样做,(?:...) 的工作原理相同,但不存储匹配的那部分。因此,它们的效率更高。
【解决方案2】:

我不确定即使是 .net Regex(比“常规语言”的最严格定义更强大)也能做到这一点;无论如何,除非您要求只使用Regex,否则(在我看来)没有任何问题:

bool IsValid(string input)
{
    var Ns = input.Count(c => c == 'N');
    var As = input.Count(c => c == 'A');
    // etc
    var E1s = Regex.Matches(input, "E1").Count
    // etc

    var maxDescriptorCount = (new[] { As, ... ,E1s, ... }).Max();

    var isValid = 
        ((Ns == 1) && (maxDescriptorCount == 0))
        ||
        ((Ns == 0) && (maxDescriptorCount == 1))
        ;

    return isValid;
}

是解决问题的最短代码吗?不,它可读和可维护吗?我想是的。

(如果你愿意,你可以写一个带有签名int MaxN(params int[] numbers)的实用方法)

【讨论】:

    最近更新 更多