Java 正则表达式捕获组答案

【问题标题】：Java Regex Capturing GroupsJava 正则表达式捕获组
【发布时间】：2013-07-31 22:08:51
【问题描述】：

我正在尝试理解这个代码块。在第一个中，我们在表达式中寻找什么？

我的理解是任何字符（0次或多次*）后跟0到9之间的任何数字（一次或多次+）后跟任何字符（0次或多次*）。

执行时结果为：

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

有人可以和我一起经历这个吗？

使用捕获组有什么好处？

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTut3 {

    public static void main(String args[]) {
        String line = "This order was placed for QT3000! OK?"; 
        String pattern = "(.*)(\\d+)(.*)";

        // Create a Pattern object
        Pattern r = Pattern.compile(pattern);

        // Now create matcher object.
        Matcher m = r.matcher(line);

        if (m.find()) {
            System.out.println("Found value: " + m.group(0));
            System.out.println("Found value: " + m.group(1));
            System.out.println("Found value: " + m.group(2));
        } else {
            System.out.println("NO MATCH");
        }
    }

}

【问题讨论】：

要插入新行，请在行尾放置 2 个空格。有关降价语法的更多信息：en.wikipedia.org/wiki/Markdown - 另请参阅：stackoverflow.com/editing-help

标签： java regex

【解决方案1】：

您遇到的问题是量词的类型。您在第一组中使用了 greedy 量词（索引 1 - 索引 0 代表整个 Pattern），这意味着它将尽可能匹配（并且由于它是 any 字符，因此它将匹配 尽可能多的字符，以便满足下一组的条件）。

简而言之，您的第一组 .* 匹配任何内容，只要下一组 \\d+ 可以匹配某些内容（在本例中为最后一个数字）。

根据第 3 组，它将匹配最后一位数字之后的任何内容。

如果您将其更改为第一组中的 不情愿 量词，您将得到我想您所期望的结果，即 3000 部分。

注意第一组中的问号。

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
    System.out.println("group 1: " + matcher.group(1));
    System.out.println("group 2: " + matcher.group(2));
    System.out.println("group 3: " + matcher.group(3));
}

输出：

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?

有关 Java Pattern here 的更多信息。

最后，捕获组由圆括号分隔，一旦您的Pattern 与输入匹配，它就提供了一种非常有用的方式来使用反向引用（除其他外）。

在 Java 6 中，组只能通过它们的顺序来引用（注意嵌套组和顺序的微妙之处）。

在 Java 7 中这要容易得多，因为您可以使用命名组。

【讨论】：

谢谢！原因组 2 存储 0 是因为整行都被贪婪的量词消耗，然后后退直到它与一个或多个数字接触。 0 满足了这个，所以表达式成功了。我发现第三组令人困惑，那个贪婪的量词是否也消耗了整行，但在找到应该在它之前的一个或多个数字 (\\d+) 之前退后？
@Xivlai 让我在回答中微调我的解释，只需几秒钟。
这是一个很好的解释。因此，不情愿的人从左边开始，只取最小值，而贪婪的人则尽可能多地（从右边开始），只在最后一个数字之前停止以满足该条件。第三组负责其余部分。
您可以在 Java 5/6 中通过 named-regexp 使用命名捕获组。
@Weekend 在这种情况下，它是等效的，因为循环只会在该字符串示例中运行一次。我想我当时使用了while 循环，因为它是可能在输入中重复的模式的常见用法，并且在这些情况下使用if 而不是while 是一个常见错误。 TL;DR if 在您确定模式不会重复/您只需要第一次出现/while 涵盖所有情况时可以安全使用。

【解决方案2】：

这完全没问题。

第一组 (m.group(0)) 始终捕获正则表达式覆盖的整个区域。在这种情况下，它是整个字符串。
正则表达式默认是贪婪的，这意味着第一组在不违反正则表达式的情况下尽可能多地捕获。 (.*)(\\d+)（正则表达式的第一部分）涵盖了第一组的 ...QT300 和第二组的 0。
您可以通过使第一组不贪婪来快速解决此问题：将 (.*) 更改为 (.*?)。

有关贪婪与懒惰的更多信息，请查看this site.

【讨论】：

【解决方案3】：

你的理解是正确的。但是，如果我们走过：

(.*) 会吞下整个字符串；
它需要返回字符以便满足(\\d+)（这就是为什么捕获0，而不是3000）；
最后一个 (.*) 将捕获其余部分。

但是，我不确定作者的初衷是什么。

【讨论】：

【解决方案4】：

来自文档：

Capturing groups</a> are indexed from left
 * to right, starting at one.  Group zero denotes the entire pattern, so
 * the expression m.group(0) is equivalent to m.group().

所以捕获组 0 发送整行。

【讨论】：