正则表达式获取所有匹配项，包括较小的子匹配项答案

【问题标题】：Regex get all matches including smaller submatches正则表达式获取所有匹配项，包括较小的子匹配项
【发布时间】：2014-07-15 05:42:24
【问题描述】：

我有以下输入字符串

Testing <B><I>bold italic</I></B> text.

以及以下正则表达式：

<([A-Z][A-Z0-9]*)\b[^>]*>.*</\1>

这个正则表达式只给出以下更大的匹配

<B><I>bold italic</I></B>

如何使用正则表达式来获得较小的匹配？

<I>bold italic</I>

我尝试使用非贪心运算符，但也没有用。

是否可以使用 java 或 c# 匹配组或匹配集合作为匹配组？

【问题讨论】：

【解决方案1】：

试试下面的正则表达式，它使用正向回溯，

(?<=>)<([A-Z][A-Z0-9]*)\b[^>]*>.*<\/\1>

它会查找紧跟在> 符号之后的标签。

说明：

【讨论】：

是否可以使用单个正则表达式遍历两个匹配项？使用任何编程语言。
是的。大多数编程语言都支持lookbehind。在 java 中，您需要再次转义反斜杠，因为该模式被双引号而不是正斜杠包围。
我试图在 c# 中获取所有匹配项，但它只返回了较小的匹配项。是否可以一一获得两场比赛？如果你能告诉我java/C#代码，那就太好了。
在此链接regex101.com/r/wI6fK3/3 中发布输入并保存正则表达式。然后在这里发回链接。之后，解释你想在那个输入上匹配什么。然后我会给你看c#代码。

【解决方案2】：

您可能知道，许多人更喜欢使用 DOM 解析器来解析 html。但看看你现有的正则表达式，要修复它，我建议这样做：

<([A-Z][A-Z0-9]*)\b[^<>]*>[^<]*</\1>

说明

【讨论】：