正则表达式 - 匹配相同模式的组答案

【问题标题】：Regex - groups matching same pattern正则表达式 - 匹配相同模式的组
【发布时间】：2013-11-25 02:10:23
【问题描述】：

我正在尝试使用 C# 匹配相同模式的正则表达式组。这是一个我无法开始工作的小例子。

我需要获取所有单引号之间的字符串（例如 CodigoEmpresa）

uses MainRecord, objErrorList, SysUtils, XMLMXMWebServiceReturn, objMainProcesso,
 objProcessoWS, objProcessaRelatorioQuickReport, QuickRpt, Forms,
 RBalanc, RBalancete, RBaCCMens, RBalaMensal, RBalaMensalCons,
 objcadcontabilidade, objContabilidadeValidacoes;

const
CODIGO_EMPRESA             = 'CodigoEmpresa';
ANO_MES                    = 'AnoMes';
RELATORIO_POR              = 'RelatorioPOR';
CONTA_INI                  = 'ContaIni';
CONTA_FIM                  = 'ContaFim';
GRAU_CONTA                 = 'GrauConta';
CCUSTOS_INI                = 'CCustosIni';
CCUSTOS_FIM                = 'CCustosFim';
GRAU_CCUSTOS               = 'GrauCCustos';
DETALHAR_CONSOLIDADO       = 'DetalharConsolidado';
DESCONSIDERAR_ENCERRAMENTO = 'DesconsiderarEncerramento';
QUEBRA_CCUSTO              = 'QuebraCCusto';
CONTAS_SEM_MOVIMENTO       = 'ContasSemMovimento';
CODIGO_ALTERNATIVO         = 'CodigoAlternativo';

const

ERROR_BALANCETE_MENSAL_0001 = 'BALANC0001';
ERROR_BALANCETE_MENSAL_0002 = 'BALANC0002'; //Empresa Inexistente
ERROR_BALANCETE_MENSAL_0003 = 'BALANC0003';
ERROR_BALANCETE_MENSAL_0004 = 'BALANC0004';
ERROR_BALANCETE_MENSAL_0005 = 'BALANC0005';
ERROR_BALANCETE_MENSAL_0006 = 'BALANC0006';
ERROR_BALANCETE_MENSAL_0007 = 'BALANC0007';
ERROR_BALANCETE_MENSAL_0008 = 'BALANC0008';

到目前为止我已经尝试过了：

Match match = Regex.Match(delphiFileInText, @"const.+=\s*'(?<property>[\d\w]+)'", RegexOptions.IgnoreCase | RegexOptions.Singleline);

但我得到的只是最后一场比赛（BLANC0008）；

我希望我能说清楚。感谢您的帮助

【问题讨论】：

你需要更清楚你希望匹配什么模式，以及你需要什么捕获。
这没有多大意义
显示您的代码，更具体地说明您想要什么、尝试过什么、出了什么问题等。
你需要第一个 .+ 是非贪婪的。我想使用CONST.+?(EST)ING+ 或CONST(.+(EST)ING+)?。
我也怀疑你是否试图匹配 1-many Gs 最后。这就是 G+ 正在做的事情，允许 TESTINGGGGGGG。虽然自从它的G+？（不贪心），并且在模式的末尾，无论如何它都等同于 G。

标签： c# regex regex-group

【解决方案1】：

只需将您的表达式替换为

'(?<property>[\d\w]+)'

将获得所有这些。

【讨论】：

【解决方案2】：

我建议使用以下正则表达式：

'(?<property>(?:\\'|[^'])*)'

这将捕获输入中所有单引号分隔的字符串。如果您还想捕获常量，我建议使用以下正则表达式：

(?<const>\w+)\s*=\s*'(?<property>(?:\\'|[^'])*)'

【讨论】：

我稍微改了一下。最终版本是：[A-Z_]*\s*=\s*'(?(?:\\'|[^'])*)'。这样我可以根据大写常量获取字符串。您的回答很完美，我刚刚根据我的具体情况对其进行了调整。谢谢大家。

【解决方案3】：

似乎为了做你想做的事，你真的不需要正则表达式，而是可以逐个字符地浏览文件并以这种方式解析它。这比试图找出正则表达式要容易得多，而且它不会是“只读的”（这意味着当你稍后回到代码时，你会确切地知道该怎么做。这是我烘焙的一个类为此（我尚未对其进行全面测试，但确实对示例字符串进行了快速测试，它的工作原理与那里的广告一样）：

public class Parser
{
    bool inQuotes;
    public Parser()
    {
        inQuotes = false;
    }

    public List<string> Parse(string input)
    {
        List<string> output = new List<string>();
        StringBuilder temporaryString = new StringBuilder();
        for (int i = 0; i < input.Length; i++)
        {
            if (input[i] == '\'' && !inQuotes)
            {
                inQuotes = true;
                continue;
            }
            else if (input[i] == '\'' && inQuotes)
            {
                output.Add(temporaryString.ToString());
                inQuotes = false;
                temporaryString = new StringBuilder();
            }
            else if (inQuotes)
            {
                temporaryString.Append(input[i]);
            }
        }
        return output;
    }
}

此代码将逐个字符地遍历，当它遇到一个单引号时，它将开始“保存”字符串，直到它遇到另一个单引号。它将忽略所有其他字符，只关注单引号内的字符。最重要的是，您可以对其进行调整以允许嵌套引号相当容易。

【讨论】：

“正则表达式很难”是一个糟糕的借口。它们是一个强大的工具，背后有大量的时间和专业知识。它们通常针对他们正在做的事情进行了高度优化，并且可以像任何其他实现一样以可维护和不可维护的方式编写。它们只是有限状态机——有点像你在这里的答案，可以正则表达式为'[^']*'，以备记录。这似乎比你写的更容易维护。