【问题标题】:Negative look ahead with regex? Eagerly only matches first angled bracket of fragment正则表达式的负面展望?急切地只匹配片段的第一个尖括号
【发布时间】:2019-04-03 15:42:34
【问题描述】:

我正在尝试修改我工作的正则表达式(我正在使用 Python 3.6)来处理我的测试数据。例如,您可以看到

str = "@@@@July 2nd 2018 Idustry。自 1500 年代以来,Lorem Ipsum 一直是行业的标准虚拟文本,当时一位未知的打印机采用了一种类型的厨房并将其打乱到制作类型样本书。它不仅存在了五个世纪,而且还跨越了电子@@@@@@@c 排版,>基本上保持不变。它在 1960 年代随着包含 Lorem Ipsum 段落的 Letraset 表的发布而普及,以及最近使用 Aldus PageMaker 等桌面出版软件,包括 Lorem Ipsum 的版本 > @@@@August 1st 2019dustry。自 1500 年代以来,Lorem Ipsum 一直是行业的标准虚拟文本,当时不知名的印刷商拿了一个打字机,并把它炒作了一个打字样本书。它不仅存活了五个世纪,而且还跨越了电子排版,> 基本保持不变。它在 1960 年代随着 Letraset she 的发布而普及$$$$$$$ets 包含 Lorem Ipsum 段落和 m ore rece#####ntly 与 Aldus PageMaker 等桌面出版软件(包括 Lorem Ipsum 版本)August 2nd 2019cently 与 Aldus PageMaker 等桌面出版软件(包括 Lorem Ipsum 版本)> @ @@@2019 年 8 月 1 日 行业。自 1500 年代以来,Lorem Ipsum 一直是行业的标准虚拟文本,当时一位不知名的印刷商使用了一种类型的厨房并争先恐后地#######d 它制作了一本类型样本书。它不仅经历了五个世纪,而且经历了电子排版的飞跃,> 基本保持不变。它在 1960 年代随着包含 Lorem Ipsum 段落的 Letraset 工作表的发布而流行起来,最近还随着 Aldus PageMaker 等桌面出版软件(包括 Lorem Ipsum 的版本>"

您可以看到有一堆由尖括号分隔的片段,在这种情况下,我感兴趣的每个片段都以一个易于识别的字符串开头 @@@ 一些日期和片段以尖括号结尾,所以就像 如下

@@@@2018 年 7 月 2 日 工业。自 1500 年代以来,Lorem Ipsum 一直是行业的标准虚拟文本,当时一位不知名的印刷商采用了一种类型的厨房并将其加扰以制作类型样本书。它不仅经历了五个世纪,而且经历了电子排版的飞跃,> 基本保持不变。它在 1960 年代随着包含 Lorem Ipsum 段落的 Letraset 表的发布而得到普及,最近还随着 Aldus PageMaker 等桌面出版软件(包括 Lorem Ipsum 版本)的发布>

问题有时是日期后面的文本包含一个尖括号,并且由于正则表达式是急切的,因此只会部分匹配。有没有办法防止这种情况?我无法成功地使用负面展望。

我已经尝试了以下方法:

r"<[(?!<@date) >| (?!<@date) < | ^>]+>

换句话说,匹配任何不跟在 ,如果它们出现在文本中,也匹配任何其他字符。

 pattern = re.compile(r"<[^>]+>")
 return pattern.findall(str)

实际结果是它仅部分匹配,因为正则表达式仅与文本中的第一个 > 或 之后的部分,直到实际的右尖括号和下一个片段的开始(除非它是最后一个片段,否则后面可能没有任何内容)。

【问题讨论】:

    标签: python regex


    【解决方案1】:

    您可以匹配一个左括号,后跟 1 次以上的 @,然后使用非贪婪匹配 .*?,直到遇到下一个 &lt;@ 或字符串结尾:

    <\s*@+.*?(?=<@|$)
    

    Regex demo | Python demo

    您的代码可能如下所示:

    pattern = re.compile(r"<\s*@+.*?(?=<@|$)", re.MULTILINE)
    return pattern.findall(str)
    

    我认为您的意思的另一种方法是使用tempered greedy token

    <\s*@+(?:(?!<@+).)*>
    

    Regex demo | Python demo

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-04-05
      • 2015-04-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-08-03
      • 1970-01-01
      相关资源
      最近更新 更多