【问题标题】:RegEx grab text between two specific strings正则表达式在两个特定字符串之间抓取文本
【发布时间】:2015-11-16 13:08:38
【问题描述】:

说我有电话

“敏捷的棕狐跳过懒狗”

我想抓取“brown”和“over”之间的所有内容,其中边界词也可能是其他词的子字符串。所以我想告诉 RegEx 类似

"从字符串brown 开始抓取这一行中的所有内容,直到找到字符串over"

原来如此

brown[^("over")]*

但结果是brown f,因为“fox”包含一个“o”,而“o”又包含在“over”中。

我只是找不到解决方案,所以希望您能提供帮助。

【问题讨论】:

  • 直到找到第一个或最后一个over"grab everything in this line beginning at the string brown until you brown find the string over" 呢? brown until you brown find the string overbrown find the string over。换行符呢?
  • @stribizhev,第一个“结束”。

标签: regex string match


【解决方案1】:

Alroght,真正匹配 2 个子字符串之间的 anything (其中尾随部分必须是最左边的匹配,即最接近前导子字符串)可以在展开的帮助下实现最佳 -涉及使用否定字符类的循环方法(有时,带有前瞻)。

这是一个适合您的情况:

\bbrown\b[^o]*(?:o(?!ver\b)[^o]*)*\bover\b

regex demo

请注意,基本上这个表达式与(?s)\bbrown\b.*?\bover\b 同义,其中.*? 匹配0 个或更多任何字符,但尽可能少地返回有效匹配。但是,由于它是线性,因此它涉及的回溯要少得多。

展开的惰性匹配在这里变成[^o]*(?:o(?!ver\b)[^o]*)*。否定字符类[^o] 匹配除o 之外的任何字符。因此,我们不必担心匹配换行符。

\b 单词边界仅有助于匹配整个单词。 如果您不需要全字匹配,只需从模式中删除所有 \b

这是我的正则表达式分解:

  • \bbrown\b - 与 brown 匹配
  • [^o]* - 除o 之外的 0 个或多个字符
  • (?:o(?!ver\b)[^o]*)* - 0 个或多个 o 序列,后面不跟 ver ((?!ver\b)),后面跟 0 个或多个 o ([^o]*) 以外的字符
  • \bover\b - 匹配整个单词 over

【讨论】:

  • 可能我应该提到,在我的情况下,brownover 也可能是其他单词的子字符串或被引号括起来,因此在这里使用单词边界会限制允许分析字符串的模式。
  • 是的,您可以直接删除它们,并且可以将它们作为其他词的一部分进行匹配。此正则表达式的速度有时比 .*? 快 100 倍(取决于输入字符串的长度)。此外,这种技术是通用的并且可移植到大多数其他平台。使用 .*?,您可能会遇到各种令人头疼的问题,因为单行模式不可用(在 JS 中)或回溯缓冲区限制很快耗尽(输入非常长)。
  • 上面的模式怎么比brown\b((?!over).*)\bover效率更高?
  • @hjpotter92: Your regex 在 58 步内找到匹配项。 My regex 分 23-25 步完成。您可以检查正则表达式调试器并查看回溯在这两种情况下的工作方式。点匹配总是比字符类匹配效率低。虽然这适用于 PCRE,但 .NET 正则表达式引擎将与这些模式类似地工作。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-06-16
  • 1970-01-01
  • 2019-11-25
  • 1970-01-01
相关资源
最近更新 更多