用于排除 URL 中的子字符串的正则表达式答案

【问题标题】：RegEx for excluding substrings in URLs用于排除 URL 中的子字符串的正则表达式
【发布时间】：2019-05-21 13:40:41
【问题描述】：

我正在为我们公司的子域设置 Hotjar 录音。但是我在排除此子域的子字符串时遇到问题，因为子域不是固定字符串。

基本上，子域是一个类别页面。我们总共有大约 34 个不同的类别，我希望记录所有这些类别，因为它们基本上是相同的页面，只是在某些副本中有所更改。

示例类别网址：

https://se.readly.com/products/magazines/se/celebrities_entertainment
https://se.readly.com/products/magazines/se/dagstidningar

分类页面的子字符串url示例：

https://se.readly.com/products/magazines/se/dagstidningar/kvaellsposten-1
https://se.readly.com/products/magazines/se/wedding/sisters-in-law-ett-nytt-slags-broellopsmagasin
https://se.readly.com/products/magazines/se/wedding/allt-om-broellop

我尝试过但没有成功的代码示例（显然）：

\bse.readly.com/products/magazines/se/[a-z-_]+$

【问题讨论】：

您想要第一个固定部分 (se.readly.com/products/magazines/se) 还是最后一个未固定部分 (dagstidningar/kvaellsposten-1)？
你的意思是像^https?://\bse\.readly\.com/products/magazines/se/([a-z_-]+)regex101.com/r/QhHzhI/1

标签： regex regex-lookarounds regex-group regex-greedy

【解决方案1】：

在这里，我们可以逐步匹配所需的 URL。如果需要，我们可能希望使用捕获组来轻松获取 URL 组件。让我们从类似于以下内容开始：

^(.+?)(se.readly.com)(\/products\/magazines\/se\/)([a-z0-9-_]+)(\/[a-z0-9-_]+)$

如果我们愿意，我们可以减少我们拥有的界限。

DEMO

【讨论】：