【问题标题】:RegEx for excluding substrings in URLs用于排除 URL 中的子字符串的正则表达式
【发布时间】:2019-05-21 13:40:41
【问题描述】:

我正在为我们公司的子域设置 Hotjar 录音。但是我在排除此子域的子字符串时遇到问题,因为子域不是固定字符串。

基本上,子域是一个类别页面。我们总共有大约 34 个不同的类别,我希望记录所有这些类别,因为它们基本上是相同的页面,只是在某些副本中有所更改。

示例类别网址:

https://se.readly.com/products/magazines/se/celebrities_entertainment
https://se.readly.com/products/magazines/se/dagstidningar

分类页面的子字符串url示例:

https://se.readly.com/products/magazines/se/dagstidningar/kvaellsposten-1
https://se.readly.com/products/magazines/se/wedding/sisters-in-law-ett-nytt-slags-broellopsmagasin
https://se.readly.com/products/magazines/se/wedding/allt-om-broellop

我尝试过但没有成功的代码示例(显然):

\bse.readly.com/products/magazines/se/[a-z-_]+$

【问题讨论】:

标签: regex regex-lookarounds regex-group regex-greedy


【解决方案1】:

在这里,我们可以逐步匹配所需的 URL。如果需要,我们可能希望使用捕获组来轻松获取 URL 组件。让我们从类似于以下内容开始:

^(.+?)(se.readly.com)(\/products\/magazines\/se\/)([a-z0-9-_]+)(\/[a-z0-9-_]+)$

如果我们愿意,我们可以减少我们拥有的界限。

DEMO

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-12-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-04-13
    相关资源
    最近更新 更多