【问题标题】:Regular expression to exclude URLs from web crawler从网络爬虫中排除 URL 的正则表达式
【发布时间】:2017-03-07 14:53:06
【问题描述】:

我正在使用在线工具来抓取我客户的网站并提供其上存在的页面/网址列表。

有一个排除页面的选项,它给出了\?.*page=.*$的正则表达式示例

我想忽略新闻部分中的所有内容(除了新闻页面本身)

那么我会选择以下内容吗?

\?.*news/.*$

【问题讨论】:

    标签: regex url web-crawler sitemap


    【解决方案1】:

    如果我理解正确,您正在寻找匹配 news/foonews/foo/bar,但不匹配 news/ 的正则表达式。

    你可以使用这个正则表达式:.*news/.+

    .* 字符串以 0 个或多个字符开头

    news/ 字符串包括新闻/

    .+ 字符串以 1 个或多个字符结尾

    http://regexr.com/3ffj1

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2019-03-23
      • 2012-02-29
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-12
      • 1970-01-01
      相关资源
      最近更新 更多