【发布时间】:2017-03-07 14:53:06
【问题描述】:
我正在使用在线工具来抓取我客户的网站并提供其上存在的页面/网址列表。
有一个排除页面的选项,它给出了\?.*page=.*$的正则表达式示例
我想忽略新闻部分中的所有内容(除了新闻页面本身)
那么我会选择以下内容吗?
\?.*news/.*$
【问题讨论】:
标签: regex url web-crawler sitemap
我正在使用在线工具来抓取我客户的网站并提供其上存在的页面/网址列表。
有一个排除页面的选项,它给出了\?.*page=.*$的正则表达式示例
我想忽略新闻部分中的所有内容(除了新闻页面本身)
那么我会选择以下内容吗?
\?.*news/.*$
【问题讨论】:
标签: regex url web-crawler sitemap
如果我理解正确,您正在寻找匹配 news/foo 或 news/foo/bar,但不匹配 news/ 的正则表达式。
你可以使用这个正则表达式:.*news/.+
.* 字符串以 0 个或多个字符开头
news/ 字符串包括新闻/
.+ 字符串以 1 个或多个字符结尾
【讨论】: