从网络爬虫中排除 URL 的正则表达式

【问题标题】：Regular expression to exclude URLs from web crawler从网络爬虫中排除 URL 的正则表达式
【发布时间】：2017-03-07 14:53:06
【问题描述】：

我正在使用在线工具来抓取我客户的网站并提供其上存在的页面/网址列表。

有一个排除页面的选项，它给出了\?.*page=.*$的正则表达式示例

我想忽略新闻部分中的所有内容（除了新闻页面本身）

那么我会选择以下内容吗？

\?.*news/.*$

【问题讨论】：

【解决方案1】：

如果我理解正确，您正在寻找匹配 news/foo 或 news/foo/bar，但不匹配 news/ 的正则表达式。

你可以使用这个正则表达式：.*news/.+

.* 字符串以 0 个或多个字符开头

news/ 字符串包括新闻/

.+ 字符串以 1 个或多个字符结尾

【讨论】：