如何使用 robots.txt 中的站点地图创建 URL 白名单？答案

【问题标题】：How to create a whitelist of URLs using a sitemap in robots.txt?如何使用 robots.txt 中的站点地图创建 URL 白名单？
【发布时间】：2016-01-02 17:22:13
【问题描述】：

我正在尝试创建一个供爬虫访问的 URL 白名单（换句话说，我想要一个爬虫访问的 URL 列表，并且我希望爬虫只访问这些文件）。

我有一个站点地图，其中包含白名单上的所有 URL。

我应该如何格式化 robots.txt？

这行得通吗？

User-agent: *
Disallow: /
Sitemap: sitemap.txt

或者我必须这样做吗？

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt

【问题讨论】：

标签： web-crawler sitemap robots.txt whitelist

【解决方案1】：

Sitemap 和 robots.txt 没有直接关联。它们是不同的技术。 robots.txt 文件仅用于指向站点地图文件。就是这样。

所以第一个示例不会给您想要的结果，因为每个页面的抓取都设置为不允许。第二个示例是正确的，您必须将域添加到站点地图 url

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt

【讨论】：

【解决方案2】：

某些专业爬虫具有“忽略 robots.txt”选项，例如 Slickplan。所以不需要格式化'robots.txt'文件。

【讨论】：

每个人都应该知道 robots.txt 的用途。事实上，一些爬虫没有按照这个行事，并不意味着你应该停止遵循 robots.txt 规范