【发布时间】:2016-01-02 17:22:13
【问题描述】:
我正在尝试创建一个供爬虫访问的 URL 白名单(换句话说,我想要一个爬虫访问的 URL 列表,并且我希望爬虫只访问这些文件)。
我有一个站点地图,其中包含白名单上的所有 URL。
我应该如何格式化 robots.txt?
这行得通吗?
User-agent: *
Disallow: /
Sitemap: sitemap.txt
或者我必须这样做吗?
User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt
【问题讨论】:
标签: web-crawler sitemap robots.txt whitelist