【问题标题】:How to create a whitelist of URLs using a sitemap in robots.txt?如何使用 robots.txt 中的站点地图创建 URL 白名单?
【发布时间】:2016-01-02 17:22:13
【问题描述】:

我正在尝试创建一个供爬虫访问的 URL 白名单(换句话说,我想要一个爬虫访问的 URL 列表,并且我希望爬虫只访问这些文件)。

我有一个站点地图,其中包含白名单上的所有 URL。

我应该如何格式化 robots.txt?

这行得通吗?

User-agent: *
Disallow: /
Sitemap: sitemap.txt

或者我必须这样做吗?

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt

【问题讨论】:

    标签: web-crawler sitemap robots.txt whitelist


    【解决方案1】:

    Sitemap 和 robots.txt 没有直接关联。它们是不同的技术。 robots.txt 文件仅用于指向站点地图文件。就是这样。

    所以第一个示例不会给您想要的结果,因为每个页面的抓取都设置为不允许。第二个示例是正确的,您必须将域添加到站点地图 url

    User-agent: *
    Disallow: /
    Allow: whitelist/*
    Sitemap: http://www.example.com/sitemap.txt
    

    【讨论】:

      【解决方案2】:

      某些专业爬虫具有“忽略 robots.txt”选项,例如 Slickplan。所以不需要格式化'robots.txt'文件。

      【讨论】:

      • 每个人都应该知道 robots.txt 的用途。事实上,一些爬虫没有按照这个行事,并不意味着你应该停止遵循 robots.txt 规范
      猜你喜欢
      • 1970-01-01
      • 2011-01-15
      • 1970-01-01
      • 1970-01-01
      • 2012-04-07
      • 1970-01-01
      • 1970-01-01
      • 2013-12-20
      • 1970-01-01
      相关资源
      最近更新 更多