【问题标题】:Google Crawler Time Restriction谷歌爬虫时间限制
【发布时间】:2010-07-07 20:54:47
【问题描述】:

有谁知道可以设置任何属性来通知 googlebot 在特定的日期或时间段(例如,仅在周末)来抓取网站?

谢谢,

【问题讨论】:

    标签: restriction googlebot


    【解决方案1】:

    您可以使用 XML sitemap 来提示适当的抓取频率,但这只是一个提示,无法请求特定日期。

    【讨论】:

      【解决方案2】:

      您可以建议 googlebots 您更喜欢较慢的抓取速度(如果您的网站的抓取速度高于最低速度),但这会在 90 天内生效(请参阅http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=48620)。

      更改 robots.txt 可能会出现问题,因为它由 Google 缓存,因此禁止抓取可能会导致网站被抓取的时间比预期的要长。

      Google 有不止一种漫游器类型,因此您可以选择网站的哪些部分适合每个漫游器抓取,按照预期使用 robots.txt。见http://www.google.com/support/webmasters/bin/answer.py?answer=40360

      【讨论】:

        【解决方案3】:

        不这么认为,但 googlebot 确实会经常重新读取您的 robots.txt,所以我想知道如果您在这些时候换成替代的 robots.txt 是否会起作用,例如有脚本吗?

        【讨论】:

        • 这里的交换方式,你是指打开和关闭googlebot取决于天?
        • 是的 - 比如说,你有一个脚本在周五晚上运行,它切换到 robots.txt,上面写着“好的,扫描我”,然后在周日晚上另一个脚本将它换成限制性机器人。 txt,上面写着“走开”。它可能并不完美,即在 googlebot 接受更改之前可能会有一些滞后时间,但我预计不会太久。
        • 对此我会非常小心 - 机器人可能会将“禁止”解释为从索引中完全删除该网站的命令。
        • 非常好的点迈克尔,我认为你是对的。 -1 我的回答:)
        猜你喜欢
        • 1970-01-01
        • 2017-02-25
        • 2013-10-15
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2021-09-13
        • 1970-01-01
        • 2013-02-12
        相关资源
        最近更新 更多