【问题标题】:Does the crawl frequency of GoogleBot and MSNBot increase with better response time?GoogleBot 和 MSNBot 的抓取频率是否会随着响应时间的延长而增加?
【发布时间】:2013-10-26 00:44:18
【问题描述】:

我们在 AWS EC2 实例上设置了网络输入/输出警报。当实例热运行时(响应时间较慢 - CPU 徘徊在 85% 左右),我注意到我们的网络输入/输出低于 2.0E7 字节。

当我们升级和转移东西并将我们的 CPU 降低到 30% 左右时,我们现在似乎更频繁地被抓取。

每当我们修改实例类型时,我都会注意到一些明显的短期峰值。我怀疑爬虫会做这样的事情,检测响应时间,从而决定它们的爬取频率。

我确实意识到我可以在 robots.txt 中设置抓取速度 - 但我没有在其中设置任何限制。

当然可能还涉及其他因素,但我想知道这是否有意义?

【问题讨论】:

    标签: robots.txt google-crawlers


    【解决方案1】:

    Google 的文档没有具体说明他们会检查您的响应时间,但我使用 Googlebot 和其他抓取工具的经验表明,它确实会影响您网站的响应时间。我知道我的爬虫做到了。我的抓取速度基于我正在抓取的网站的响应时间。

    【讨论】:

    • 是的,这是有道理的。例如,如果您正在非法抓取网站,您不希望被检测到,更不用说由于请求过多而导致网站停止运行,我相信 Googlebot 会这样做。
    猜你喜欢
    • 2020-05-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-01-24
    • 2018-02-19
    • 1970-01-01
    • 2018-07-28
    • 2016-12-22
    相关资源
    最近更新 更多