Facebook 用户代理爬虫“Facebot/1.0”[关闭]答案

【问题标题】：Facebook User Agent Crawler "Facebot/1.0" [closed]Facebook 用户代理爬虫“Facebot/1.0”[关闭]
【发布时间】：2014-09-14 22:26:10
【问题描述】：

今天我们的服务器受到来自 Facebook IPS 的大量请求的攻击，范围为 66.220.159.XXX

用户代理给出的是：“Facebot/1.0”

我在 facebook 网站上找不到任何相关信息，它似乎不是常规的 facebook 用户代理，即“facebookexternalhit”或“facebookplatform”。

我正在尝试查找有关此机器人的更多信息，它会遵守任何类型的抓取延迟指令吗？

【问题讨论】：

标签： facebook user-agent bots robots.txt web-crawler

【解决方案1】：

Facebook 的 documentation 包含有关爬虫的部分：

截至 2014 年 5 月 28 日，您可能还会看到一个带有以下用户代理字符串的爬虫：
Facebot
Facebot 是 Facebook 的网络抓取机器人，有助于提高广告效果。 Facebot 旨在礼貌。根据行业标准，它每隔几秒钟尝试访问每个网络服务器不超过一次，并且会尊重您的 robots.txt 设置。

正如文档所说，它将尊重 robots.txt 设置。您可以尝试（非标准）Crawl-delay 指令，看看 Facebot 是否尊重这一点。

User-agent: Facebot/1.0
Crawl-delay: 10 # seconds

【讨论】：

谢谢，不知道你是怎么发现我试过 'site:facebook.com "facebot"' 无济于事的，如果你在开发者门户中搜索 'facebot'，结果都是垃圾:(
@araresight：TBH，我刚刚搜索了“Facebot”并找到了this forum thread... 与相关 Facebook 文档相关的答案之一。
哈哈谢谢马特。我检查了该线程，但我的阅读能力显然低于标准
也很高兴看到这个帖子在 17 分钟后就已经在谷歌中排名第六。
@araresight：在这种情况下，如果您能反馈一下您在Crawl-delay 上是否取得了成功，那就太好了，以帮助未来的 Google 员工！