【问题标题】:Facebook User Agent Crawler "Facebot/1.0" [closed]Facebook 用户代理爬虫“Facebot/1.0”[关闭]
【发布时间】:2014-09-14 22:26:10
【问题描述】:

今天我们的服务器受到来自 Facebook IPS 的大量请求的攻击,范围为 66.220.159.XXX

用户代理给出的是:“Facebot/1.0”

我在 facebook 网站上找不到任何相关信息,它似乎不是常规的 facebook 用户代理,即“facebookexternalhit”或“facebookplatform”。

我正在尝试查找有关此机器人的更多信息,它会遵守任何类型的抓取延迟指令吗?

【问题讨论】:

    标签: facebook user-agent bots robots.txt web-crawler


    【解决方案1】:

    Facebook 的 documentation 包含有关爬虫的部分:

    截至 2014 年 5 月 28 日,您可能还会看到一个带有以下用户代理字符串的爬虫:

    Facebot
    

    Facebot 是 Facebook 的网络抓取机器人,有助于提高广告效果。 Facebot 旨在礼貌。根据行业标准,它每隔几秒钟尝试访问每个网络服务器不超过一次,并且会尊重您的 robots.txt 设置。

    正如文档所说,它将尊重 robots.txt 设置。您可以尝试(非标准)Crawl-delay 指令,看看 Facebot 是否尊重这一点。

    User-agent: Facebot/1.0
    Crawl-delay: 10 # seconds
    

    【讨论】:

    • 谢谢,不知道你是怎么发现我试过 'site:facebook.com "facebot"' 无济于事的,如果你在开发者门户中搜索 'facebot',结果都是垃圾:(
    • @araresight:TBH,我刚刚搜索了“Facebot”并找到了this forum thread... 与相关 Facebook 文档相关的答案之一。
    • 哈哈谢谢马特。我检查了该线程,但我的阅读能力显然低于标准
    • 也很高兴看到这个帖子在 17 分钟后就已经在谷歌中排名第六。
    • @araresight:在这种情况下,如果您能反馈一下您在Crawl-delay 上是否取得了成功,那就太好了,以帮助未来的 Google 员工!
    猜你喜欢
    • 1970-01-01
    • 2011-05-15
    • 1970-01-01
    • 2011-07-07
    • 1970-01-01
    • 1970-01-01
    • 2012-02-09
    • 2023-04-01
    • 1970-01-01
    相关资源
    最近更新 更多