【问题标题】:https://developers.google.com/+/web/snippet/ Is this a crawler bothttps://developers.google.com/+/web/snippet/ 这是一个爬虫机器人吗
【发布时间】:2020-11-03 14:03:10
【问题描述】:

当我们向用户发送 SMS 时,我看到来自这个 Bot 的大量流量。我正在尝试获取有关此机器人的更多详细信息。任何描述它的作用,它的重要性以及我们可以阻止它的指针将不胜感激。 完整的用户代理是

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36 Google (+https://developers.google.com/+/web/sn-p/ )

【问题讨论】:

    标签: bots googlebot


    【解决方案1】:

    您可以在您的 nginx 配置中阻止 google bot。在 server{} 部分内,添加以下内容:

    if ($http_user_agent ~* "developers\.google\.com/\+/web/snippet") {
        return 403;
    }
    

    【讨论】:

    • 知道这个机器人是否重要吗?
    • 我认为它们用于在 google 上索引搜索,但我不确定。我不得不阻止它,因为它使我的服务器超载。
    【解决方案2】:

    Android 上的 Google 短信应用在抓取共享 URL 以在聊天中生成预览时使用此用户代理。这通常是一件好事,因为您的客户将看到预览图像和页面标题,而不仅仅是一个链接。所以我不建议屏蔽它。

    【讨论】:

    • 当我们运行 SMS 活动时,会暂时导致服务器流量显着增加。出于某种原因,这也绕过了 CDN 缓存,可能是因为用户代理。有什么想法,如何处理?
    • 可能有点晚了,但可能会从不同的 Googel 服务器获得大量流量。这样很多服务器都在访问不同的 CDN 边缘节点,所以命中率很差。至于处理它,也许你的 CDN 有办法在节点之间共享缓存
    猜你喜欢
    • 1970-01-01
    • 2015-11-16
    • 2019-11-07
    • 2012-10-04
    • 1970-01-01
    • 2016-07-01
    • 1970-01-01
    • 1970-01-01
    • 2016-06-27
    相关资源
    最近更新 更多