【问题标题】:Robots.txt - allow the bots to visit only via httsRobots.txt - 只允许机器人通过 https 访问
【发布时间】:2016-08-06 05:02:16
【问题描述】:

我们的网站只使用 https,所以任何 http 都被强制使用 https。但仍有一些机器人想通过 http 强行进入。

我已经搜索过,但找不到简单的方法。

所以我的问题是,我应该写什么到 robots.txt 以便我只允许 https

【问题讨论】:

    标签: ruby-on-rails robots.txt


    【解决方案1】:

    如果您使用 HTTP 301 从 HTTP 重定向到 HTTPS,有能力的机器人会注意到重定向(并且,根据机器人的目的,跟随它,更新它们的索引等)。如果您想禁止抓取您的 HTTP URL,请注意机器人将无法获知这些页面现在有新的 URL,因为它们不允许访问它们以注意到重定向(如果您有或有 HTTP 链接)。

    如果您仍想禁止抓取 HTTP 网址,请将以下 robots.txt 放在 http://example.com/(或 http://www.example.com/ 或任何您的主机)并将此特定网址重定向到https://example.com/robots.txt.

    User-agent: *
    Disallow: /
    

    【讨论】:

      【解决方案2】:

      写一个硬 302 重定向到 https。如果有一个仅限 http 的机器人,它就不是搜索引擎机器人。 Google、Yahoo 和 Bing 仅接受 https。您可以忽略所有其他机器人。

      【讨论】:

        猜你喜欢
        • 2015-03-21
        • 2012-02-06
        • 2019-07-21
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2010-12-10
        相关资源
        最近更新 更多