【发布时间】:2016-08-06 05:02:16
【问题描述】:
我们的网站只使用 https,所以任何 http 都被强制使用 https。但仍有一些机器人想通过 http 强行进入。
我已经搜索过,但找不到简单的方法。
所以我的问题是,我应该写什么到 robots.txt 以便我只允许 https
【问题讨论】:
我们的网站只使用 https,所以任何 http 都被强制使用 https。但仍有一些机器人想通过 http 强行进入。
我已经搜索过,但找不到简单的方法。
所以我的问题是,我应该写什么到 robots.txt 以便我只允许 https
【问题讨论】:
如果您使用 HTTP 301 从 HTTP 重定向到 HTTPS,有能力的机器人会注意到重定向(并且,根据机器人的目的,跟随它,更新它们的索引等)。如果您想禁止抓取您的 HTTP URL,请注意机器人将无法获知这些页面现在有新的 URL,因为它们不允许访问它们以注意到重定向(如果您有或有 HTTP 链接)。
如果您仍想禁止抓取 HTTP 网址,请将以下 robots.txt 放在 http://example.com/(或 http://www.example.com/ 或任何您的主机)并不将此特定网址重定向到https://example.com/robots.txt.
User-agent: *
Disallow: /
【讨论】:
写一个硬 302 重定向到 https。如果有一个仅限 http 的机器人,它就不是搜索引擎机器人。 Google、Yahoo 和 Bing 仅接受 https。您可以忽略所有其他机器人。
【讨论】: