【问题标题】:Google not indexing a geo restricted page distributed by CloudFrontGoogle 未将 CloudFront 分发的地理限制页面编入索引
【发布时间】:2024-01-23 22:38:01
【问题描述】:

我有一个使用 CloudFront 在 AWS 上托管的网站,由于某些法律限制,该网站只能在英国和爱尔兰访问。

在 CloudFront 中设置地理限制并通过网站管理员工具(上周初 - 1 月 2 日)将域提交给 Google 后,我注意到该网站尚未被 Google 索引甚至识别(搜索域或站点:mysite.co.uk 不会产生任何结果)。

我的想法是,这是因为 Google 爬虫试图从美国服务器访问该页面,但被重定向到通用错误页面,说该站点仅适用于英国和爱尔兰,然后拒绝索引它,因为它看起来像一个质量非常低的网站。

有没有人遇到过类似的问题并找到了解决方案?

我计划向 Google 网站管理员工具提交站点地图,看看是否有帮助,但我也在考虑 robots.txt 文件是否有助于解决此问题。

如果您同意,对我应该在那里设置的规则有什么建议吗?我一直使用这个文件只是为了让爬虫知道要从索引中排除网站的哪些部分。

任何建议都会非常有帮助。

提前谢谢你,

亚当

【问题讨论】:

  • 更新 - 亚马逊建议使用他们的 Web 应用程序框架 (WAF)。如果可行,我会做一些测试并发布

标签: amazon-cloudfront google-search-console google-crawlers search-engine-bots


【解决方案1】:

迁移到 Web 应用程序框架 (WAF) 有效。它使您可以更好地控制允许访问该站点的流量。我们只是把可以在网上找到的 Google/Facebook 和 Twitter 爬虫的 IP。

【讨论】: