如何防止 Google 抓取在 javascript 中找到的部分 url？答案

【问题标题】：How to prevent Google from crawling partial url found in javascript?如何防止 Google 抓取在 javascript 中找到的部分 url？
【发布时间】：2015-11-19 10:10:24
【问题描述】：

我最近在 Google Search Console 中添加了一个网站，并且显示了很多 404 错误，所有错误都具有相同的模式：

https://example.com/metas?some_id=247

该页面不存在，并且链接到站点上的任何位置。但是当我检查要作为引用者的页面的源代码时，我有一个带有此代码的脚本标签：

$.ajax({
  url: "/products/" + productId + "/metas?some_id=247",
  dataType: 'script',
  success: function(data) {
    // ...
  },
  error: function(XMLHttpRequest, textStatus, errorThrown) {
    // ...
  }
});

为什么 Google 机器人会抓取此网址，我该如何防止这种情况发生（显然 rel="nofollow" 在这里是不可能的）？将脚本放在外部 .js 文件中而不是页面 html 代码中的 <script> 标记中是否有帮助？

【问题讨论】：

在 robots.txt 中外部化和阻止该目录肯定会有所帮助
我投票结束这个问题，因为它是关于 SEO 的

标签： javascript seo google-search-console

【解决方案1】：

通常认为在不存在的 URL 上应用 noindex 标记是个好主意。

根据您的平台，只需编辑您的 404 页面模板以包含 <meta name="robots" content="noindex, nofollow" /> 即可解决很多问题。

对于由于脚本、插件或任何您可以使用 URL 模式匹配来应用您的 noindex 标记而自动生成的棘手 URL。

这是一个 PHP 示例：

$url = 'http://' . $_SERVER['SERVER_NAME'] . $_SERVER['REQUEST_URI'];

if (strpos($url,'YOURQUERY') !== false) {
echo '<meta name="robots" content="noindex, nofollow" /> '
}

【讨论】：