【问题标题】:How to prevent Google from crawling partial url found in javascript?如何防止 Google 抓取在 javascript 中找到的部分 url?
【发布时间】:2015-11-19 10:10:24
【问题描述】:

我最近在 Google Search Console 中添加了一个网站,并且显示了很多 404 错误,所有错误都具有相同的模式:

https://example.com/metas?some_id=247

该页面不存在,并且链接到站点上的任何位置。但是当我检查要作为引用者的页面的源代码时,我有一个带有此代码的脚本标签:

$.ajax({
  url: "/products/" + productId + "/metas?some_id=247",
  dataType: 'script',
  success: function(data) {
    // ...
  },
  error: function(XMLHttpRequest, textStatus, errorThrown) {
    // ...
  }
});

为什么 Google 机器人会抓取此网址,我该如何防止这种情况发生(显然 rel="nofollow" 在这里是不可能的)?将脚本放在外部 .js 文件中而不是页面 html 代码中的 <script> 标记中是否有帮助?

【问题讨论】:

  • 在 robots.txt 中外部化和阻止该目录肯定会有所帮助
  • 我投票结束这个问题,因为它是关于 SEO 的

标签: javascript seo google-search-console


【解决方案1】:

通常认为在不存在的 URL 上应用 noindex 标记是个好主意。

根据您的平台,只需编辑您的 404 页面模板以包含 <meta name="robots" content="noindex, nofollow" /> 即可解决很多问题。

对于由于脚本、插件或任何您可以使用 URL 模式匹配来应用您的 noindex 标记而自动生成的棘手 URL。

这是一个 PHP 示例:

$url = 'http://' . $_SERVER['SERVER_NAME'] . $_SERVER['REQUEST_URI'];

if (strpos($url,'YOURQUERY') !== false) {
echo '<meta name="robots" content="noindex, nofollow" /> '
}

【讨论】:

    猜你喜欢
    • 2014-11-18
    • 1970-01-01
    • 1970-01-01
    • 2017-05-10
    • 1970-01-01
    • 1970-01-01
    • 2015-04-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多