【问题标题】:Stopping Google's crawl of my site停止 Google 抓取我的网站
【发布时间】:2011-08-01 20:51:28
【问题描述】:

Google 已开始抓取我的网站,但从一个临时域(beta.mydomain 而不是 mydomain)开始,而且我只希望他只抓取我的一些网页。因此,我想停止他们的抓取,只让他们抓取我在站点地图中指定的页面。我怎样才能做到这一点? (我知道如何添加站点地图,但我怎样才能停止他们当前的抓取并请求他们只抓取站点地图)

更新:如果我杀死子域 beta.mydomain - 他们会“很好”还是他们会继续浏览所有被杀死的页面并“不喜欢”它们?我可以在每个页面的标题中指定吗?

【问题讨论】:

  • 研究使用 robots.txt 文件。只需谷歌并阅读它。

标签: web-config web-crawler


【解决方案1】:

在您网站的根文件夹中创建一个名为“robots.txt”的文本文件。里面...

User-agent: *
Disallow: /thisfolder/
Disallow: /foo.html
Disallow: /andthisfoldertoo/
Disallow: /andthisfile.html

我将它用于项目文件。事实上,当我写这篇文章时,我想我会改变我处理项目的方式,并始终将它们放在一个名为 /projects/project1/ 的子目录中,这样一行就可以了......

Disallow: /projects/

我还为我的图像文件添加了一行。我不喜欢我的图片遍布网络...

Disallow: /imgs/

【讨论】:

    【解决方案2】:

    您可以从 robots.txt 文件开始。

    See google's info here

    我想你已经看过你所说的网站管理员工具和站点地图了?请注意,虽然站点地图有助于告诉谷歌要抓取什么,但它不能很好地告诉他们什么不可以抓取。

    为此,您需要使用 robots.txt 文件来阻止某些页面/文件夹。

    【讨论】:

    • 是否会使用 robots.txt 阻止所有页面并使用站点地图提供特定页面?
    【解决方案3】:

    使用robots.txt,参见this site

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-01-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多