停止 Google 抓取我的网站答案

【问题标题】：Stopping Google's crawl of my site停止 Google 抓取我的网站
【发布时间】：2011-08-01 20:51:28
【问题描述】：

Google 已开始抓取我的网站，但从一个临时域（beta.mydomain 而不是 mydomain）开始，而且我只希望他只抓取我的一些网页。因此，我想停止他们的抓取，只让他们抓取我在站点地图中指定的页面。我怎样才能做到这一点？（我知道如何添加站点地图，但我怎样才能停止他们当前的抓取并请求他们只抓取站点地图）

更新：如果我杀死子域 beta.mydomain - 他们会“很好”还是他们会继续浏览所有被杀死的页面并“不喜欢”它们？我可以在每个页面的标题中指定吗？

【问题讨论】：

研究使用 robots.txt 文件。只需谷歌并阅读它。

标签： web-config web-crawler

【解决方案1】：

在您网站的根文件夹中创建一个名为“robots.txt”的文本文件。里面...

User-agent: *
Disallow: /thisfolder/
Disallow: /foo.html
Disallow: /andthisfoldertoo/
Disallow: /andthisfile.html

我将它用于项目文件。事实上，当我写这篇文章时，我想我会改变我处理项目的方式，并始终将它们放在一个名为 /projects/project1/ 的子目录中，这样一行就可以了......

Disallow: /projects/

我还为我的图像文件添加了一行。我不喜欢我的图片遍布网络...

Disallow: /imgs/

【讨论】：

【解决方案2】：

您可以从 robots.txt 文件开始。

See google's info here

我想你已经看过你所说的网站管理员工具和站点地图了？请注意，虽然站点地图有助于告诉谷歌要抓取什么，但它不能很好地告诉他们什么不可以抓取。

为此，您需要使用 robots.txt 文件来阻止某些页面/文件夹。

【讨论】：

是否会使用 robots.txt 阻止所有页面并使用站点地图提供特定页面？

【解决方案3】：

使用robots.txt，参见this site。

【讨论】：