【问题标题】:disable crawling subdomain google crawler禁用爬取子域谷歌爬虫
【发布时间】:2014-09-08 20:22:38
【问题描述】:

我想知道如何禁止谷歌抓取我的子域?

我拍了一张我的网络空间文件夹的照片。 awesom media 文件夹是主站点 www.awesom-media.de 所在的文件夹。folders

另一个是子域。我想要的是谷歌不应该抓取这个,但我不知道如何。

我在 awesom 媒体文件夹中没有 robots.txt,但您可以在 / 部分看到。并且robot.txt的内容是User-agent: * Disallow:

就是这样。

如何告诉谷歌不要抓取子域

【问题讨论】:

    标签: web-crawler google-crawlers


    【解决方案1】:

    如果您的所有子域都直接路由到特定文件夹(例如,automagazin.awesom-media.de 使用文件夹 auto-magazin),只需将 robots.txt 与

    User-agent: *
    Disallow: /
    

    在您要禁止 Google 访问的子域的所有文件夹中。我猜这些是auto-magazinfuture-magazin(可能还有更多)。

    目前您将其放入根文件夹,Google 可能根本看不到。只需尝试加载 [subdomain].awesom-media.de/robots.txt 看看它是否加载了 robots.txt。

    【讨论】:

    • 对不起我的错误。汽车杂志 |我的生活| concierg 和 future-magazin 不是子域。这是正常的域,这是我的网站空间的一部分。子域是文件夹 schmidt; HMA、豪华轿车、后端、
    • 现在我将robot.txt 放入所有子域文件夹中,其中包含您发布的行。 schimdt.awesom-media.de/robot.txt 也在工作。这么正确吗?
    • 过失,当然必须是Disallow: /。我更正了我的帖子。否则,您将 允许 Google 的一切。
    猜你喜欢
    • 1970-01-01
    • 2021-09-13
    • 1970-01-01
    • 2017-02-25
    • 2013-10-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多