【问题标题】:How to noindex in Google one page of a web site如何在谷歌中不索引网站的一页
【发布时间】:2011-03-23 12:36:29
【问题描述】:

我对如何防止网站的某个页面不被 Google 或任何其他机器人编入索引感兴趣。 在我的脚本中,我有带有 TPL 文件的模板,Index.tpl,Header.tpl .... 那么我如何告诉谷歌不要索引页面:login.tpl

谢谢

【问题讨论】:

    标签: noindex


    【解决方案1】:

    如果您不希望某个特定的 URL(或目录)不被爬虫索引,一个简单的解决方案是使用 robots.txt 文件——这将允许您指定哪些可以索引,哪些不能索引。

    欲了解更多信息,请参阅About /robots.txt


    例如,如果您希望爬虫不索引 /my-page.php URL,您可以在 robots.txt 文件中使用类似这样的内容:

    User-agent: *
    Disallow: /my-page.php
    


    作为旁注:最终用户不应该看到的文件(如包含文件、库、非解释模板,...) 不应由您的网络服务器提供:没有人应该可以访问这些。

    如果使用 Apache,使用给定文件夹中的 .htaccess 文件(如果启用了此功能),您可以阻止 Apache 提供该文件夹中的任何文件:

    Deny from All
    

    注意:Apache 不会从包含具有该内容的 .htaccess 文件的目录中提供任何内容!

    【讨论】:

    • 感谢您的回答 :) 解决了!!
    • 酷,所以我需要使用 .htaccess ,但问题是我需要从文件夹中排除文件,而不是整个文件夹。
    【解决方案2】:

    这是不正确的。 robots.txt 不会告诉爬虫什么要索引,什么不应该索引。这就是您使用元机器人标签的目的。让它为 noindex 服务,你很好。 参见示例和进一步阅读:http://yoast.com/x-robots-tag-play/

    【讨论】:

      【解决方案3】:

      我知道我迟到了,但这也可以帮助其他人 下面是您将看到的更准确的答案。

      我正在考虑您正在为您的网站使用 wordpress。

      您可以使用wordpress“自定义字段”选项。(您可以找到详细信息here

      您需要做的第一件事是将以下代码添加到主题的 header.php 模板的 head 部分。

      并复制下面的代码

      <?php
          $noindex = get_post_meta($post->ID, 'noindex-page', true);
      
          if ($noindex) {
              echo '<meta name="robots" content="noindex,follow" />';
          }
      ?>
      

      现在您需要做的就是指定一个名为 noindex-page 的自定义字段并为其分配一个值。你输入什么并不重要。您需要做的就是确保在字段中输入了一些内容,以便自定义字段 noindex-page 在您在标题中指定的代码中返回为 true。

      请记住这一点,这也适用于帖子

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2016-05-20
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2012-12-14
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多