【问题标题】:Will this robots.txt only allow googlebot to index my site?这个 robots.txt 是否只允许 googlebot 为我的网站编制索引?
【发布时间】:2010-09-27 16:32:08
【问题描述】:

这个 robots.txt 文件是否只允许 googlebot 为我网站的 index.php 文件编制索引? CAVEAT,我有一个 htaccess 重定向,输入

的人

http://www.example.com/index.php

被重定向到简单的

http://www.example.com/

所以,这是我的 robots.txt 文件内容...

User-agent: Googlebot
Allow: /index.php
Disallow: /

User-agent: *
Disallow: /

提前致谢!

【问题讨论】:

    标签: .htaccess robots.txt


    【解决方案1】:

    不是真的。

    好机器人
    只有“好”机器人遵循robots.txt 指令(并非所有机器人和蜘蛛都会费心阅读/遵循robots.txt)。这甚至可能不包括所有主要搜索引擎的机器人,但这绝对意味着某些网络爬虫将完全忽略您的请求(如果您真的想阻止机器人/爬虫查看部分内容,则应该考虑使用 .htaccess 或密码保护)您的网站)。

    二次检查
    Google 多次访问您的网站,包括以浏览用户的身份出现。第二次访问将忽略robots.txt 文件。第二次访问可能实际上并没有索引(如果您担心的话),但它会检查以确保您没有试图欺骗索引机器人(对于 SEO 等)。

    话虽如此,您的语法是正确的...如果您只要求这些,那么是的,它会起作用,只是没有您希望的那么好。

    【讨论】:

      【解决方案2】:

      如果没有重定向,Googlebot 将看不到您的网站,除了 index.php。

      对于重定向,这取决于机器人如何处理重定向以及您的 htaccess 如何进行重定向。如果您返回 302,则 Googlebot 将看到 http://www.example.com/,检查 robots.txt,但看不到主站点。即使您执行内部重定向并告诉 Googlebot 响应页面是 http://www.example.com/,它也会看到该页面但可能不会将其编入索引。

      【讨论】:

        【解决方案3】:

        这是有风险的。为确保 Google 确实将您的主页编入索引,请执行以下操作:

        User-agent: *
        Allow: /index.php
        Disallow: /a
        Disallow: /b
        ...
        Disallow: /z
        Disallow: /0
        ...
        Disallow: /9
        

        所以你的根“/”将不匹配禁止规则。

        另外,如果您有 AdSense,请不要忘记添加

        User-agent: Mediapartners-Google
        Allow: /
        

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 2010-10-18
          • 1970-01-01
          • 2020-03-24
          • 1970-01-01
          • 2011-06-13
          • 2010-11-16
          • 2017-02-27
          相关资源
          最近更新 更多