【问题标题】:will googlebot index my site?googlebot 会将我的网站编入索引吗?
【发布时间】:2010-10-18 05:18:35
【问题描述】:

在我的 robots.txt 文件中,我有以下行

用户代理:Googlebot-Mobile 不允许:/

用户代理:GoogleBot 不允许:/

网站地图:http://mydomain.com/sitemapindex.xml

我知道如果我放前 4 行,googlebot 不会索引网站,但是如果我放最后一行 Sitemap: http://mydomain.com/sitemapindex.xml,googlebot 是否能够索引网站?

谢谢,

【问题讨论】:

  • 这是 google 的问题,不是编程问题
  • 我同意不编程,但程序员知道这一点并没有什么坏处。

标签: robots.txt googlebot


【解决方案1】:

我针对我自己的域(每个页面都有一个站点地图条目)测试了您的 robots.txt,Googlebot 和 Googlebot-Mobile 返回它们被禁止访问。

基于此 - 我会说 robots.txt 文件优先于任何站点地图。

另外,从逻辑上讲 - 如果您阻止整个域,则不允许该机器人访问站点地图。站点地图条目只是告诉爬虫在哪里可以找到您的站点地图,而不是他们的访问权限。

即使您允许使用站点地图,我认为机器人不会抓取您的网站 - 站点地图的设计目的更多是告诉机器人多久抓取一次您的网站,而不是允许它们抓取什么。

【讨论】:

    【解决方案2】:

    不,我认为 Google 不会这样做。它实际上是一个好机器人和坏机器人的问题。即使您添加了 robots.txt 文件来限制机器人仍然可以抓取的某些区域。它实际上是一个是或否的问题。robots.txt 就像一个警告板,而不是安全墙。

    【讨论】:

    • 同意安全问题,如果 OP 想让他的网站完全“脱离地图”,他可能不知道糟糕的机器人场景。
    【解决方案3】:

    googlebot 甚至无法访问 sitemapindex.xml

    • robots.txt 是一个爬虫指令。
    • sitemap.xml 是通过 googlebot 爬虫获取的。
    • googlebot 不会访问 sitemapindex.xml
    • 没有抓取覆盖、没有索引、没有 SERP 列表

    您可以使用 google 网站管理员工具 robots.txt 验证工具对此进行测试,并获取 googlebot(在实验室部分)功能。

    【讨论】:

    • 您应该稍微更正一下拼写错误,但为了您清楚地了解条款,请 +1。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-02-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多