【发布时间】:2019-09-26 17:07:54
【问题描述】:
我有 2 个关于爬虫和机器人的问题。
背景资料
我只希望将 Google 和 Bing 排除在“不允许”和“无索引”限制之外。换句话说,我希望除 Google 和 Bing 之外的所有搜索引擎都遵循“禁止”和“禁止索引”规则。另外,我还想要一个我提到的搜索引擎的“nosn-p”功能(都支持“nosn-p”)。我使用哪个代码来执行此操作(同时使用 robots.txt 和 X-Robots-Tag)?
我想将它作为 X-Robots-Tag 包含在 robots.txt 文件和 htacess 文件中。我了解 robots.txt 可能已过时,但我希望向爬虫提供明确的说明,即使它们被认为“无效”和“过时”,除非您另有想法。
问题 1
我是否获得了以下代码,仅允许 Google 和 Bing 编制索引(以防止其他搜索引擎在其结果中显示),此外,还阻止 Bing 和 Google 在其搜索结果中显示 sn-ps?
X-Robots-Tag 代码(这是正确的吗?不要认为我需要将“index”添加到 googlebot 和 bingbot,因为“index”是默认值,但不确定。 )
X-Robots-Tag: googlebot: nosnippet
X-Robots-Tag: bingbot: nosnippet
X-Robots-Tag: otherbot: noindex
robots.txt 代码(这是正确的吗?我认为第一个是,但不确定。)
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
User-agent: *
Disallow: /
或
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
问题 2:robots.txt 和 X-Robots-Tag 之间的冲突
我预计 robots.txt 和 X-Robots-Tag 之间会发生冲突,因为不允许函数和 noindex 函数一起工作 (Is there any advantage of using X-Robot-Tag instead of robots.txt?)。我该如何解决这个问题,您的建议是什么?
最终目标
如前所述,这样做的主要目的是明确告诉所有旧机器人(仍在使用 robots.txt)和除 Google 和 Bing 之外的所有较新机器人(使用 X-Robots-Tag)不要显示我的任何页面在他们的搜索结果中(我假设在 noindex 函数中进行了总结)。我知道他们可能并不都遵循它,但我希望他们都知道,除了 Google 和 Bing 不会在搜索结果中显示我的页面。为此,我正在寻找适用于 robots.txt 代码和 X-Robots-Tag 代码的正确代码,这些代码对于我正在尝试构建的 HTML 网站的此功能不会发生冲突。
【问题讨论】:
-
“我知道 robots.txt 可能已过时”:这是从哪里来的?
-
嘿,unor,我一定是错的。我猜 robots.txt 仍然是指导爬虫的主要标准。我想我错误地认为一切都从 robots.txt 更改为 X Robots Tag。对这一切都很陌生,感谢您为让我走上正轨所做的努力。谢谢你。
标签: html meta-tags robots.txt x-robots-tag