【发布时间】:2014-04-03 10:03:41
【问题描述】:
此机器人不尊重 robots.txt 中的 nofollow noindex。
我在 robots.txt 中有这个:
User-agent: Msnbot
Disallow: /
User-Agent: Msnbot/2.0b
Disallow: /
到目前为止,它还很慢,但现在,它是一个根本不会离开我的网站的怪物。 24/7 抓取所有 WordPress 和 MyBB。
要阻止 IP 范围或我可以做些什么来阻止所有这些内容窃取者?
【问题讨论】:
-
在右侧窗格的 Related 部分中有很多潜在的重复项。
-
@halfer,谢谢。但是,使用这种方法,我将不得不做很多事情。我需要一些更简单的方法来阻止除 Google Bot 之外的所有机器人。我需要为我想以这种方式阻止的每个机器人添加 RewriteCond %{HTTP_USER_AGENT}。
-
您确实专门询问了一个机器人。如果您按 IP 范围阻止,您可能会遇到同样的问题,除非有许多机器人来自同一范围。
-
是的,你是对的,我问的是 MSN bot,因为它忽略了 Robots.txt。如果我可以通过 htaccess 阻止除 Google Bot 之外的所有内容,那么我将在 robots.txt 中为 Google Bot 设置规则,它会更好更容易。来自 D. Kasipovic 的回答我做了这个代码pastebin.com/w8719E4c 不知道它会工作,从来没有试过这个。
标签: wordpress .htaccess web-crawler bots