阻止滥用机器人爬行？答案

【问题标题】：Stop abusive bots from crawling?阻止滥用机器人爬行？
【发布时间】：2011-10-26 02:51:43
【问题描述】：

这是个好主意吗？？

http://browsers.garykeith.com/stream.asp?RobotsTXT

滥用抓取是什么意思？这对我的网站有什么影响？

【问题讨论】：

【解决方案1】：

不是真的。大多数“坏机器人”无论如何都会忽略 robots.txt 文件。

滥用抓取通常意味着抓取。这些机器人正在出现以获取电子邮件地址或更常见的内容。

至于如何阻止他们？这真的很棘手，而且通常不明智。反爬行技术往往不够完美，会给普通人带来麻烦。

可悲的是，就像零售业的“收缩”一样，这是在网络上开展业务的成本。

【讨论】：

@Ann 不，他没有 :-) stackoverflow.com/users/129570/oli-charlesworth?tab=reputation 是别人这么做的。
一个合理的答案。 +1 以平衡它。

【解决方案2】：

用户代理（包括爬虫）没有义务遵守您的 robots.txt。您能做的最好的事情是尝试识别滥用访问模式（通过网络日志等），并阻止相应的 IP。

【讨论】：