【发布时间】:2011-10-26 02:51:43
【问题描述】:
【问题讨论】:
-
阻止该列表中的网站为我的网站编制索引
标签: seo web-crawler robots.txt
【问题讨论】:
标签: seo web-crawler robots.txt
不是真的。大多数“坏机器人”无论如何都会忽略 robots.txt 文件。
滥用抓取通常意味着抓取。这些机器人正在出现以获取电子邮件地址或更常见的内容。
至于如何阻止他们?这真的很棘手,而且通常不明智。反爬行技术往往不够完美,会给普通人带来麻烦。
可悲的是,就像零售业的“收缩”一样,这是在网络上开展业务的成本。
【讨论】:
用户代理(包括爬虫)没有义务遵守您的 robots.txt。您能做的最好的事情是尝试识别滥用访问模式(通过网络日志等),并阻止相应的 IP。
【讨论】: