【问题标题】:Stop abusive bots from crawling?阻止滥用机器人爬行?
【发布时间】:2011-10-26 02:51:43
【问题描述】:

这是个好主意吗??

http://browsers.garykeith.com/stream.asp?RobotsTXT

滥用抓取是什么意思?这对我的网站有什么影响?

【问题讨论】:

  • 阻止该列表中的网站为我的网站编制索引

标签: seo web-crawler robots.txt


【解决方案1】:

不是真的。大多数“坏机器人”无论如何都会忽略 robots.txt 文件。

滥用抓取通常意味着抓取。这些机器人正在出现以获取电子邮件地址或更常见的内容。

至于如何阻止他们?这真的很棘手,而且通常不明智。反爬行技术往往不够完美,会给普通人带来麻烦。

可悲的是,就像零售业的“收缩”一样,这是在网络上开展业务的成本。

【讨论】:

【解决方案2】:

用户代理(包括爬虫)没有义务遵守您的 robots.txt。您能做的最好的事情是尝试识别滥用访问模式(通过网络日志等),并阻止相应的 IP。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-03-30
    • 2011-10-06
    • 2020-02-09
    • 1970-01-01
    • 2012-08-13
    • 2021-10-02
    • 1970-01-01
    • 2017-12-05
    相关资源
    最近更新 更多