【问题标题】:How to block Bots excluding crawlers from accessing my site?如何阻止不包括爬虫的机器人访问我的网站?
【发布时间】:2016-10-28 14:17:26
【问题描述】:

机器人每隔几分钟或几小时就会抓取一次我的网站,而我的网站由于资源短缺而变得不可用。该机器人起源于俄罗斯

如何阻止此机器人访问我的网站?

【问题讨论】:

    标签: apache security bots


    【解决方案1】:

    拒绝指令应该在文件部分,试试:

    <Files 403.shtml>
    order allow,deny
    allow from all
    deny from xxx.xxx.xx.xxx
    </Files>
    

    或者,您可以使用基于 mod-rewrite 的 ip 阻塞

    RewriteEngine on
    
    RewriteCond %{REMOTE_ADDR} ^1\.2\.3\.4\.5$
    RewriteRule  - [F]
    

    【讨论】:

      【解决方案2】:

      我已经解决了他的问题。

      解决办法:

      检查您域的最新访问者 检查持续访问的用户代理。

      就我而言,我发现了 YandexBot

      Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
      

      现在您已经找到了降低服务器速度的机器人,请继续阻止它。您可以使用robots.txt.htaccess 进行操作

      .htaccess方法:

      在其中添加以下代码。

      #block bad bots with a 403
      BrowserMatchNoCase "Yandex" bots
      Order Allow,Deny
      Allow from ALL
      Deny from env=bots
      

      或者

      robots.txt方法:

      在其中添加以下代码。

      User-agent: Yandex
      Disallow: /
      

      就是这样。您已阻止机器人。

      【讨论】:

      • Robots.txt 会根据需要执行,如果机器人具有破坏性,那么它不太可能会费心去遵守其中的内容。在 Apache 配置和/或 iptables 或防火墙中阻止要好得多。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-04-03
      • 2016-01-25
      • 2014-03-30
      • 2012-10-04
      • 2018-06-06
      • 2010-09-10
      • 2023-03-12
      相关资源
      最近更新 更多