如何阻止不包括爬虫的机器人访问我的网站？答案

【问题标题】：How to block Bots excluding crawlers from accessing my site?如何阻止不包括爬虫的机器人访问我的网站？
【发布时间】：2016-10-28 14:17:26
【问题描述】：

机器人每隔几分钟或几小时就会抓取一次我的网站，而我的网站由于资源短缺而变得不可用。该机器人起源于俄罗斯。

如何阻止此机器人访问我的网站？

【问题讨论】：

【解决方案1】：

拒绝指令应该在文件部分，试试：

<Files 403.shtml>
order allow,deny
allow from all
deny from xxx.xxx.xx.xxx
</Files>

或者，您可以使用基于 mod-rewrite 的 ip 阻塞

RewriteEngine on

RewriteCond %{REMOTE_ADDR} ^1\.2\.3\.4\.5$
RewriteRule  - [F]

【讨论】：

【解决方案2】：

我已经解决了他的问题。

解决办法：

检查您域的最新访问者检查持续访问的用户代理。

就我而言，我发现了 YandexBot

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

现在您已经找到了降低服务器速度的机器人，请继续阻止它。您可以使用robots.txt 或.htaccess 进行操作

.htaccess方法：

在其中添加以下代码。

#block bad bots with a 403
BrowserMatchNoCase "Yandex" bots
Order Allow,Deny
Allow from ALL
Deny from env=bots

或者

robots.txt方法：

在其中添加以下代码。

User-agent: Yandex
Disallow: /

就是这样。您已阻止机器人。

【讨论】：

Robots.txt 会根据需要执行，如果机器人具有破坏性，那么它不太可能会费心去遵守其中的内容。在 Apache 配置和/或 iptables 或防火墙中阻止要好得多。