【发布时间】:2010-10-03 01:10:47
【问题描述】:
我运行着一个小型网络服务器,最近它被搜索引擎蜘蛛捣毁。冷却它的正确方法是什么?我应该定期向它发送 5xx 响应吗?我应该使用 robots.txt 设置吗?还是别的什么?
【问题讨论】:
标签: web search-engine web-crawler
我运行着一个小型网络服务器,最近它被搜索引擎蜘蛛捣毁。冷却它的正确方法是什么?我应该定期向它发送 5xx 响应吗?我应该使用 robots.txt 设置吗?还是别的什么?
【问题讨论】:
标签: web search-engine web-crawler
假设蜘蛛非常友好地尊重 robots.txt,您可以通过以下方式限制它访问您的网站:
User-agent: *
Disallow: /
这将影响所有蜘蛛。通过为蜘蛛指定正确的用户代理来缩小范围。
如果爬虫不尊重您的 robots.txt,您可能希望通过在防火墙中阻止其 IP 来限制它访问您的网站。
编辑:您可以阅读有关 robots.txt here 的更多信息。
【讨论】:
Robots.txt 应该是您的第一站。搜索机器人应该记下这些设置并停止访问您拒绝访问的页面。这很容易通过使用以下语法在您网站的根目录中创建一个文件来完成:
User-agent: *
Disallow: /
该语法本质上是说:所有搜索机器人(通配符 *),您不得在 / 下索引任何内容。更多信息robotstxt.org
如果这不起作用,下一步是尽可能禁止 IP 地址。
【讨论】:
您还可以构建sitemap 并将站点地图注册到有问题的机器人。搜索引擎将使用站点地图来确定要访问哪些页面以及访问频率。如果您的网站是完全动态的,它可能没有多大帮助,但如果您有很多静态页面,这是告诉蜘蛛每天没有任何变化的好方法。
【讨论】:
如果它忽略了 robots.txt,那么最好的办法就是通过它的 useragent 字符串来禁止它。仅仅禁止 IP 并没有多大用处,因为如今 99% 的蜘蛛都分布在一堆服务器上。
【讨论】:
User-agent: *
Disallow: /
【讨论】:
robots.txt 应该是您的首选。但是,如果机器人行为不端并且您无法控制防火墙,您可以设置 .htaccess 限制以通过 IP 禁止它。
【讨论】: