【发布时间】:2012-10-08 09:11:08
【问题描述】:
我想阻止网络抓取工具积极抓取我网站上的 1,000,000 个页面。我想通过向每分钟访问异常页数的机器人返回“503 服务不可用”HTTP 错误代码来做到这一点。我没有遇到垃圾邮件发送者的问题,只是遇到了抓取工具。
我不希望搜索引擎蜘蛛收到错误。我倾向于设置 robots.txt 爬行延迟,以确保蜘蛛每分钟访问的页面数低于我的 503 阈值。
这是一个可接受的解决方案吗?所有主要搜索引擎都支持 crawl-delay 指令吗?它会对SEO产生负面影响吗?还有其他解决方案或建议吗?
【问题讨论】:
-
为什么不时不时更改 div 和标签。因为它们会崩溃,所以会让你免于许多废纸篓...?
-
@confusedMind 我可以这样做,但每个月都需要额外的工作。我希望只是阻止它们或减慢它们的速度就足以起到威慑作用
标签: web-scraping web-crawler robots.txt