标题分布式爬虫的原理

一开始学习分布式爬虫真的是一脸的懵逼,完全不理解到底是怎么通过Redis实现调度器分发任务
后来我逐渐理解了
在单机scrapy框架中的原理是这样的

分布式爬虫的原理
scrapy单机爬虫中有一个request队列由调度器来分发任务去请求,每次请求完成之后就会从队列中删除,而新的request请求也会加入到队列。但是调度器的能力是有限的。
这样就可以通过Redis来实现调度器分发任务,为什么要用Redis来实现?
1.Redis数据库是一个缓存数据库存储在内存当中的
2.它的读写能力远比其他的数据库要快。
3.并且它的数据易于操作,新手可以
https://www.runoob.com/w3cnote/python-redis-intro.html 仔细查看Python-Redis的数据操作
4.可以远程连接,也是最要的一点
通过Redis可以将request队列缓存到Redis数据库当中,即使因为发生意外比如宕机也不会造成数据丢失等问题,并且通过Redis远程连接实现多台电脑同时完成scrapy任务
分布式爬虫的原理
第一次写博文,有不对的地方,请大家指正。

相关文章:

  • 2021-06-05
猜你喜欢
  • 2021-12-05
  • 2021-06-13
  • 2021-10-01
  • 2021-09-03
  • 2021-11-28
相关资源
相似解决方案