分布式爬虫的原理

标题分布式爬虫的原理

一开始学习分布式爬虫真的是一脸的懵逼，完全不理解到底是怎么通过Redis实现调度器分发任务
后来我逐渐理解了
在单机scrapy框架中的原理是这样的

分布式爬虫的原理
scrapy单机爬虫中有一个request队列由调度器来分发任务去请求，每次请求完成之后就会从队列中删除，而新的request请求也会加入到队列。但是调度器的能力是有限的。
这样就可以通过Redis来实现调度器分发任务，为什么要用Redis来实现?
1.Redis数据库是一个缓存数据库存储在内存当中的
2.它的读写能力远比其他的数据库要快。
3.并且它的数据易于操作，新手可以
https://www.runoob.com/w3cnote/python-redis-intro.html 仔细查看Python-Redis的数据操作
4.可以远程连接，也是最要的一点
通过Redis可以将request队列缓存到Redis数据库当中，即使因为发生意外比如宕机也不会造成数据丢失等问题，并且通过Redis远程连接实现多台电脑同时完成scrapy任务
分布式爬虫的原理
第一次写博文，有不对的地方，请大家指正。