为什么要用分布式爬虫

学习爬虫已经有一段时间了,之前的爬虫都是一个python文件就实现的,没考虑性能,效率之类的。所以作为一个合格的spider,需要学习一下分布式爬虫。

什么分布式爬虫?简单地说就是用多台服务器去获取数据,让这些服务器去协同,分配各自的任务。

分布式爬虫设计

最常用的一种就是主从分布式爬虫,本文将使用Redis服务器来作为任务队列。

如图:

python主从分布式爬虫

准备工作

安装python3和Redis

安装requests与Redis相关的库

pip install requests

pip install pyquery

pip install redis

代码

主函数(master.py)

python主从分布式爬虫

从函数(salver.py)

python主从分布式爬虫

相关文章:

  • 2021-09-03
  • 2021-04-29
  • 2021-06-13
  • 2021-08-11
  • 2022-01-29
  • 2022-01-17
  • 2022-01-15
猜你喜欢
  • 2022-12-23
  • 2022-02-07
  • 2021-06-30
  • 2021-06-24
  • 2022-01-01
  • 2021-10-01
相关资源
相似解决方案