爬取大众点评数据,使用多线程处理。

 

使用多线程爬取的目的是两个,

  一个是 多线程运行起来快。

第二则是 一个人访问的URL通过多线程的缘故变得杂乱无章,这样不容易被发爬机制 确定。

from concurrent.futures import ThreadPoolExecutor

通过引入 ThreadPoolExecutor 完成多线程操作,爬取 大众点评的 美食数据【二】

第二,爬取的过程中,每次爬取一个URL的内容后就    time.sleep(random.randint(0,4))

休眠0~4秒的随机数,这样访问的频率不那么高,就不容易被反派机制发现,被封锁IP了

相关文章:

  • 2021-04-21
  • 2021-09-26
  • 2022-12-23
  • 2021-04-25
  • 2021-08-30
  • 2021-07-07
  • 2021-06-27
  • 2021-11-05
猜你喜欢
  • 2022-12-23
  • 2021-12-08
  • 2022-12-23
  • 2021-12-15
  • 2022-12-23
  • 2021-05-27
  • 2021-06-07
相关资源
相似解决方案