【发布时间】:2018-01-01 00:49:42
【问题描述】:
我正在构建一个同时发出多个请求的网络爬虫。我目前正在使用 multiprocessing 模块来执行此操作,但由于它在 Digital Ocean 液滴上运行,我遇到了处理器/内存瓶颈。
既然这是一个网络爬虫,而且大部分时间花在脚本上可能都在等待网络,那么使用线程来减少资源使用不是更有效吗?线程是否检测到阻塞的网络调用并释放锁?多处理和多线程交织是否可行?
【问题讨论】:
标签: python multithreading web-scraping multiprocessing