【发布时间】:2020-05-06 16:33:26
【问题描述】:
我正在一个使用 Scrapy 的爬虫项目中工作,我需要将我的蜘蛛分布在集群中的不同节点上,以加快进程。我正在使用 ScrapydWeb 来管理它,并且我已经配置了两台机器,其中一台安装了 ScrapydWeb,两台都安装了 Scrapyd。网络应用程序可以识别两者,我可以正常运行我的蜘蛛。问题是爬取只是并行运行(两台机器都在获取内容),我的目的是以分布式方式进行,以尽量减少爬取时间。
有人可以帮我吗?提前谢谢你。
【问题讨论】:
-
你搞定了吗??
-
是的,@user3125823。我使用了 Scrapy Cluster。
-
Scrapy Cluster 是否易于安装/设置和运行?你能简单分享一下你的经验吗?
-
当然,@user3125823!我会将其发布为我的问题的答案。
标签: scrapy web-crawler distributed-computing scrapyd