【发布时间】:2021-02-19 03:21:09
【问题描述】:
我正在为我的研究项目使用爬虫爬虫进行 URL 抓取。我的蜘蛛基于来自 bhattraideb (Scrapy follow all the links and get status) 的代码,并稍作编辑以更好地满足我的需求。
目前,每次更改允许的域并启动 URL 时,我都会重新启动蜘蛛,因为我需要将每个允许域的输出放在单独的文件中。由于我的 URL 列表越来越多,这变得非常乏味......
我尝试迭代 .csv,使用“i”和“while”将两个列与 allowed_domains 和 start_urls 作为列表导入,但它总是与类发生冲突。
我会很感激任何帮助:-)
【问题讨论】:
标签: python web-scraping scrapy