如何将抓取的项目导出为 Scrapy 中的字典列表答案

【问题标题】：How to export scraped items as a list of dictionaries in Scrapy如何将抓取的项目导出为 Scrapy 中的字典列表
【发布时间】：2021-12-09 03:35:56
【问题描述】：

我制作了一个 Scrapy 代码，其中有 4 个爬虫从 4 个不同的电子商务网站抓取数据。对于每个爬虫，我想从每个网站输出 5 个最低价格的产品，并将它们导出到单个 CSV 文件中。

现在，我的主要代码如下所示：

process = CrawlerProcess()
process.crawl(Crawler1)
process.crawl(Crawler2)
process.crawl(Crawler3)
process.crawl(Crawler4)
process.start()

我希望每个爬虫返回一个字典列表，以便我可以使用 for 循环遍历它并比较价格。

我需要使用 Scrapy Pipeline 来执行此操作吗？我怎样才能让 Scrapy 返回一个已抓取项目的列表（在字典中），而不仅仅是将它们导出为文件？

【问题讨论】：

标签： python web-scraping scrapy

【解决方案1】：

这是另一个帖子中一些蜘蛛的示例，我将蜘蛛名称传递给函数，但您可以根据需要对其进行调整：

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from scrapy.signalmanager import dispatcher
from scrapy import signals


def spider_output(spider):
    output = []

    def get_output(item):
        output.append(item)

    dispatcher.connect(get_output, signal=signals.item_scraped)

    settings = get_project_settings()
    settings['USER_AGENT'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    process = CrawlerProcess(settings)
    process.crawl(spider)
    process.start()
    return output


if __name__ == "__main__":
    spider = 'vdsc'
    print(spider_output(spider))

【讨论】：