【问题标题】:In which file/place should Scrapy process the data?Scrapy 应该在哪个文件/位置处理数据?
【发布时间】:2019-06-22 14:30:28
【问题描述】:

Scrapy 有几个允许处理抓取数据的点/位置:spideritemsspider 中间件。但我不明白我应该在哪里做对。我可以在所有这些地方处理一些抓取的数据。你能详细解释一下它们之间的区别吗?

例如:下载器中间件向蜘蛛返回一些数据(数字、短字符串、url、大量HTML、列表等)。我应该在哪里处理它们?我知道该怎么做,但不清楚在哪里做......

【问题讨论】:

    标签: python scrapy scrapy-spider scrapy-pipeline


    【解决方案1】:

    Spiders 是您定义如何提取数据的主要点,如items。如有疑问,请仅在您的蜘蛛中实现您的提取逻辑,而无需考虑其他 Scrapy 功能。

    Item loadersitem pipelinesdownloader middlewaresspider middlewaresextensions 主要用于有多个爬虫的抓取项目中的代码共享。

    如果您发现自己在两个或更多蜘蛛中重复相同的代码,并且您决定停止重复自己,那么您应该进入这些组件并选择使用哪些组件来简化您的代码库,以便将现有的重复代码移入这些类型的一个或多个组件。

    这通常比简单地在 Spider 子类之间使用类继承更好。

    关于如何使用各个组件:

    • Item loaders 用于共享提取逻辑(例如 XPath 和 CSS 选择器、正则表达式),以及字段值的预处理和后处理。

      例如:

        1234563 /li>
      • 如果您想始终将项目字段的值切换为大写,您可以在项目加载器类上使用输出处理器,并在蜘蛛之间重用该项目加载器。

    • Item pipelines 用于项目的后处理(不仅仅是特定项目中的项目数据)。

      常见的用例包括删除重复项(通过跟踪解析的每个项的唯一标识数据)或将项发送到数据库服务器或其他形式的存储(作为feed exports 的灵活替代方案)。

    • Downloader middlewares 用于关于处理响应请求的共享逻辑。

      常见用例包括实施反机器人软件检测和处理或代理处理。 (built-in downloader middlewares)

    • Spider middlewares 用于蜘蛛之间的任何其他共享逻辑。它是蜘蛛基类的接近点。它可以处理来自蜘蛛的异常、初始请求等 (built-in spider middlewares)

    • Extensions 用于对 Scrapy 本身进行更一般的更改。 (built-in extensions)

    【讨论】:

    • 我明白你写的一切。但是假设那一刻已经到来(你写了:“......那么你应该进入那些组件并选择要使用的组件......”)现在我需要选择我将在哪里写代码:项目加载器、项目管道、蜘蛛合约、下载器中间件、蜘蛛中间件或扩展。我阅读了文档,但没有看到答案。也许我可以编写适合我的代码...
    • 如果你在那个时候,你可以提供一个包含重复代码的示例,并询问哪个组件最适合从蜘蛛程序中重构该代码。尽管如此,我还是会提供一个简短的描述。
    【解决方案2】:

    我会尽量按顺序解释

    Spider 是您决定向哪些 URL 发出请求的地方

    DownloadMiddleware 有一个 process_request 方法,在对 URL 发出请求之前调用它,它有一个 process_response 方法,一旦收到来自该 URL 的响应就会调用

    管道是当您 yield 来自 Spider 的字典时发送数据的地方

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-05-26
      • 1970-01-01
      • 2019-08-30
      • 2013-11-15
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多