【问题标题】:foreachRDD returning N RDDs when?foreachRDD 什么时候返回 N 个 RDD?
【发布时间】:2018-07-26 06:34:53
【问题描述】:

根据 stackoverflow 36421619 的一篇很好的帖子,Spark Streaming 中的 foreachRDD 已经进行了一些讨论。不过,我觉得在阅读散文时答案还不够清楚。所以这里...

我的问题是:

  1. 什么时候 foreachRDD ... 返回超过 1 个 RDD? N个批次的滑动窗口?
  2. 如果我们只是按批次进行处理,那么会声明一个 RDD,所以呢?

我注意到,最常见的用例似乎是持久化到外部存储。这似乎是大多数输出​​操作的指南。我不知何故错过了一些东西。

【问题讨论】:

    标签: spark-streaming


    【解决方案1】:

    仅适用于窗口操作,否则 1 microbatch = 1 RDD。

    【讨论】:

    • 为什么在 Spark 文档中没有明确说明?我试图在 DSStream 的最后一个计算窗口上打印记录数。但我只是得到所有窗口的累积计数。如何只打印最后一个窗口的计数?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-10-25
    • 1970-01-01
    • 2014-11-04
    • 1970-01-01
    • 2021-10-11
    • 2016-09-05
    相关资源
    最近更新 更多