【问题标题】:how long can RDDs be persisted in sparkRDD 可以在 spark 中保留多长时间
【发布时间】:2015-10-04 15:04:31
【问题描述】:

我编写了一个程序,将 RDD 保存在 spark 流中,这样一旦新的 RDD 来自 spark 流,我就可以将以前缓存的 RDD 与新的 RDD 连接起来。有没有办法为这个持久的 RDD 设置生存时间,这样我就可以确保我没有加入我在上一个流循环中已经获得的 RDD。

如果有人能够解释并指出 RDD 中的持久性是如何工作的,那就太好了,比如当我从 spark 上下文中获取持久性 RDD 时,我如何在我当前的 RDD 中加入这些 RDD。

【问题讨论】:

    标签: apache-spark persistence spark-streaming rdd


    【解决方案1】:

    在 Spark Streaming 中,由 Streaming 进程生成的 RDD 的生存时间由 spark.cleaner.ttl 配置控制。它默认为无限,但要使其生效,我们还需要将 spark.streaming.unpersist 设置为 false,以便 Spark 流式传输“让”生成的 RDD。

    请注意,不可能有 per-RDD ttl。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-10-31
      • 2012-10-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-09-08
      相关资源
      最近更新 更多