RDD 可以在 spark 中保留多长时间答案

【问题标题】：how long can RDDs be persisted in sparkRDD 可以在 spark 中保留多长时间
【发布时间】：2015-10-04 15:04:31
【问题描述】：

我编写了一个程序，将 RDD 保存在 spark 流中，这样一旦新的 RDD 来自 spark 流，我就可以将以前缓存的 RDD 与新的 RDD 连接起来。有没有办法为这个持久的 RDD 设置生存时间，这样我就可以确保我没有加入我在上一个流循环中已经获得的 RDD。

如果有人能够解释并指出 RDD 中的持久性是如何工作的，那就太好了，比如当我从 spark 上下文中获取持久性 RDD 时，我如何在我当前的 RDD 中加入这些 RDD。

【问题讨论】：

标签： apache-spark persistence spark-streaming rdd

【解决方案1】：

在 Spark Streaming 中，由 Streaming 进程生成的 RDD 的生存时间由 spark.cleaner.ttl 配置控制。它默认为无限，但要使其生效，我们还需要将 spark.streaming.unpersist 设置为 false，以便 Spark 流式传输“让”生成的 RDD。

请注意，不可能有 per-RDD ttl。

【讨论】：