【发布时间】:2015-10-04 15:04:31
【问题描述】:
我编写了一个程序,将 RDD 保存在 spark 流中,这样一旦新的 RDD 来自 spark 流,我就可以将以前缓存的 RDD 与新的 RDD 连接起来。有没有办法为这个持久的 RDD 设置生存时间,这样我就可以确保我没有加入我在上一个流循环中已经获得的 RDD。
如果有人能够解释并指出 RDD 中的持久性是如何工作的,那就太好了,比如当我从 spark 上下文中获取持久性 RDD 时,我如何在我当前的 RDD 中加入这些 RDD。
【问题讨论】:
标签: apache-spark persistence spark-streaming rdd