【发布时间】:2016-06-27 14:37:15
【问题描述】:
看起来广播方法在我的集群中制作了 RDD 的分布式副本。另一方面,cache() 方法的执行只是将数据加载到内存中。
但是我不明白缓存的RDD在集群中是如何分布的。
您能告诉我在什么情况下我应该使用rdd.cache() 和rdd.broadcast() 方法吗?
【问题讨论】:
-
问题具有误导性。 Rdd 没有广播方法。应该是 SparkContext.broadcast(v) spark.apache.org/docs/2.2.0/…
标签: caching apache-spark