【发布时间】:2016-01-16 13:31:45
【问题描述】:
我使用的是 Spark 1.2.0,并且没有显式配置 SPARK_LOCAL_DIRS,因此假设持久化的 RDD 会转到 /tmp。我正在尝试使用以下代码持久化和 RDD:
val inputRDD=sc.parallelize(List(1,2,3,3,4,5,6,7,8,9,19,22,21,25,34,56,4,32,56,70))
val result = inputRDD.map(x=>x*x)
println("Result count is: "+result.count())
result.persist(StorageLevel.DISK_ONLY)
println(result.collect().mkString(",,"))
println("Result count is: "+result.count())
我在我的 RDD 之前和之后强制一个 count() 来确定,但我仍然没有在 /tmp 中看到任何新文件或目录。当我运行我的代码时,唯一改变的目录是 hsperfdata.... 我知道它是用于 JVM 性能数据的。
我的持久化 RDD 去哪儿了?
【问题讨论】:
-
你的集群配置是什么?
-
我自己没有配置集群。使用 IntelliJ for Scala 并且刚刚将 Spark 库链接到我的项目。我还在学习所以还没有开始配置 spark-env.sh 文件。
-
开始阅读官方文档!我相信你缺少一些基本的概念理解。
标签: apache-spark rdd persist tmp