【发布时间】:2015-07-08 11:23:08
【问题描述】:
我是 Apache Spark 的新手,有一个关于 DataFrame 缓存的简单问题。
当我在python中使用df.cache()在内存中缓存一个DataFrame时,我发现程序终止后数据被删除了。
我能否将缓存的数据保存在内存中,以便下次运行时无需再次执行df.cache() 即可访问数据?
【问题讨论】:
-
您的意思是要写入磁盘吗?采用什么格式?
标签: mapreduce apache-spark pyspark