【发布时间】:2019-05-14 02:13:17
【问题描述】:
这个问题几乎是这里要求的复制品:Writing files to local system with Spark in Cluster mode
但我的查询有点曲折。上面的页面使用 spark 将文件从 HDFS 直接写入本地文件系统,但在将其转换为 RDD 之后。
我正在寻找仅适用于 Dataframe 的选项;将海量数据转换为 RDD 会影响资源利用率。
【问题讨论】:
-
写入HDFS后为什么不直接复制到本地文件系统?
标签: apache-spark rdd