【发布时间】:2018-02-01 23:51:43
【问题描述】:
Spark(version=2.2.0) 没有DirectParquetOutputCommitter。作为替代方案,我可以使用
dataset
.option("mapreduce.fileoutputcommitter.algorithm.version", "2")//magic here
.parquet("s3a://...")
避免在S3 上创建_temporary 文件夹。
在我为我的数据集设置 partitionBy 之前一切正常
dataset
.partitionBy("a", "b")
.option("mapreduce.fileoutputcommitter.algorithm.version", "2")//magic stop working creating _temporary on S3
.parquet("s3a://...")
也尝试添加但没有用
spark.conf.set("mapreduce.fileoutputcommitter.algorithm.version", "2")
在 Spark 数据集中使用 partitionBy,它将创建 _temporary 并移动文件,这将成为一个非常缓慢的操作。
有任何替代或缺少的配置吗?
【问题讨论】:
标签: hadoop apache-spark amazon-s3 spark-dataframe apache-spark-dataset