【发布时间】:2019-04-27 02:29:24
【问题描述】:
是否可以将 spark rdd 文本文件另存为 gzip?
我可以以某种方式运行它:combPrdGrp3.repartition(10).saveAsTextFile("Combined") 并将其保存为 gzip 文件吗?
【问题讨论】:
-
我认为您需要传入自定义的
OutputFormat,并在其上设置setOutputCompressorClass。可能需要为此使用saveAsNewAPIHadoopFile。
标签: apache-spark