【问题标题】:spark RDD saveAsTextFile gzip火花 RDD saveAsTextFile gzip
【发布时间】:2019-04-27 02:29:24
【问题描述】:

是否可以将 spark rdd 文本文件另存为 gzip?

我可以以某种方式运行它:combPrdGrp3.repartition(10).saveAsTextFile("Combined") 并将其保存为 gzip 文件吗?

【问题讨论】:

  • 我认为您需要传入自定义的OutputFormat,并在其上设置setOutputCompressorClass。可能需要为此使用saveAsNewAPIHadoopFile

标签: apache-spark


【解决方案1】:

使用

import org.apache.hadoop.io.compress.GzipCodec
combPrdGrp3.repartition(10).saveAsTextFile("Combined", classOf[GzipCodec])

sc.hadoopConfiguration.setClass(FileOutputFormat.COMPRESS_CODEC, classOf[GzipCodec], classOf[CompressionCodec])

【讨论】:

  • 据我所知默认不支持lzo,对吧?
猜你喜欢
  • 1970-01-01
  • 2017-02-28
  • 2014-08-30
  • 1970-01-01
  • 1970-01-01
  • 2018-04-26
  • 2021-01-20
  • 2015-07-10
  • 2023-03-13
相关资源
最近更新 更多