【发布时间】:2020-03-04 02:44:42
【问题描述】:
我使用 Dataproc 运行 Pyspark 脚本,该脚本将数据帧写入谷歌云存储桶中的文本文件。当我使用大数据运行脚本时,我的输出文件夹中会自动出现大量文本文件,但我只需要一个大文件。
我在这里阅读Spark saveAsTextFile() writes to multiple files instead of one 我可以在 .write() 之前使用 .repartition(1) 来获取一个文件,但我希望它运行得快(当然)所以我不想回到之前的一个分区执行 .write()。
df_plain = df.select('id', 'string_field1').write.mode('append').partitionBy('id').text('gs://evatest/output', compression="gzip")
【问题讨论】:
标签: python pyspark google-cloud-storage google-cloud-dataproc