Apache Spark-编写带有快速压缩错误的镶木地板

【问题标题】：Apache Spark- Writing parquet with snappy compression errorsApache Spark-编写带有快速压缩错误的镶木地板
【发布时间】：2021-09-24 05:15:34
【问题描述】：

**使用

正在执行：有和没有压缩键值（默认为 'snappy'）。

df.write.option("compression", "snappy").mode("overwrite").partitionBy(part_labels).parquet(output_path)

【问题讨论】：

【解决方案1】：

我认为pyspark API 与Java/Scala API 略有不同。试试这个：

df.write.parquet(output_path, mode="overwrite", partitionBy=part_labels, compression="snappy")

【讨论】：