Pyspark 无法将 df 保存到 S3答案

【问题标题】：Pyspark failed to save df to S3Pyspark 无法将 df 保存到 S3
【发布时间】：2022-11-30 03:22:42
【问题描述】：

我想将约 1400 万行的 pyspark 数据帧保存到 6 个不同的文件中清理数据后：

clean_data.repartition(6).write.option("sep", "\t").option("header", "true").csv("s3_path", mode="overwrite")

我收到这个错误遇到错误：调用 o258.csv 时出错。：org.apache.spark.SparkException：作业中止。在 org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:231) 在 org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run（InsertIntoHadoopFsRelationCommand.scala:195）

【问题讨论】：

标签： python-3.x pandas dataframe pyspark

【解决方案1】：

我认为你使用了错误的方法。

clean_data.repartition(6).write.option("sep", "	").option("header", "true").csv("s3_path", mode="overwrite")

这会将数据写入单个文件。您可以使用以下方法写入多个文件。

clean_data.repartition(6).write.option("sep", "	").option("header", "true").partitionBy("column_name").csv("s3_path", mode="overwrite")

【讨论】：