【问题标题】:Pyspark failed to save df to S3Pyspark 无法将 df 保存到 S3
【发布时间】:2022-11-30 03:22:42
【问题描述】:

我想将约 1400 万行的 pyspark 数据帧保存到 6 个不同的文件中 清理数据后:

clean_data.repartition(6).write.option("sep", "\t").option("header", "true").csv("s3_path", mode="overwrite")

我收到这个错误遇到错误: 调用 o258.csv 时出错。 :org.apache.spark.SparkException:作业中止。 在 org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:231) 在 org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:195)

【问题讨论】:

    标签: python-3.x pandas dataframe pyspark


    【解决方案1】:

    我认为你使用了错误的方法。

    clean_data.repartition(6).write.option("sep", "	").option("header", "true").csv("s3_path", mode="overwrite")
    

    这会将数据写入单个文件。 您可以使用以下方法写入多个文件。

    clean_data.repartition(6).write.option("sep", "	").option("header", "true").partitionBy("column_name").csv("s3_path", mode="overwrite")
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-02-02
      • 2021-07-23
      • 2015-08-05
      • 2023-02-22
      • 2021-08-22
      • 2023-02-25
      • 2021-11-12
      相关资源
      最近更新 更多