【发布时间】:2021-06-22 11:13:28
【问题描述】:
我在 Azure Databrisk 中有 pandas 数据框。 我需要将其保存为 Azure Data Lake gen2 上的一个 csv 文件。
我试过了:
df.write.mode("overwrite").format("com.databricks.spark.csv").option("header","true").csv(dstPath)
和
df.write.format("csv").mode("overwrite").save(dstPath)
但现在我有 10 个 csv 文件,但我需要一个文件并命名。
提前致谢。
【问题讨论】:
-
您可以在写入之前使用 .coalesce(1) 将所有数据拉入单个分区:df.coalesce(1).write... 请注意性能可能会受到严重影响。
-
@JoelCochran 它可以工作,但可以命名这个文件吗?如果 dstPath 看起来像“/mnt/path/file.csv”,则创建文件夹 file.csv 而不是 file。
-
不幸的是,我无能为力。还有很多其他线程讨论这个问题。祝你好运。
标签: python pandas databricks azure-databricks azure-data-lake