Databricks 将 pandas 数据框保存为 CSV Azure Data Lake答案

【问题标题】：Databrics save pandas dataframe as CSV Azure Data LakeDatabricks 将 pandas 数据框保存为 CSV Azure Data Lake
【发布时间】：2021-06-22 11:13:28
【问题描述】：

我在 Azure Databrisk 中有 pandas 数据框。我需要将其保存为 Azure Data Lake gen2 上的一个 csv 文件。

我试过了：

df.write.mode("overwrite").format("com.databricks.spark.csv").option("header","true").csv(dstPath)

和

df.write.format("csv").mode("overwrite").save(dstPath)

但现在我有 10 个 csv 文件，但我需要一个文件并命名。

提前致谢。

【问题讨论】：

您可以在写入之前使用 .coalesce(1) 将所有数据拉入单个分区：df.coalesce(1).write... 请注意性能可能会受到严重影响。
@JoelCochran 它可以工作，但可以命名这个文件吗？如果 dstPath 看起来像“/mnt/path/file.csv”，则创建文件夹 file.csv 而不是 file。
不幸的是，我无能为力。还有很多其他线程讨论这个问题。祝你好运。

标签： python pandas databricks azure-databricks azure-data-lake

【解决方案1】：

我找到了解决办法：

df.to_csv('/dbfs/mnt/....../df.csv', sep=',', header=True, index=False)

【讨论】：

这行得通，我想知道为什么