【问题标题】:Databrics save pandas dataframe as CSV Azure Data LakeDatabricks 将 pandas 数据框保存为 CSV Azure Data Lake
【发布时间】:2021-06-22 11:13:28
【问题描述】:

我在 Azure Databrisk 中有 pandas 数据框。 我需要将其保存为 Azure Data Lake gen2 上的一个 csv 文件。

我试过了:

df.write.mode("overwrite").format("com.databricks.spark.csv").option("header","true").csv(dstPath)

df.write.format("csv").mode("overwrite").save(dstPath)

但现在我有 10 个 csv 文件,但我需要一个文件并命名。

提前致谢。

【问题讨论】:

  • 您可以在写入之前使用 .coalesce(1) 将所有数据拉入单个分区:df.coalesce(1).write... 请注意性能可能会受到严重影响。
  • @JoelCochran 它可以工作,但可以命名这个文件吗?如果 dstPath 看起来像“/mnt/path/file.csv”,则创建文件夹 file.csv 而不是 file。
  • 不幸的是,我无能为力。还有很多其他线程讨论这个问题。祝你好运。

标签: python pandas databricks azure-databricks azure-data-lake


【解决方案1】:

我找到了解决办法:

df.to_csv('/dbfs/mnt/....../df.csv', sep=',', header=True, index=False)

【讨论】:

  • 这行得通,我想知道为什么
猜你喜欢
  • 1970-01-01
  • 2019-09-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-05-16
  • 2020-01-13
  • 2021-09-15
相关资源
最近更新 更多