【发布时间】:2023-01-20 16:00:27
【问题描述】:
我正在使用带有已安装 blob 存储的 Databricks。当我执行创建大型 pandas DataFrame 的 Python notebook 并尝试将它们存储为 .parquet 文件时,它们显示为 0 字节。
保存发生在我导入的子模块中,而不是在主笔记本本身中。奇怪的是,将数据帧保存为镶木地板文件总是将其存储为空文件,即 0 字节。但是,如果我尝试在主笔记本本身中将数据框另存为 .parquet 文件,它就可以工作。
我已经安装了 pyarrow 和 pandas 并尝试按如下方式保存数据框:
df.to_parquet("blob storage location.parquet", index=False, engine="pyarrow")
在本地一切正常,但在 Databricks 中运行它会导致问题。我首先尝试将我的数据帧保存为 HDF5 文件,但保存过程似乎在 Databricks 中不起作用。然后我切换到 Parquet,但我遇到了下面提到的问题。
有没有人有解决方案或解释为什么会这样?
【问题讨论】:
标签: python azure blob databricks parquet