将 DataFrame 保存到文件时出现 Pandas 内存错误答案

【问题标题】：Pandas memory error when saving DataFrame to file将 DataFrame 保存到文件时出现 Pandas 内存错误
【发布时间】：2018-11-30 20:12:59
【问题描述】：

我终于设法在我学校的一台大机器（512G 内存）上加入了两个大 DataFrame。目前我们是两个人在使用同一台机器，另一个人使用了大约 120G 的内存，我调用垃圾收集器后，我们达到了 420G。

我想将 DataFrame 保存到内存中，这样我就可以轻松地重复使用它并将其移动到另一台机器上，我尝试将它导出到 parquet 文件，但出现内存错误...

那么，当内存已接近满时，我怎样才能设法将 Dataframe 转储到硬盘上以便重复使用它而不会遇到内存错误？

谢谢

【问题讨论】：

【解决方案1】：

有多种选择。您可以腌制数据框，也可以使用 hdf5 格式。这些将占用更少的内存。此外，当您下次加载它时，它会比其他格式更快。

【讨论】：

【解决方案2】：

我不确定它会如何处理这么大的数据集，但您可以使用 pandas 函数 to_csv 将文件保存到硬盘。

df.to_csv("filename.csv")

如果您将来要处理如此多的数据，我可能会建议一种像这里提到的那样的分块方法：https://stackoverflow.com/a/25962187/4852976

【讨论】：