【发布时间】:2018-11-30 20:12:59
【问题描述】:
我终于设法在我学校的一台大机器(512G 内存)上加入了两个大 DataFrame。目前我们是两个人在使用同一台机器,另一个人使用了大约 120G 的内存,我调用垃圾收集器后,我们达到了 420G。
我想将 DataFrame 保存到内存中,这样我就可以轻松地重复使用它并将其移动到另一台机器上,我尝试将它导出到 parquet 文件,但出现内存错误...
那么,当内存已接近满时,我怎样才能设法将 Dataframe 转储到硬盘上以便重复使用它而不会遇到内存错误?
谢谢
【问题讨论】:
-
您可以使用
to_csv中的chunksize参数或类似方法。设置较低的chunksize可能会使用更少的内存。