【问题标题】:Memory error in pandas熊猫中的内存错误
【发布时间】:2016-10-16 14:50:10
【问题描述】:

我有一个大小约为 800MB 的 csv 文件,我正在尝试通过 pandas 将其加载到数据帧中,但我不断收到内存错误。我需要加载它,以便将它加入另一个较小的数据框。

为什么即使我使用的是 64 位版本的 Windows 和 Python 3.4 64 位并且有超过 8GB 的​​ RAM 和充足的硬盘,我也会遇到内存错误?这是熊猫中的错误吗?我该如何解决这个内存问题?

【问题讨论】:

标签: pandas memory-management


【解决方案1】:

分块阅读 CSV 可能会有所帮助:

chunk_size = 10**5
df = pd.concat([chunk for chunk in pd.read_csv(filename, chunksize=chunk_size)],
               ignore_index=False)

【讨论】:

  • 这可能会有所帮助,但不会解决合并会杀死它的问题。 Pandas 的内存非常浪费
  • @nickpick,那么您的问题是什么 - 读取 800MB CSV 文件或将您的 DF 与另一个较小的文件合并?
  • 两者都导致问题。分块读取并将其连接起来完全不同,这一事实指出了 pandas 中的问题
  • @nickpick,您是否尝试分块读取您的 CSV 文件?如果是,完成后会显示 df.info() 什么?
猜你喜欢
  • 2014-06-05
  • 1970-01-01
  • 2016-08-20
  • 2020-05-06
  • 1970-01-01
  • 1970-01-01
  • 2018-09-06
  • 1970-01-01
  • 2017-05-24
相关资源
最近更新 更多