【发布时间】:2014-07-12 05:11:55
【问题描述】:
我是 Python 新手,我不确定为什么当我使用 Numpy hstack 将两个 pandas 数据帧连接在一起时,内存使用量会急剧上升。 pandas.concat 的性能甚至更差——如果它能够完成的话——所以我正在使用 NumPy。
这两个数据帧比较大,但我有 20 GB 空闲 RAM(使用 11 GB,包括我要复制的两个数据帧)。
数据框 a 和 b 具有形状:
a.shape (66377, 30)
b.shape (66377, 11100)
当我使用np.hstack((a,b))时,免费的20GB已经完全用完了。
【问题讨论】:
-
您的数据的
dtype是什么?对于 float64,b应该是大约 5.5 GB,所以np.hstack的结果也应该只增加大约 5.5 GB。