【发布时间】:2019-02-22 12:38:02
【问题描述】:
我正在使用 Python 处理一个相对较大的 CSV 文件。我正在使用 pandas read_csv 函数来导入它。数据位于工作共享文件夹中,大小约为 25 GB。
我有 2x8 GB RAM 和 Intel Core i5 处理器并使用 juypter 笔记本电脑。加载文件时,RAM 监控上升到 100%。它保持在 100% 或 96% 几分钟,然后我的计算机时钟停止,我的屏幕被冻结。即使等了 2 个小时,我的电脑也无法使用了,所以我必须重新启动。
我的问题是: 我需要拆分数据吗?这有帮助吗?还是我的笔记本电脑的一般性能问题?
这是我第一次使用如此“大”的数据集(我仍然认为 25 GB 不算太多。)
【问题讨论】:
-
这种情况发生了多少次?
-
你正在达到你的物理内存限制,所以你正在观察你的交换文件被颠簸,如果数据不适合内存,你需要使用不同的方法,例如使用
pytables和hdfs -
@Denziloe 始终使用此文件
-
你可能想看看 dask dask.pydata.org/en/latest/docs.html。我没有尝试过,但看起来很有希望。
-
现在我正在尝试:
tp = pd.read_csv('RawdataEurope.csv', iterator=True, chunksize=1000)和df = concat(tp, ignore_index=True)