【发布时间】:2019-06-07 12:14:52
【问题描述】:
我有 18 个 csv 文件,每个大约 1.6Gb,每个包含大约 1200 万行。每个文件代表一年的数据。我需要合并所有这些文件,提取特定地理位置的数据,然后分析时间序列。最好的方法是什么?
我已经厌倦了使用 pd.read_csv 但我达到了内存限制。我尝试包含一个块大小参数,但这给了我一个 TextFileReader 对象,我不知道如何将它们组合起来制作一个数据框。我也尝试过 pd.concat 但这也不起作用。
【问题讨论】:
-
需要和pandas一起吗?所有文件的 csv 数据格式是否相同?如果是,您可以考虑逐行读取/写入源/目标文件,避免内存问题。
-
您可以尝试使用dask,因为它更适合管理内存中如此大的文件。
-
@martyn 它不需要和熊猫一起,但作为一个初学者我不知道我还能用什么。