【发布时间】:2018-08-08 19:52:07
【问题描述】:
我有一个大文件。它有 40,955,924 行,大于 13GB。我需要能够根据单个字段将此文件分成单独的文件,如果我使用的是pd.DataFrame,我会使用这个:
for k, v in df.groupby(['id']):
v.to_csv(k, sep='\t', header=True, index=False)
但是,我收到错误 KeyError: 'Column not found: 0' Iterate over GroupBy object in dask 上的此特定错误的解决方案,但这需要使用 pandas 来存储数据帧的副本,而我不能这样做。任何有关拆分此文件的帮助将不胜感激。
【问题讨论】:
标签: python pandas pandas-groupby dask