【发布时间】:2018-10-07 11:00:28
【问题描述】:
我有一个包含 500 万条记录的数据框。我正在尝试通过利用 python 中的 dask 数据框使用下面的代码来处理它
import dask.dataframe as dd
dask_df = dd.read_csv(fullPath)
............
for index , row in uniqueURLs.iterrows():
print(index);
results = dask_df[dask_df['URL'] == row['URL']]
count = results.size.compute();
但我注意到 dask 在过滤数据帧方面非常有效,但在 .compute() 中却没有。因此,如果我删除了计算结果大小的行,我的程序就会变得非常快。有人可以解释一下吗?我怎样才能让它更快?
【问题讨论】:
标签: python python-3.x performance dask dask-distributed