【发布时间】:2020-12-31 10:07:46
【问题描述】:
我想从 Dask Dataframe 列创建一个列表/集。基本上,我想使用此列表通过将值与此数据框中的列匹配来过滤另一个数据框中的行。我曾尝试使用list(df[column]) 和set(df[column]),但它会花费大量时间并最终导致有关创建集群的错误,或者有时它会在达到内存限制时重新启动内核。
我可以使用dask.bag 或 Multiprocessing 创建列表吗?
【问题讨论】:
标签: python dask dask-dataframe