【发布时间】:2018-07-03 13:11:14
【问题描述】:
我是 Dask 库的新手。我想知道我们是否在两个系统上使用 dask 实现并行计算,那么我们应用计算的数据框是否存储在两个系统上?并行计算实际上是如何发生的,从文档中不清楚。
【问题讨论】:
标签: python-2.7 parallel-processing dask dask-distributed
我是 Dask 库的新手。我想知道我们是否在两个系统上使用 dask 实现并行计算,那么我们应用计算的数据框是否存储在两个系统上?并行计算实际上是如何发生的,从文档中不清楚。
【问题讨论】:
标签: python-2.7 parallel-processing dask dask-distributed
Dask 数据帧是分块的,因此通常您有一个由分布在集群中的较小数据帧组成的大数据帧。计算单独应用于每个块,并在需要时对结果进行混洗(例如 groupby、sum 和其他聚合任务)。
【讨论】: