【问题标题】:How is dask implemented on multiple systems?dask 如何在多个系统上实现?
【发布时间】:2018-07-03 13:11:14
【问题描述】:

我是 Dask 库的新手。我想知道我们是否在两个系统上使用 dask 实现并行计算,那么我们应用计算的数据框是否存储在两个系统上?并行计算实际上是如何发生的,从文档中不清楚。

【问题讨论】:

    标签: python-2.7 parallel-processing dask dask-distributed


    【解决方案1】:

    Dask 数据帧是分块的,因此通常您有一个由分布在集群中的较小数据帧组成的大数据帧。计算单独应用于每个块,并在需要时对结果进行混洗(例如 groupby、sum 和其他聚合任务)。

    【讨论】:

    • 这些块是隐式创建的还是我们给了一定的规范来创建块,如果是,如何?
    猜你喜欢
    • 2016-07-15
    • 1970-01-01
    • 2017-11-15
    • 2011-03-28
    • 1970-01-01
    • 2021-04-27
    • 2020-09-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多