【问题标题】:Parallel Processing with Dask Arrays使用 Dask 数组进行并行处理
【发布时间】:2018-07-09 20:14:03
【问题描述】:

我是 Dask 和并行处理的新手。我有几个 hdf5 文件,我希望通过一个产生数字输出的函数来运行每个文件。在函数中,hdf5 变成了一个 dask 数组。我想知道并行化代码的最快方法是什么,以便每个 hdf5 文件可以同时运行该函数。我应该将 hdf5 文件转换为函数之外的 dask 数组吗?

【问题讨论】:

    标签: parallel-processing dask


    【解决方案1】:

    这个问题有点抽象,但是你可以使用dask.dataframeread_hdf方法加载数据。

    然后使用您的函数对其进行所需的计算(使用applymap_partitionsapplymap)。 您可以稍后转换为数组。

    请注意,您可以使用以下语法一次读取多个 hdf 文件:

    dd.read_hdf('myfile.*.hdf5', '/x')

    更多信息:

    http://dask.pydata.org/en/latest/dataframe-api.html#dask.dataframe.read_hdf

    【讨论】:

    • "apply", "map_paritions" pr "applymap" 是否在 dask 下?
    • 在执行dd.read_hdf('myfile.*.hdf5', '/x') 之后,您会得到一个包含此方法的dask.dataframe 对象。
    • 我建议使用 dask 人员创建的学习笔记本:datafrarme_notebook。之后您可以使用数据框文档:dataframe API
    猜你喜欢
    • 2023-02-15
    • 2017-08-13
    • 1970-01-01
    • 2018-11-14
    • 2018-04-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-05-13
    相关资源
    最近更新 更多