【问题标题】:Dask +Xarray implementation to handle multi year NetCDF DatasetDask +Xarray 实现来处理多年的 NetCDF 数据集
【发布时间】:2020-10-28 14:49:20
【问题描述】:

我正在尝试使用两个水文数据集(每个 70 GB),其中包含 66 年的模拟每日流量和其他变量。数据集每天都有 netcdf 文件。

我需要同时打开两个数据集,如果我尝试使用xr.open_mfdataset 打开它们,加载需要超过 1 小时。

我也尝试使用 xr.open_mfdataset('filename', parallel = True) ,但所用时间几乎相同。

我还尝试将完整的数据集单独导出到两个大型 nc 文件中,以便我可以使用块大小参数再次打开它们。但操作持续运行了 2.5 多个小时,失败了。

那么,用多个文件实现 Dask xarray 的最佳方法是什么?(如何在多个文件的情况下定义块大小)。 我目前参考了this指南。

【问题讨论】:

    标签: dask netcdf python-xarray


    【解决方案1】:

    我通过在 PBS 集群上实施 Dask Client 找到了解决方案。我跟着this 指导。

    【讨论】:

      猜你喜欢
      • 2021-03-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-08-19
      • 2020-11-05
      • 2020-03-02
      • 2023-02-15
      • 1970-01-01
      相关资源
      最近更新 更多