【发布时间】:2020-10-28 14:49:20
【问题描述】:
我正在尝试使用两个水文数据集(每个 70 GB),其中包含 66 年的模拟每日流量和其他变量。数据集每天都有 netcdf 文件。
我需要同时打开两个数据集,如果我尝试使用xr.open_mfdataset 打开它们,加载需要超过 1 小时。
我也尝试使用 xr.open_mfdataset('filename', parallel = True) ,但所用时间几乎相同。
我还尝试将完整的数据集单独导出到两个大型 nc 文件中,以便我可以使用块大小参数再次打开它们。但操作持续运行了 2.5 多个小时,失败了。
那么,用多个文件实现 Dask xarray 的最佳方法是什么?(如何在多个文件的情况下定义块大小)。 我目前参考了this指南。
【问题讨论】:
标签: dask netcdf python-xarray