如何快速索引 NetCDF 文件答案

【问题标题】：How to index a NetCDF file very quickly如何快速索引 NetCDF 文件
【发布时间】：2018-09-20 13:48:21
【问题描述】：

所以我试图索引一个 NetCDF 文件以获取某个网格单元中的流流量数据。我使用的 NetCDF 文件具有以下特点：

<class 'netCDF4._netCDF4.Dataset'>
root group (NETCDF3_CLASSIC data model, file format NETCDF3):
CDI: Climate Data Interface version 1.6.4 (http://code.zmaw.de/projects/cdi)
Conventions: CF-1.4
dimensions(sizes): lon(3600), lat(1800), time(31)
variables(dimensions): float64 lon(lon), float64 lat(lat), float64 time(time), float32 dis(time,lat,lon)

我有超过 35 年的这些数据，我正在尝试从单个网格中获取数据并创建一个时间序列来比较它以执行不同模型的预测。我目前用于从网格单元中提取数据的代码如下。

from netCDF4 import Dataset
import numpy as np

root_grp = Dataset(r'C:\Users\wadear\Desktop\ERAIland_daily_dis_198001.nc')
dis = root_grp.variables['dis']
lat = np.round(root_grp.variables['lat'][:], decimals=2).tolist()
lon = np.round(root_grp.variables['lon'][:], decimals=2).tolist()
time = root_grp.variables['time'].shape[0]

lat_index = lat.index(27.95)
lon_index = lon.index(83.55)

for i in range(time):
    print(dis[i][lat_index][lon_index])

现在这感觉真的很慢，而且在超过 35 年的时间跨度内完成这项工作需要很长时间，而且在制作多个不同的网格单元时，所花费的时间真的会增加。

有没有一种工具可以通过更快的 I/O 或索引来加速这个过程？

谢谢！

【问题讨论】：

你应该看看pandas
大概xarray更合适吧？

标签： python python-3.x indexing netcdf

【解决方案1】：

如果您随着时间的推移移除循环并一次访问整个时间序列，您应该会节省大量时间，即

dis[:,lat_index,lon_index]

如果您在时间维度上应用分块，则可以获得进一步的速度增益。查找nccopy 的文档。如果您需要重复访问时间序列，这是值得的。您可能希望在分块之前连接一些 NetCDF 文件，例如每月 -> 每年。这是使用ncrcat 实用程序完成的。

另见Chunking Data: Why it Matters。

【讨论】：

感谢您，一次访问整个时间序列可以节省大量时间。我还没有合并所有文件，但我想我会尽快这样做以提高效率。

【解决方案2】：

为什么不简单地先用CDO提取点，然后读入点数据：

cdo remapnn,lon=83.55/lat=27.95 input.nc point_output.nc

在 ubuntu 上如果你没有安装 CDO，你可以用它来安装

sudo apt-get install cdo

【讨论】：