【发布时间】:2021-10-14 07:43:29
【问题描述】:
问题:
为机器学习专家团队寻找存储和轻松获取大量天气数据的最佳解决方案。 最初,我从 cds.climate.copernicus.eu 以 netCDF 或 grib 格式获取数据。在 grib 或 netCDF 中会有一些在 10-20Tb 左右。
要求:
- ML 专家可以轻松查询给定时间范围内给定位置(点、多边形)的数据。
- 在合理的时间内返回结果。
想法:
- Postgres。我想也许 pg 会处理这么多的数据。但是我遇到的问题是,将数据加载到 postgres 将需要很长时间,另外它会占用比 10-20Tb 更多的空间(因为我计划将它存储在像你有两个表 Point 和 WeatherMeasurement 的格式一样的行中)好主意?有没有人使用过这种数据和 pg?
- 亚马逊红移。将此解决方案用于天气数据是否是一种好方法。如何将 netCDf 或 grib 加载到其中?我对此类解决方案的经验为零。
- 文件。只需将数据存储在 grib 或 netCDF 文件中。我会编写一些简化的 Python 接口来从这些文件中获取数据吗?但问题是查询是否足够快?有没有人经历过这些?
【问题讨论】:
-
我在这个问题上工作了很长时间,我决定对不同的问题使用不同的解决方案。可以使用 PostgreSQL 管理对数据的快速访问。但它不是存档数百或数千个预测的解决方案,因为数据要大 20-40%,而且将数据推送到 psql 需要大量时间。对于存档,我使用带有 lat/lon 批处理数据的 netcdf 文件系统。对于每个批次,我都有一个用于空间操作的 cKDTree 以提高访问速度。
标签: postgresql bigdata data-warehouse netcdf grib