【发布时间】:2015-08-17 17:52:15
【问题描述】:
我正在尝试将大量每日天气数据存储到 postgreSQL 数据库中。这看起来可能不是很多数据,但大约有 95,000 个站点的每日数据可以追溯到 100 年前。这可能意味着数百万条记录 (95,000 * 365 * 100) = 3,467,500,000。虽然这是一个高估,但对我来说,将所有日常数据存储在一个表中似乎仍然不切实际,其中车站 ID 作为外键映射到具有车站信息的另一个表。构造这些数据以按站查询数据系列的最佳方法是什么?我应该为每个站点创建一个表(将产生 95,000 个表)还是应该尝试更广泛的方法,例如为每个区域创建一个表?有什么优点和缺点?非常感谢任何帮助。
我的数据如下所示:
Stations
*ID
-longitude
-latitude
-elevation
-country
-state
-name
...
Weather
*Station ID
*Date
-Precipitation
-High Temp
-Low Temp
【问题讨论】:
-
为什么不使用表分区?数据库负责为您创建和维护 95000 个单独的表:postgresql.org/docs/9.1/static/ddl-partitioning.html
-
唉,在 PostgreSQL 中没有内置分区,您基本上必须自己滚动或使用 pg_partman 等外部工具。它也不能很好地扩展到数百或数千个表。我强烈怀疑最好的选择是用几张大桌子保持简单。
-
按日期分区似乎是最合乎逻辑的。 3400 万行/年;它可能是每年或每 5 年或 10 年。
-
@wildplasser 如果 OP 想按站查询数据,按日期分区有什么意义?
-
你可能有一点。但我怀疑 station_ids 不会均匀分布,所以分裂可能会变得丑陋。 (95K 分区不是一个选项;无论如何他都必须聚合)
标签: postgresql database-design relational-database noaa