【发布时间】:2019-12-29 20:48:22
【问题描述】:
AFAIK,对于 MPP 硬件上的关系数据库,性能的关键是正确的数据分布。虽然维度建模与查询灵活性有关,但您甚至不知道将来如何查询(打乱)数据。
例如,您拥有 MPP 数据仓库(Greenplum、Redshift、Synapse Analytics)。例如,在 1-2 年内,您预计您的事实表将增长到 100 亿行,并且您将拥有 15-30 个数以千万计的行的维度表。 数据应该如何分布在 DW 节点上?有什么常用的技术吗? 比如分片事实表和复制维度表。还是应该尽量减少 MPP DW 中的节点数量?
我可以带来具体的用例,但我认为问题源于我对维度建模如何与横向扩展配对的误解。
【问题讨论】:
-
您的用例是否与将所有维度数据移动到事实表中“兼容”?并且只有一张宽桌子?对于 redhsift 上的某些用例,这可能是最有效的方法。
-
@JonScott 我认为没有,因为 a) 维度的数量非常大,事实表的数量会显着增长 b) 我有 SCD 类型 2 c) 我将来会有多个事实表,并且想要有一致的尺寸,不知道如何用平板来实现这一点
-
理论上我这道题的练习还不够)
标签: amazon-redshift rdbms data-warehouse dimensional-modeling star-schema