【发布时间】:2017-07-26 05:53:32
【问题描述】:
生产集群详情:
- 节点类型 dc1.8xlarge
- 节点 25
- 每个节点 2.56TB SSD 存储
测试集群详情:
- 节点类型 ds2.xlarge
- 节点 6
- 每个节点 2TB 硬盘存储
当具有完全相同的 DDL 和编码的同一张表被卸载并从生产集群复制到测试集群时,它的磁盘占用量呈指数级减少。这已经使用具有不同分布样式和排序键模式的多个表进行了测试。
示例:
Table A (No sort key, DISTSYLE EVEN) - Size in production: 60GB; Size in test: 0.6 GB
Table B (Sort key, DISTSTYLE KEY) - Size in production: 96GB 100% sorted; Size in test: 1.4 GB 100% sorted
有什么想法会导致这种差异吗?我已经阅读了大多数 redshift 论坛,但无法找到此问题的原因。我正在使用管理视图 v_space_used_per_tbl(由 AWS 提供)来计算表的大小。
【问题讨论】:
-
拜托not crosspost(这个问题更适合dba.stackexchange.com)
标签: amazon-redshift