【问题标题】:Relation between DISTSTYLE and Compression encoding in RedshiftRedshift中DISTSTYLE与压缩编码的关系
【发布时间】:2020-03-15 15:58:45
【问题描述】:

DISTSTYLE 和 Redshift 中的压缩编码之间有什么关系吗?每当我们使用压缩编码时,计算节点上的操作系统都会做额外的数据编码和解码工作;将 DISTSTYLE 设置为 ALL 你不认为每个节点都必须进行解码和编码工作吗?

非常感谢这里的任何概念性帮助。

【问题讨论】:

  • 这不是您需要担心的问题,但是...在大多数情况下,压缩实际上使访问速度更快,因为 SSD(或 HDD,取决于实例类型)速度可能是瓶颈。压缩技术确保编码/解码速度很快,并且可能有芯片上的硬件来完成其中的一些工作。

标签: amazon-web-services amazon-redshift


【解决方案1】:

分布样式决定了哪个节点/切片将存储数据。这与压缩类型没有关系或影响。它只是说在哪里存储数据。

然而,压缩与 排序键 密切相关,它决定了数据存储的顺序。一些压缩方法使用与先前值的“偏移量”,甚至存储重复值的数量,这可以显着压缩数据(例如“重复此值 1000 次”而不是存储 1000 个值)。 p>

Amazon Redshift 中的压缩有两个好处:

  • 存储空间更少(因此成本更低)
  • 每次磁盘访问都可以检索更多数据

any 数据库最慢的操作是磁盘访问。因此,磁盘访问的任何减少都会加快操作速度。与额外的磁盘读取操作所需的时间相比,解压缩数据所需的时间很短。

第二个最“昂贵”的操作是在节点之间发送数据。虽然网络流量比磁盘访问快,但最好避免。

当使用DISTSTYLE ALL时,它只是意味着数据在每个节点上都是可用的,这样就避免了跨网络传输数据的需要。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-11-30
    • 1970-01-01
    • 1970-01-01
    • 2014-06-01
    相关资源
    最近更新 更多