Redshift集群备份磁盘空间答案

【问题标题】：Redshift cluster backup disk spaceRedshift集群备份磁盘空间
【发布时间】：2017-02-14 14:42:14
【问题描述】：

官方文档说Redshift

维护至少三个数据副本（计算节点上的原始和副本以及 Amazon S3 中的备份）

因此，如果原始和副本都存在于同一个集群中，
这是否意味着我将只有一半大小的集群可供实际使用，因为另一半由副本占用？另外如何在集群中查看或确认此备份数据？

【问题讨论】：

【解决方案1】：

每个 Amazon Redshift 计算节点的存储量实际上是公开声明的两倍。 extra 用于备份其他节点。

您可以在这样的查询中看到这一点：

SELECT
  owner AS node,
  diskno,
  used,
  capacity,
  used/capacity::numeric * 100 as percent_used 
FROM stv_partitions 
ORDER BY 1, 2;

主存储是当host = node。对于其他值，它表示存储被用作备份。

【讨论】：

【解决方案2】：

我认为您误解了文档。

Amazon Redshift 复制您数据仓库中的所有数据加载时集群，并且还不断将您的数据备份到 S3。 Amazon Redshift 始终尝试维护至少三个副本您的数据（计算节点上的原始和副本以及在 Amazon S3 中备份）。

这实际上谈到了两种类型的备份：

计算节点上的原始和副本：这里谈到 Redshift 的内部备份机制。每个大小大于 1 个节点的集群由两种类型的节点组成：领导者和计算节点。这部分说 Redshift 在内部跨计算节点备份您的数据，因此如果一个计算节点出现故障，Redshift 不会丢失您的数据。换句话说，这种数据复制确保了持久性。

当然，额外的备份会占用集群中的空间，但我认为 Redshift 不允许修改此设置或访问备份数据。这对你来说都是透明的。
Amazon S3 中的备份：您可以访问这些备份，并且您可以使用现有备份来恢复数据以创建新集群。

更多信息请访问here。

【讨论】：