【发布时间】:2017-02-14 14:42:14
【问题描述】:
官方文档说Redshift
维护至少三个数据副本(计算节点上的原始和副本以及 Amazon S3 中的备份)
因此,如果原始和副本都存在于同一个集群中,
这是否意味着我将只有一半大小的集群可供实际使用,因为另一半由副本占用?
另外如何在集群中查看或确认此备份数据?
【问题讨论】:
标签: amazon-web-services amazon-redshift
官方文档说Redshift
维护至少三个数据副本(计算节点上的原始和副本以及 Amazon S3 中的备份)
因此,如果原始和副本都存在于同一个集群中,
这是否意味着我将只有一半大小的集群可供实际使用,因为另一半由副本占用?
另外如何在集群中查看或确认此备份数据?
【问题讨论】:
标签: amazon-web-services amazon-redshift
每个 Amazon Redshift 计算节点的存储量实际上是公开声明的两倍。 extra 用于备份其他节点。
您可以在这样的查询中看到这一点:
SELECT
owner AS node,
diskno,
used,
capacity,
used/capacity::numeric * 100 as percent_used
FROM stv_partitions
ORDER BY 1, 2;
主存储是当host = node。对于其他值,它表示存储被用作备份。
【讨论】:
我认为您误解了文档。
Amazon Redshift 复制您数据仓库中的所有数据 加载时集群,并且还不断将您的数据备份到 S3。 Amazon Redshift 始终尝试维护至少三个副本 您的数据(计算节点上的原始和副本以及 在 Amazon S3 中备份)。
这实际上谈到了两种类型的备份:
计算节点上的原始和副本:这里谈到 Redshift 的内部备份机制。每个大小大于 1 个节点的集群由两种类型的节点组成:领导者和计算节点。这部分说 Redshift 在内部跨计算节点备份您的数据,因此如果一个计算节点出现故障,Redshift 不会丢失您的数据。换句话说,这种数据复制确保了持久性。
当然,额外的备份会占用集群中的空间,但我认为 Redshift 不允许修改此设置或访问备份数据。这对你来说都是透明的。
Amazon S3 中的备份:您可以访问这些备份,并且您可以使用现有备份来恢复数据以创建新集群。
更多信息请访问here。
【讨论】: