【问题标题】:RedShift Node FailoverRedShift 节点故障转移
【发布时间】:2013-12-30 14:41:41
【问题描述】:

我有一个 4 个节点的 RedShift 集群。

  1. 当其中一个节点宕机时,整个集群会变得不可用吗?
  2. 如果是 - 持续多长时间?
  3. 当集群恢复时 - 它是否恢复到与故障前完全相同的点,或者数据可能从几个小时前回滚到 S3 快照?
  4. 我如何模拟这种情况来自己检查这种情况?

非常感谢!

【问题讨论】:

    标签: amazon-web-services amazon-redshift failovercluster


    【解决方案1】:

    如果是单个节点故障 - 亚马逊将启动一个新节点并从其他节点流式传输数据(如果有的话,每个块都会写入两个不同的节点)。 在这种情况下,我们可以预期:

    1. 整个集群的停机时间,直到新节点启动 + 填充数据库信息。大约需要 3-4 分钟。
    2. 在这 3-4 分钟之后,该集群将返回到它关闭前的完全相同的位置。该集群将可用于读取和写入。
    3. 由于集群中的数据重新分布,速度会有所下降。

    如果多个节点发生故障,redshift 将从最新的 S3 备份中恢复。 S3 备份在以下情况下完成:

    1. 如果距离上次备份 8 小时
    2. 如果自上次备份以来 RedShift 填充了超过 5GB 的数据
    3. 手动
    4. 当您选择终止集群时,您可以选择最终快照

    【讨论】:

    • 如果您能添加对您找到此信息的位置的引用,那就太好了,谢谢。
    【解决方案2】:

    这只是发生在我的集群上 - 一个节点发生故障。花了将近 20 分钟才在仪表板中引起注意(“性能”标签中显示不健康,但“状态”标签中显示健康)。

    在初始故障 1 小时后,集群将其状态更改为“正在修改”,再过 1 小时后,一个新节点就位。

    “最近的事件”中有一条消息:

    Amazon Redshift 集群“xxx”上的一个节点在 2013 年 12 月 18 日 11:42 UTC 自动替换。集群现在运行正常。

    集群一直不可用 - 没有运行查询,也无法导入。

    数据与故障时刻完全相同。

    【讨论】:

    • 谢谢!还有两个问题:您使用 2TB 还是 16TB 节点?您的集群实际使用的数据量是多少?
    猜你喜欢
    • 1970-01-01
    • 2015-03-21
    • 1970-01-01
    • 2016-03-19
    • 1970-01-01
    • 2015-09-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多