RedShift 节点故障转移

【问题标题】：RedShift Node FailoverRedShift 节点故障转移
【发布时间】：2013-12-30 14:41:41
【问题描述】：

我有一个 4 个节点的 RedShift 集群。

当其中一个节点宕机时，整个集群会变得不可用吗？
如果是 - 持续多长时间？
当集群恢复时 - 它是否恢复到与故障前完全相同的点，或者数据可能从几个小时前回滚到 S3 快照？
我如何模拟这种情况来自己检查这种情况？

非常感谢！

【问题讨论】：

标签： amazon-web-services amazon-redshift failovercluster

【解决方案1】：

如果是单个节点故障 - 亚马逊将启动一个新节点并从其他节点流式传输数据（如果有的话，每个块都会写入两个不同的节点）。在这种情况下，我们可以预期：

整个集群的停机时间，直到新节点启动 + 填充数据库信息。大约需要 3-4 分钟。
在这 3-4 分钟之后，该集群将返回到它关闭前的完全相同的位置。该集群将可用于读取和写入。
由于集群中的数据重新分布，速度会有所下降。

如果多个节点发生故障，redshift 将从最新的 S3 备份中恢复。 S3 备份在以下情况下完成：

如果距离上次备份 8 小时
如果自上次备份以来 RedShift 填充了超过 5GB 的数据
手动
当您选择终止集群时，您可以选择最终快照

【讨论】：

如果您能添加对您找到此信息的位置的引用，那就太好了，谢谢。

【解决方案2】：

这只是发生在我的集群上 - 一个节点发生故障。花了将近 20 分钟才在仪表板中引起注意（“性能”标签中显示不健康，但“状态”标签中显示健康）。

在初始故障 1 小时后，集群将其状态更改为“正在修改”，再过 1 小时后，一个新节点就位。

“最近的事件”中有一条消息：

Amazon Redshift 集群“xxx”上的一个节点在 2013 年 12 月 18 日 11:42 UTC 自动替换。集群现在运行正常。

集群一直不可用 - 没有运行查询，也无法导入。

数据与故障时刻完全相同。

【讨论】：

谢谢！还有两个问题：您使用 2TB 还是 16TB 节点？您的集群实际使用的数据量是多少？

猜你喜欢

1970-01-01
2015-03-21
1970-01-01
2016-03-19
1970-01-01
2015-09-14
1970-01-01
1970-01-01
1970-01-01

相关资源

下载 2021-06-06
下载 2023-04-07
下载 2021-06-23

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode