【问题标题】:Azure Data Explorer: How to backup data from table with stream ingestionAzure 数据资源管理器:如何使用流引入从表中备份数据
【发布时间】:2021-10-13 20:17:01
【问题描述】:

我们正在使用来自事件中心源的流摄取将数据摄取到 ADX 表中。

为了计划备份/灾难恢复性,the documentation 建议配置连续导出以从本地中断中恢复并提供将数据恢复到另一个集群的可能性。

阅读我在"limitations" 部分看到的连续数据导出文档,配置为流式摄取的表不支持连续导出。

现在我有点卡住了。备份这些表的推荐方法是什么?

【问题讨论】:

    标签: azure backup restore azure-data-explorer disaster-recovery


    【解决方案1】:

    对流式摄取表上定义的连续导出的支持仍在进行中,应该在 2021 年内完成。

    但是,请注意,对于灾难恢复方案,这是最大的努力、最低的恢复能力和最长的恢复时间(RPO 和 RTO),因此虽然它提供最低的成本,但您应该小心为 DR 选择此选项。

    【讨论】:

    • 感谢您的评论。 AFAIK ADX 带有 3x 本地冗余开箱即用。如果发生所有 3 个副本都受到影响的本地中断,我们仍然可以通过持续导出到 GRS/ZRS 存储来保护这些数据。因此,由于传入的流数据由事件中心备份,我们可以保证至少没有数据丢失,尽管我们必须提供一个新的集群并在灾难情况下摄取历史数据,从而导致更长的 RTO。为了获得更高的可用性,唯一的选择是提供我们一直付费的冗余集群。所以我认为我们必须平衡潜在风险和成本。
    • 我认为的主要问题是您的灾难恢复需求是什么?如果您需要在中断发生后的短时间内允许对最新数据运行相同的查询,那么使用连续导出将使其(非常具有挑战性)具有挑战性,如果您只是担心丢失数据,那么 ADX 已经使用正如您在上面正确编写的那样,Azure 存储作为持久层。似乎对于大多数使用计划而言,主动-热设置提供了最佳解决方案成本-功能折衷。整个讨论无论如何都不会改变答案-:)
    • 在活动/热配置的文档中,我读到“区域 A 中的主集群将所有数据连续导出到存储帐户。辅助副本可以使用外部表访问数据。 " -> 这是否意味着当副本上线时,它将是只读的,直到发生中断,直到主集群再次可用?
    • 我在文档中没有看到这一点,并且 Active/hot 不涉及任何连续导出,其想法是有两个集群,一个是活动的(它进行摄取和回答查询)一个是热的,这意味着它只进行摄取,当您需要恢复时,您只需增加缓存策略,通过添加更多节点来扩展集群并将查询路由到它。
    • 这是我引用的文档的链接:docs.microsoft.com/en-us/azure/data-explorer/… 在“创建一个主动-热备用配置”部分下。
    【解决方案2】:

    如果您的数据来自事件中心并且您希望将其全部备份(有效地将其摄取到两个集群),还有另一种选择:在您的 EH 上创建另一个消费者组并设置从该附加集群读取的辅助集群消费群体。

    【讨论】:

    • 我们实际上希望避免一直启动并运行第二个集群以节省成本并在需要时使备用集群在线。
    • 但是您正在寻找什么样的备份?只需为您的 ADX 集群选择 Zone Resiliency 并让底层存储 ZRS 完成工作。
    • 如果发生(计算)集群故障,如果主集群的停机时间较长,我想启动一个辅助集群以重新启动和运行。 AFAIK 我无法配置 2 个集群使用相同的底层存储帐户(这将省略连续导出的需要)。据我所知,活动/热备用配置实现了我想要的,但我不知道如何在故障转移后处理对辅助存储帐户的写入(请参阅上面的问题)。
    • 并非如此。你可以让一个集群成为另一个集群的追随者,但是一旦领导者下线,追随者将停止接收任何新数据。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-21
    • 2019-07-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-20
    相关资源
    最近更新 更多