【问题标题】:Apache Flink: How to store intermedia data in streaming applicationApache Flink:如何在流式应用程序中存储中间数据
【发布时间】:2018-04-27 02:20:31
【问题描述】:

我正在使用 Flink 的 DataStream API 实现 MisraGries 算法。它保留k 计数器,以递增或递减的方式记录数据摘要。

在使用 DataStream API 实现算法时,存储此类计数器的最佳方法是什么?现在我刚刚在运算符中声明了一个HashMap 变量。这是正确的方法还是我需要使用状态等其他功能?

【问题讨论】:

    标签: bigdata apache-flink flink-streaming


    【解决方案1】:

    您应该将计数器存储在 Flink 的托管状态,即 keyed stateoperator stateenable checkpointing。否则,一旦发生故障,信息将丢失。

    如果正确使用状态并启用检查点,Flink 会定期检查应用程序的状态。如果发生故障,作业将重新启动并将其状态重置为最新的检查点。

    【讨论】:

      猜你喜欢
      • 2018-06-01
      • 1970-01-01
      • 2016-12-19
      • 2014-10-26
      • 2016-10-28
      • 1970-01-01
      • 2016-10-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多