【问题标题】:how to store apache flink checkpoint in nfs filesystem如何在 nfs 文件系统中存储 apache flink 检查点
【发布时间】:2020-04-09 05:21:06
【问题描述】:

我正在使用 Apache Flink 1.10.0 从 RabbitMQ 提取数据流,现在我在内存中使用默认检查点配置。现在要在任务管理器重新启动时使其恢复,我需要将状态和检查点存储在文件系统中,所有演示都应该使用“hdfs://namenode:4000/....”,但现在我没有 HDFS 集群,我的 Apache Flink 在 kubernetes 集群中运行,如何将我的检查点存储在文件系统中?

我阅读了 Apache Flink 的docs 并告诉我它支持:

  • 可以在一定时间内重放记录的持久(或持久)数据源。此类来源的示例包括持久消息队列(例如 Apache Kafka、RabbitMQ、Amazon Kinesis、Google PubSub)或文件系统(例如 HDFS、S3、GFS、NFS、Ceph ……)。

  • 状态的持久存储,通常是分布式文件系统(例如 HDFS、S3、GFS、NFS、Ceph 等)

如何配置 flink 以使用 NFS 存储检查点和状态?我从 internete 搜索并没有找到有关此解决方案的故事。

【问题讨论】:

    标签: hadoop apache-flink


    【解决方案1】:

    要通过 Flink 使用 NFS 进行检查点,您应该使用可从集群中的每个节点访问的 file: URI 指定 checkpoint directory(作业管理器和所有任务管理器需要使用相同的 URI 进行访问)。

    因此,例如,您可以在每台机器上将 NFS 卷挂载到 /data/flink/checkpoints,然后指定

    state.checkpoints.dir: file:///data/flink/checkpoints
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-09-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多