【问题标题】:Kafka Streams processor taking long time to consume changelog topics and initialize state storesKafka Streams 处理器花费很长时间来消耗变更日志主题和初始化状态存储
【发布时间】:2018-02-12 05:12:37
【问题描述】:

我正在开发一个流处理器,它具有 KStream-KStream 和 KStream-KTable 连接,并且还使用状态存储在连接时删除重复项。

我们一直在对此处理器执行负载测试,并且主题中的消息正在增长,这导致流处理器需要很长时间(约 1 小时)来消耗更改日志主题并在重启时初始化状态存储/重新部署发生。

我们为主题保留 7 天。

【问题讨论】:

  • 这更像是对您的观察的描述而不是一个问题?你想知道什么?你知道 StandbyTasks 吗?你用什么版本?请问一个问题:)

标签: apache-kafka kafka-consumer-api kafka-producer-api apache-kafka-streams apache-kafka-connect


【解决方案1】:

发生这种情况的原因有多种:

  1. 您的代理性能,即您的 KStream 应用可以从每个代理提取多少数据
  2. 您的 KStream 表现
  3. 您的序列化格式(如果您使用 Avro,数据大小会更小)

避免昂贵的重启的解决方案是拥有一个持久的本地状态存储。例如,您可以将默认状态存储文件夹(/tmp/kafka-streams)映射到某种持久卷

【讨论】:

    猜你喜欢
    • 2019-03-15
    • 1970-01-01
    • 2018-11-28
    • 2021-01-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-15
    • 1970-01-01
    相关资源
    最近更新 更多