【发布时间】:2018-12-28 22:16:42
【问题描述】:
我们正在使用 Prometheus 和 Grafana 来监控我们的 Kafka 集群。
在我们的应用程序中,我们使用 Kafka 流,Kafka 流有可能由于异常而停止。我们正在记录事件setUnCaughtExceptionHandler,但是,当流停止时,我们还需要某种警报。
我们目前拥有的是,jmx_exporter 作为代理运行并通过端点公开 Kafka 指标,prometheus 从端点获取指标。
我们没有看到任何衡量每个主题的活跃消费者数量的指标。我们错过了什么吗?有关如何获取活跃消费者数量并在消费者停止时发送警报的任何建议。
【问题讨论】:
-
您的消费者是否作为操作系统服务运行?
-
没有。其带有 kafka 流的 Java 应用程序
-
您可以将 Java 应用程序作为 systemd 服务运行,可以轻松监控甚至在失败时重新启动。
-
我的服务不仅有流,还处理其他东西。如果出现异常,只有流停止,其他继续运行
-
也许添加自定义指标会有所帮助? docs.confluent.io/current/streams/…
标签: java apache-kafka grafana apache-kafka-streams prometheus