【问题标题】:Kafka producer quota and timeout exceptionsKafka生产者配额和超时异常
【发布时间】:2023-03-03 09:03:26
【问题描述】:

我正在尝试提出一种配置,该配置将根据生产者的平均字节率强制设置生产者配额。 我用 3 节点集群进行了测试。然而,该主题是使用 1 个分区和 1 个复制因子创建的,因此只能为 1 个代理(领导代理)测量 producer_byte_rate。

我在客户端 ID test_producer_quota 上将 producer_byte_rate 设置为 20480。

我使用 kafka-producer-perf-test 来测试吞吐量和节流阀。

kafka-producer-perf-test --producer-props bootstrap.servers=SSL://kafka-broker1:6667 \
client.id=test_producer_quota \
--topic quota_test \
--producer.config /myfolder/client.properties \
--record.size 2048  --num-records 4000 --throughput -1

我希望生产者客户端了解限制并最终消除发送到代理的请求。相反,我注意到在超过 30 秒的时间内交替出现 98 记录/秒和 21 记录/秒的吞吐量。在这段时间里,平均延迟缓慢地不断增加,最后当它达到 120000 毫秒时,我开始看到如下超时异常

org.apache.kafka.common.errors.TimeoutException : Expiring 7 records for quota_test-0: 120000 ms has been given since batch creation.

什么可能导致这个问题?

  1. 生产者在延迟达到 120 秒时超时(delivery.timeout.ms 的默认值)
  2. 为什么生产者不了解油门和配额并减慢或后退 还有哪些其他生产者配置可以帮助缓解这个超时问题?

【问题讨论】:

  • 这能回答你的问题吗? Kafka Producer TimeOutException
  • kafka-producer-perf-test 通常用于对 Kafka 基础架构和配置进行压力测试。从这个意义上说,它是一个“愚蠢”的制作人,不应该学习或尊重经纪人的背压。

标签: apache-kafka kafka-producer-api


【解决方案1】:

(2048 * 4000) / 20480 = 400 (sec)

这意味着,如果您的生产者尝试全速发送 4000 条记录(这是因为您将吞吐量设置为 -1),那么它可能会对它们进行批处理并将它们放入队列中......也许一个或两秒(取决于您的 CPU)。

然后,由于您的配额设置 (20480),您可以确定代理不会在至少 399 或 398 秒之前“完成”这 4000 条记录的处理。

The broker does not return an error when a client exceeds its quota, but instead attempts to slow the client down. The broker computes the amount of delay needed to bring a client under its quota and delays the response for that amount of time. 

你的request.timeout.ms 被设置为120 seconds,然后你就会有这个 timeoutException。

【讨论】:

  • 这不是我看到的行为。生产者能够交替发送 98 和 21 条记录的批次,并且只有在完成 3600 后才会出现错误。请求超时的默认值是 30 秒,2 分钟后发生错误,这是交付超时的默认值。虽然我同意 perf 生产者可能没有实施背压,但生产者客户端内部知道代理通道被静音,所以我的问题是为什么没有内部背压机制。是否有理由需要上游处理?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2020-08-22
  • 1970-01-01
  • 2019-04-12
  • 1970-01-01
  • 2017-07-21
  • 1970-01-01
  • 2017-05-27
相关资源
最近更新 更多