有没有办法重新分区 Kafka 流中的输入主题？答案

【问题标题】：Is there a way to repartition the input topic in Kafka streams?有没有办法重新分区 Kafka 流中的输入主题？
【发布时间】：2018-03-30 17:44:10
【问题描述】：

我有一个以 byte[] 为键的主题，我想对其进行重新分区并通过消息正文字段中的另一个键来处理该主题。

我发现有KGroupedStream 和groupby 函数。但它要求聚合函数转换为 KTable/KStream。我不需要聚合。我只想重新分区并处理输出。

【问题讨论】：

标签： apache-kafka apache-kafka-streams

【解决方案1】：

（Kafka Streams 2.5.x 或更早版本）

不确定这是否完全符合 kosher 规定，但它可以工作，并且会自动创建重新分区主题，并使用正确数量的分区 wrtstream。

KTable emptyTable = someTable.filter((k, v) -> false);
KStream stream = ...
KStream repartionedStream = stream.selectKey(...)
                            .leftJoin(emptyTable, (v, Null) -> v, ...);

编辑

2020 年 8 月，当 Kafka Streams 2.6.0 被引入并且 KStream.repartition() 出现时，这种方法显然变成了一个复杂的可憎之物，值得大量反对和鞭挞。

所以对于流版本 2.6.x+ 你必须使用

KStream stream = ...
KStream repartionedStream = stream.selectKey(...)
                                  .repartition();

【讨论】：

这个解决方案看起来相当复杂......为什么要使用“dummy left-join”？您可以只使用repartition()...（或在订单版本中使用through()；through() 需要您手动创建使用的主题...）
@MatthiasJ.Sax 我认为两行代码不会进入“复杂”领域。这是2019年我给出答案时的情况。对于您的方法，我必须及时赶到 2020 年末，届时将使用 KStream 中的 repartition() 发布流 2.6。
很公平......我对“复杂”的评论并不是特别是关于“两行代码”，而是不清楚代码的作用，您需要添加一个表格，是什么也使处理更加昂贵......总的来说，这是一个非常复杂的解决方法。即使repartition() 是后来才添加的，也应该使用through()。
through() 没有做 OP 需要做的事情，这就是我的回答被接受的原因。它不会自动创建具有正确分区数的主题。顺便说一句，它也没有为我做这件事，因此解决方案可能很奇怪。除非在 v2.6 之前有类似的解决方案，否则关于复杂性的整个论点似乎并不相关。不使用through()。
这个问题没有说任何关于主题自动创建...

【解决方案2】：

是的，你可以。您设置一个新键，然后通过另一个主题管道传输数据。

// repartition() will create the required topic automatically for your,
// with the same number of partitions as your input topic;
//
// it's also possible to set the number of partitions explicitly to scale in/out
// via `repartitioned(Repartitioned.numberOfPartitions(...))`
KStream stream = ...
KStream repartionedStream = stream.selectKey(...)
                                  .repartition();

// older versions:
//
// using `through()` you need to create the use topic manually,
// before you start your application
KStream stream = ...
KStream repartionedStream = stream.selectKey(...)
                                  .through("topic-name");

请注意，您需要先创建您在through() 中使用的主题，然后才能使用所需的分区数启动应用程序。

【讨论】：

如果我不使用 through()，我假设一个主题是自动创建的，对吧？
视情况而定。自动重新分区仅“按需”发生，因此，只有在 .selectKey() 之后存在像 groupBy() 或 join() 这样的键相关操作时。
我不需要具体化我的新主题。我只想生成输出，这是对基于新分区的消息的外部服务的 RPC 调用。据我了解，我不需要创建新主题或依赖中间主题，所以不需要调用，对吧？
不完全确定我是否理解。如果您想从您的 Streams 应用程序中执行 RPC，您需要调用 through() 并在之后执行 RPC。