【问题标题】:Join on Multiple Kafka Topics加入多个 Kafka 主题
【发布时间】:2020-12-08 21:46:19
【问题描述】:

我们有一个 Flink 应用程序,它通过键对 2 个 Kafka 主题执行基于窗口的连接。连接配置如下:

window-type: TumblingWindow
window-duration: 10s
allowed-lateness: 10s

所以,当我们将流设置为从earliest 偏移量开始时,就会出现问题。似乎窗口边界仍然基于系统时钟设置,从而拒绝最早的事件,因为它们依赖于 Kafka retention-period 可能与 14 days 一样古老。

有没有建议的方法来处理这个问题或者我的理解有差距。

【问题讨论】:

    标签: apache-kafka apache-flink


    【解决方案1】:

    我假设您已将环境配置为使用 EventTime,并且您正在使用从 Kafka 读取的记录中包含的数据分配水印和时间戳。如果是这样,那么它应该可以正常运行。

    请注意,如果其中一个主题的事件比另一个主题早得多,您将收到拒绝(旧)事件。如果您不关心增加延迟,可以使用BoundedOutOfOrdernessTimestampExtractor 设置时间戳和水印,并将最大无序设置为两个主题之间的最大时间偏差。如果您这样做,那么我认为您希望使用 0 来表示允许的延迟。

    【讨论】:

      猜你喜欢
      • 2018-08-19
      • 1970-01-01
      • 2019-07-27
      • 1970-01-01
      • 1970-01-01
      • 2019-10-11
      • 1970-01-01
      • 1970-01-01
      • 2018-02-16
      相关资源
      最近更新 更多