【发布时间】:2021-11-12 00:25:10
【问题描述】:
我有一个相对基本的用例。我的数据存在于 100 个 kafka 分区中,在将事件发送到自定义 HTTP 接收器之前,我需要通过映射运算符传递事件。
出于性能原因,需要将事件分批成 n 条消息的组,理想情况下,这些批次应该在几秒钟后刷新。如果事件计数符合我的最大批量大小,似乎一个很好的解决方案是使用带有清除触发器的翻转处理时间窗口。
问题是我需要将这项工作扩大到每秒处理 100k 个事件。为了获得窗口化批处理,Flink 希望我使用 key by 语句。我尝试使用几个不同的键,但遇到了平衡问题,而且这些键也破坏了操作符链。有没有一种好方法可以在没有键的情况下使用窗口函数,并且仍然让操作符分布在多个任务管理器中?
【问题讨论】:
标签: apache-flink scale stream-processing