【发布时间】:2016-10-24 19:52:34
【问题描述】:
我要解决的用例如下:
- 我们有一个从 Kafka 流入的数据流
- 我们希望保证包含特定实体的相同值的消息/记录由同一操作员处理。
- 我们希望维护此 Operator 的状态,以便我们能够丰富未来的消息。
例如:
- 让我们假设所有消息都是具有表示编码数据的字节数组。
- 在编码数据中具有特定值的所有消息都应由单个运算符处理。
- 这样当我们收到某些也对应于相同值的特殊消息时,这些消息可以作为状态存储在 Operator 上(在分区器之后),并可用于丰富后续消息。
问题:
- 自定义分区器会对此有所帮助吗?
- 如果不是这样,什么是好的解决方案?
- 谁能分享一个在 Flink 中为数据流定制分区器的例子。我找不到任何完整的例子。
【问题讨论】:
标签: apache-kafka apache-flink flink-streaming