【发布时间】:2020-02-14 21:35:42
【问题描述】:
我有一个关于 Kinesis 流中数据分片的问题。在将用户数据发送到我的运动流时,我想使用随机分区键,以便分片中的数据均匀分布。为了使这个问题更简单,我想通过在我的 Flink 应用程序中关闭 userId 来聚合用户数据。
我的问题是:如果分片是随机分区的,因此一个 userId 的数据分布在多个 Kinesis 分片上,Flink 是否可以处理读取多个分片然后重新分配数据,以便单个 userId 的所有数据流式传输到同一个聚合器任务?或者,在 Flink 使用之前,我是否需要按用户 ID 对 kinesis 流进行分片?
【问题讨论】:
标签: apache-flink flink-streaming amazon-kinesis