【发布时间】:2018-12-13 21:32:38
【问题描述】:
我正在构建一个可以同时处理实时数据和历史数据的 Flink Streaming 系统。所有数据均来自同一来源,然后在split 中输入历史数据和实时数据。实时数据得到时间戳和水印,而历史数据按顺序接收。实时流窗口化后,两个流合并并流入同一处理管道。
如果 EventTime 流环境中的所有记录都需要时间戳,或者 Flink 甚至可以同时处理这种实时数据和历史数据的混合,我找不到任何地方。这是一种可行的方法还是会产生我没有经验的问题?对数据的顺序会有什么影响?
我们有这个设置允许我们进行部分回填。每个流都由一个 id 键控,我们发送历史数据来替换一个 id 的观察数据,同时不影响其他 id 的实时处理。
【问题讨论】:
标签: apache-flink flink-streaming