【发布时间】:2017-11-28 17:05:52
【问题描述】:
我正在评估 Flink 的流式分析场景,但没有找到足够的信息来说明如何实现我们今天在遗留系统中进行的一种 ETL 设置。
一个非常常见的场景是,我们有键控的、低吞吐量的元数据流,我们想使用这些流来丰富高吞吐量数据流,如下所示:
这引发了关于 Flink 的两个问题:如何通过缓慢更新时间窗口重叠但不相等的流来丰富快速移动的流(元数据可以存在几天,而数据可以存在几分钟)?以及如何使用 Flink 高效地连接多个(最多 10 个)流,比如一个数据流和九个不同的丰富流?
我知道我可以使用非窗口外部 ETL 缓存来实现我的 ETL 场景,例如使用 Redis(这是我们今天使用的),但我想看看 Flink 提供了哪些可能性。
【问题讨论】:
标签: apache-flink flink-streaming