【发布时间】:2020-04-13 21:48:38
【问题描述】:
我正在开发一个应用程序,我想在实时事件和过去的事件上运行 Flink SQL。我尝试了一个 POC,其中 Flink 在 Kafka 等流式源上运行 SQL,SQL 查询只返回新事件/更改。但是,我想对整个数据运行 SQL,一些数据可能会随着时间而变化。基本上,我的要求是不断查询整个数据。如何使用 Flink 或任何其他流媒体解决方案来实现这一点?
【问题讨论】:
-
实时数据和历史数据有语义上的区别,是不是一回事,一旧一新?还是从语义上讲,它们是两个截然不同的数据源?
-
它们来自同一个流源,实时数据和历史数据之间没有语义差异。
-
为什么不同时使用 Kafka??
-
尽管营销信息可能会暗示,Kafka 本质上是一个消息总线,而不是一个数据存储。一旦容量增加,将其用作历史数据存储会很痛苦。
-
同意丹尼斯。 Kafka 作为历史数据的持久存储似乎不是一个好主意。对 Pravega pravega.io 有什么想法吗?
标签: apache-flink flink-streaming flink-sql