实时数据和历史数据上的 Flink SQL答案

【问题标题】：Flink SQL on real time data and historical data实时数据和历史数据上的 Flink SQL
【发布时间】：2020-04-13 21:48:38
【问题描述】：

我正在开发一个应用程序，我想在实时事件和过去的事件上运行 Flink SQL。我尝试了一个 POC，其中 Flink 在 Kafka 等流式源上运行 SQL，SQL 查询只返回新事件/更改。但是，我想对整个数据运行 SQL，一些数据可能会随着时间而变化。基本上，我的要求是不断查询整个数据。如何使用 Flink 或任何其他流媒体解决方案来实现这一点？

【问题讨论】：

实时数据和历史数据有语义上的区别，是不是一回事，一旧一新？还是从语义上讲，它们是两个截然不同的数据源？
它们来自同一个流源，实时数据和历史数据之间没有语义差异。
为什么不同时使用 Kafka？？
尽管营销信息可能会暗示，Kafka 本质上是一个消息总线，而不是一个数据存储。一旦容量增加，将其用作历史数据存储会很痛苦。
同意丹尼斯。 Kafka 作为历史数据的持久存储似乎不是一个好主意。对 Pravega pravega.io 有什么想法吗？

标签： apache-flink flink-streaming flink-sql

【解决方案1】：

Flink SQL 还没有提供合适的filesystem connector，所以这会造成问题，至少现在是这样。另一方面，Kafka 得到了很好的支持。

【讨论】：

【解决方案2】：

如果您想要一个可以随着历史增长而很好扩展的有状态后端，最好查看可用的连接器。

最有可能的候选者似乎是 Hbase。

到目前为止的一般答案。

最好从这里开始，但如果您希望使用 S3，最好知道 Cloudera 数据平台将很快包含支持 S3 的 Hbase 解决方案。

免责声明：我是 Cloudera 的员工，是 Kafka、Hbase 和即将推出的 Flink 的推动者

【讨论】：