【问题标题】:Flink SQL on real time data and historical data实时数据和历史数据上的 Flink SQL
【发布时间】:2020-04-13 21:48:38
【问题描述】:

我正在开发一个应用程序,我想在实时事件和过去的事件上运行 Flink SQL。我尝试了一个 POC,其中 Flink 在 Kafka 等流式源上运行 SQL,SQL 查询只返回新事件/更改。但是,我想对整个数据运行 SQL,一些数据可能会随着时间而变化。基本上,我的要求是不断查询整个数据。如何使用 Flink 或任何其他流媒体解决方案来实现这一点?

【问题讨论】:

  • 实时数据和历史数据有语义上的区别,是不是一回事,一旧一新?还是从语义上讲,它们是两个截然不同的数据源?
  • 它们来自同一个流源,实时数据和历史数据之间没有语义差异。
  • 为什么不同时使用 Kafka??
  • 尽管营销信息可能会暗示,Kafka 本质上是一个消息总线,而不是一个数据存储。一旦容量增加,将其用作历史数据存储会很痛苦。
  • 同意丹尼斯。 Kafka 作为历史数据的持久存储似乎不是一个好主意。对 Pravega pravega.io 有什么想法吗?

标签: apache-flink flink-streaming flink-sql


【解决方案1】:

Flink SQL 还没有提供合适的filesystem connector,所以这会造成问题,至少现在是这样。另一方面,Kafka 得到了很好的支持。

【讨论】:

    【解决方案2】:

    如果您想要一个可以随着历史增长而很好扩展的有状态后端,最好查看可用的连接器。

    最有可能的候选者似乎是 Hbase。


    到目前为止的一般答案。

    最好从这里开始,但如果您希望使用 S3,最好知道 Cloudera 数据平台将很快包含支持 S3 的 Hbase 解决方案。

    免责声明:我是 Cloudera 的员工,是 Kafka、Hbase 和即将推出的 Flink 的推动者

    【讨论】:

      猜你喜欢
      • 2021-08-25
      • 2020-08-26
      • 1970-01-01
      • 1970-01-01
      • 2020-09-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-09-12
      相关资源
      最近更新 更多