【问题标题】:How to ETL using stream processing如何使用流处理进行 ETL
【发布时间】:2019-02-18 11:07:29
【问题描述】:

我有一个 SQL 服务器数据库,每天都有数百万行(插入/删除/更新)。我应该提出一个 ETL 解决方案来将数据从这个数据库传输到数据仓库。起初我尝试与 CDC 和 SSIS 合作,但我工作的公司想要一个更实时的解决方案。我做了一些研究并发现了流处理。我也找过 Spark 和 Flink 教程,但没有找到任何东西。

我的问题是我选择哪种流处理工具?以及如何学习使用它?

【问题讨论】:

    标签: sql-server apache-spark etl apache-flink business-intelligence


    【解决方案1】:

    开源解决方案 您可以使用 Confluent Kafka 集成工具通过加载时间戳跟踪插入和更新操作。这些将自动为您提供在数据库中插入或更新的实时数据。如果您的数据库中有软删除,也可以通过使用加载时间戳和活动或非活动标志来跟踪。 如果没有这样的标志,那么您需要提供一些关于哪一天可能会更新分区的逻辑,并将整个分区发送到流中,这绝对是资源耗尽的。

    付费解决方案 有一个名为 Striim CDC 的付费工具可以为您的系统提供实时响应

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-12-20
      • 2017-06-26
      • 2014-03-13
      相关资源
      最近更新 更多