如何使用流处理进行 ETL

【问题标题】：How to ETL using stream processing如何使用流处理进行 ETL
【发布时间】：2019-02-18 11:07:29
【问题描述】：

我有一个 SQL 服务器数据库，每天都有数百万行（插入/删除/更新）。我应该提出一个 ETL 解决方案来将数据从这个数据库传输到数据仓库。起初我尝试与 CDC 和 SSIS 合作，但我工作的公司想要一个更实时的解决方案。我做了一些研究并发现了流处理。我也找过 Spark 和 Flink 教程，但没有找到任何东西。

我的问题是我选择哪种流处理工具？以及如何学习使用它？

【问题讨论】：

标签： sql-server apache-spark etl apache-flink business-intelligence

【解决方案1】：

开源解决方案 您可以使用 Confluent Kafka 集成工具通过加载时间戳跟踪插入和更新操作。这些将自动为您提供在数据库中插入或更新的实时数据。如果您的数据库中有软删除，也可以通过使用加载时间戳和活动或非活动标志来跟踪。如果没有这样的标志，那么您需要提供一些关于哪一天可能会更新分区的逻辑，并将整个分区发送到流中，这绝对是资源耗尽的。

付费解决方案 有一个名为 Striim CDC 的付费工具可以为您的系统提供实时响应

【讨论】：