【发布时间】:2021-03-25 05:39:12
【问题描述】:
我想使用来自多个数据源的 CDC 数据,例如 cassandra、mysql、Oracle ...等。我浏览了一些文档以将 cdc 数据流式传输到 kafka 并将数据存储到主题中。我在想我不能编写 spark 程序来直接从源中使用数据,而是首先将数据推送到 kafka 主题中,然后 spark 程序连接到 kafka 主题以进一步使用消息。 这是我的几个问题,我正在努力找出答案:
- 在两者之间使用 kafka 而不是直接使用 spark 更改的记录有什么重要性?
- 在中间使用 kafka 不会给系统增加一些延迟?
【问题讨论】:
-
可能是因为 Spark 没有可用的库来读取 cdc 数据,而且这些数据对 Spark 以外的其他系统有用?另外,CDC 数据存在于数据库服务器上,您可能不应该在其中运行 Spark 代码,因为它是分布式的
标签: apache-spark apache-kafka cassandra oracle-cdc