【发布时间】:2018-02-19 07:54:18
【问题描述】:
在我当前的用例中,我使用 Spark 核心从 MS SQL Server 读取数据并对数据进行一些处理并每 1 分钟将其发送到 Kafka,我使用 Spark 和 Phoenix 在 HBase 中维护 CDC 信息表。
但是这种设计存在一些问题,例如如果 MS SQL 记录激增,Spark 处理需要比批处理间隔更多的时间,并且 Spark 最终会将重复记录发送到 Kafka。
作为替代方案,我正在考虑使用 Kafka Connect 从 MS SQL 读取消息并将记录发送到 Kafka 主题并在 Kafka 中维护 MS SQL CDC。 Spark Streaming 将从 Kafka 主题中读取记录,并将记录处理并存储到 HBase 中,然后发送到其他 Kafka 主题。
为了实现这个架构,我有几个问题:
我能否使用开源 Kafka 连接器和 Apache Kafka 0.9 版本实现此架构。
1234563 /li>
Kafka 连接是否支持 Kerberos Kafka 设置。
【问题讨论】:
标签: sql-server apache-spark apache-kafka apache-kafka-connect