使用火花流和火花红移连接器将数据从 kafka 复制到红移答案

【问题标题】：Duplication of data to redshift from kafka with spark streaming and spark redshift-connector使用火花流和火花红移连接器将数据从 kafka 复制到红移
【发布时间】：2015-11-14 05:55:31
【问题描述】：

我正在尝试设置从 Mysql binlogs 到 Redshift 的数据管道。我正在将数据从 mysql binlogs 写入 kafka（使用工具-cannedbeer，来自 mypipe 的 fork），然后使用 spark 流来写入这些消息使用火花红移连接器进行红移。我面临的问题是同一条消息被多次写入红移。这是因为 Dstream 的 foreachRDD 方法（写入 Redshift 的副作用）中的作业失败。你能摆脱一些吗阐明这个问题以及如何解决它。提前致谢。

【问题讨论】：

标签： apache-spark apache-kafka spark-streaming

【解决方案1】：

记录每个部分并查看它在哪里重复？我正在使用 https://github.com/databricks/spark-redshift 从 spark 集群写入 redshift，没有任何问题。

【讨论】：