【发布时间】:2015-11-14 05:55:31
【问题描述】:
我正在尝试设置从 Mysql binlogs 到 Redshift 的数据管道。我正在将数据从 mysql binlogs 写入 kafka(使用工具-cannedbeer,来自 mypipe 的 fork),然后使用 spark 流来写入这些消息使用火花红移连接器进行红移。我面临的问题是同一条消息被多次写入红移。这是因为 Dstream 的 foreachRDD 方法(写入 Redshift 的副作用)中的作业失败。你能摆脱一些吗阐明这个问题以及如何解决它。提前致谢。
【问题讨论】:
标签: apache-spark apache-kafka spark-streaming