【问题标题】:Duplication of data to redshift from kafka with spark streaming and spark redshift-connector使用火花流和火花红移连接器将数据从 kafka 复制到红移
【发布时间】:2015-11-14 05:55:31
【问题描述】:

我正在尝试设置从 Mysql binlogs 到 Redshift 的数据管道。我正在将数据从 mysql binlogs 写入 kafka(使用工具-cannedbeer,来自 mypipe 的 fork),然后使用 spark 流来写入这些消息使用火花红移连接器进行红移。我面临的问题是同一条消息被多次写入红移。这是因为 Dstream 的 foreachRDD 方法(写入 Redshift 的副作用)中的作业失败。你能摆脱一些吗阐明这个问题以及如何解决它。提前致谢。

【问题讨论】:

    标签: apache-spark apache-kafka spark-streaming


    【解决方案1】:

    记录每个部分并查看它在哪里重复?我正在使用 https://github.com/databricks/spark-redshift 从 spark 集群写入 redshift,没有任何问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-11-13
      • 1970-01-01
      • 2017-04-27
      • 1970-01-01
      • 2021-11-16
      • 2018-04-13
      • 2018-11-04
      • 1970-01-01
      相关资源
      最近更新 更多