【问题标题】:Save each Kafka messages in hdfs using spark streaming使用火花流将每个 Kafka 消息保存在 hdfs 中
【发布时间】:2018-07-27 01:39:43
【问题描述】:

我正在使用火花流进行分析。经过分析,我必须将 kafka 消息保存在 hdfs 中。每个 kafka 消息都是一个 xml 文件。我不能使用rdd.saveAsTextFile,因为它会保存整个rdd。 rdd 的每个元素都是 kafka 消息(xml 文件)。如何使用 spark 将每个 rdd 元素(文件)保存在 hdfs 中。

【问题讨论】:

    标签: apache-spark apache-kafka hdfs spark-streaming


    【解决方案1】:

    我会以不同的方式解决这个问题。将转换后的数据流 Kafka,然后使用HDFS connector for Kafka Connect 将数据流式传输到 HDFS。 Kafka Connect 是 Apache Kafka 的一部分。 HDFS 连接器是开源的,可用standalone 或作为Confluent Platform 的一部分。

    通过这种方式,您可以将处理与将数据写入 HDFS 分离,从而更易于管理、故障排除和扩展。

    【讨论】:

      猜你喜欢
      • 2015-05-15
      • 2019-08-13
      • 2019-09-20
      • 1970-01-01
      • 2017-04-27
      • 2017-03-27
      • 2016-08-13
      • 2020-03-10
      • 1970-01-01
      相关资源
      最近更新 更多