【发布时间】:2017-06-26 02:28:35
【问题描述】:
我正在创建一个 spark scala 代码,其中我正在从 MQTT 服务器读取连续流。 我在纱线集群模式下运行我的工作。我想将此流保存并附加到 HDFS 中的单个文本文件中。
我将在每 1 秒后接收一次数据流。所以我需要将这些数据附加到 HDFS 的单个文本文件中。
谁能帮忙。
【问题讨论】:
-
您不能有多个任务同时写入同一个 HDFS 文件。那么为什么要使用 Spark?
-
对我来说,数据已写入最新流。我正在保存 dstream,例如:val lines = MQTTUtils.createStream(ssc,brokeraddress,topic)lines.foreachRDD{rdd => rdd.saveAsTextFile("rddoutput")}。我每 0.5 秒获取一次数据。所以我需要保存所有数据。但是“行”正在加载最新的 Dstream
-
@Arpit 嗨,已经完成了。我有类似的架构,你可以帮忙
-
@Arpit 你解决了吗?
标签: scala hadoop hdfs spark-streaming