【发布时间】:2018-12-21 14:18:31
【问题描述】:
我正在尝试使用火花流将数据从一个 HDFS 位置读取到另一个位置
下面是我在 spark-shell 上的代码 sn-p
但我看不到在 HDFS 输出目录上创建的文件 可以指出如何在 HDFS 上加载文件
scala> sc.stop()
scala> import org.apache.spark.SparkConf
scala> import org.apache.spark.streaming
scala> import org.apache.spark.streaming.{StreamingContext,Seconds}
scala> val conf = new SparkConf().setMaster("local[2]").setAppName("files_word_count")
scala> val ssc = new StreamingContext(conf,Seconds(10))
scala> val DF = ssc.textFileStream("/user/cloudera/streamingcontext_dir")
scala> val words_freq = DF.flatMap(x=>(x.split(" "))).map(y=>(y,1)).reduceByKey(_+_)
scala> words_freq.saveAsTextFiles("hdfs://localhost:8020/user/cloudera/streamingcontext_dir2")
scala> ssc.start()
我已将文件放在 HDFS "/user/cloudera/streamingcontext_dir" 并创建了另一个目录 "/user/cloudera/streamingcontext_dir2" 以查看写入的文件
但我在输出目录中看不到文件 有人能指出这里有什么问题吗?
谢谢 苏米特
【问题讨论】:
标签: scala apache-spark hadoop hdfs