【发布时间】:2017-05-18 22:55:17
【问题描述】:
我正在尝试执行 spark 流应用程序来处理文件数据流以执行字数统计。 我正在阅读的目录来自 Windows。如图所示,我使用“Users/Name/Desktop/Stream”之类的本地目录。它不是 HDFS。 我在桌面中创建了一个文件夹作为“流”。 我启动了 Spark Streaming 应用程序,然后将一些文本文件添加到文件夹“Stream”中。但是我的 spark 应用程序无法读取文件。它总是给出空洞的结果。 这是我的代码。
//args(0) = local[2]
object WordCount {
def main(args: Array[String]) {
val ssc = new StreamingContext(args(0), "word_count",Seconds(5))
val lines = ssc.textFileStream("Users/name/Desktop/Stream")
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
}
}
输出:每 5 秒获取一次空数据
17/05/18 07:35:00 INFO Executor: Running task 0.0 in stage 71.0 (TID 35)
-------------------------------------------
Time: 1495107300000 ms
-------------------------------------------
我也尝试将路径指定为 C:/Users/name/Desktop/Stream - 仍然是同样的问题,应用程序无法读取文件。
如果我给出的目录路径不正确,谁能指导一下?
【问题讨论】:
标签: scala apache-spark spark-streaming