【发布时间】:2016-09-26 23:05:15
【问题描述】:
我使用 Scala 的 StreamingContext 成功地计算了单词:
val scc = new StreamingContext(sc,Seconds(1))
val dstream = scc.textFileStream("""file:///pathToDirectoryWindows""");
//dstream is DStream[String]
val words = dstream.flatMap(line=>line.split(" "));
但我尝试对过滤做同样的事情,即只考虑扩展名为 .txt 的文件。看来textFileStream不允许过滤,所以我尝试了fileStream:
val fstream=scc.fileStream("""file:///pathToFolderWin""",x=>x.getName().contains(".txt"), true);
但是这次我不能拆分,因为结果不是 DStream[String],而是 inputDStream[(Nothing, Nothing)] 。 如何处理字符串但过滤文件?非常感谢,列维
【问题讨论】:
标签: scala apache-spark spark-streaming