【发布时间】:2017-06-18 19:34:35
【问题描述】:
有没有什么方法可以配置textFileStream 源,这样无论文件创建时间如何,它都会处理添加到源目录的任何文件?
为了演示这个问题,我创建了一个基本的 Spark Streaming 应用程序,它使用 textFileStream 作为源并将流内容打印到控制台。当在运行应用程序之前创建的现有文件被复制到源目录时,控制台不会打印任何内容。当应用程序开始运行后创建的文件复制到源目录时,将打印文件内容。以下是我的代码供参考。
val conf = new SparkConf().setAppName("Streaming Test")
.setMaster("local[*]")
val spark = new SparkContext(conf)
val ssc = new StreamingContext(spark, Seconds(5))
val fileStream = ssc.textFileStream("/stream-source")
val streamContents = fileStream.flatMap(_.split(" "))
streamContents.print()
【问题讨论】:
标签: scala apache-spark spark-streaming