【发布时间】:2017-09-13 18:26:39
【问题描述】:
我正在使用 Spark Core 和 SQL 来处理给定目录下的多个 csv 文件(都具有不同的结构)。到目前为止,我们必须手动将文件放在所需位置并运行作业。
val rdd1 = sc.textFile("csv1")
/* transformations here for rdd1 */
val rdd2 = sc.textFile("csv2")
/* transformations here for rdd2 */
val rdd3 = sc.textFile("csv3")
/* transformations here for rdd3 */
但是现在,我想在文件到达目录时使用 Spark Streaming 进行相同的处理。 我不明白如何接收与给定文件有关的流并对其进行处理。 此外,我将在每 15 天后收到文件。
我怎样才能达到同样的效果?任何帮助将不胜感激。
谢谢!!!
【问题讨论】:
标签: apache-spark