【发布时间】:2019-07-19 02:38:32
【问题描述】:
我正在使用 spark 流式传输,并且不想在新的流式传输文件每 10 分钟出现一次时处理旧文件:
val val1= spark
.read //
.option("header", "true")
.option("schema", "true")
.option("sep", ",")
.csv(path_to_file).toDF().cache()
val1.registerTempTable("test")
创建数据框后,我进行了一些转换和处理 检查点可以帮助我以及我在我的情况下如何使用
【问题讨论】:
-
没关系我做
标签: scala apache-spark bigdata cloudera hortonworks-sandbox