【发布时间】:2018-06-22 11:42:58
【问题描述】:
我正在使用结构化流从文件源中提取数据。我有一个检查点设置,据我所知它可以正常工作,除非我不明白在几种情况下会发生什么。如果我的流媒体应用程序运行了很长时间,检查点文件是否会永远变大,或者最终会被清理掉。如果它从不清理有关系吗?看来最终它会变得足够大,以至于程序需要很长时间才能解析。
我的另一个问题是,当我手动删除或更改检查点文件夹,或更改为不同的检查点文件夹时,不会摄取新文件。文件被识别并添加到检查点,但文件实际上并未被摄取。这让我担心如果检查点文件夹以某种方式被更改,我的摄取会搞砸。我找不到太多关于在这些情况下正确的程序的信息。
【问题讨论】:
-
我目前正在编写 spark 流式查询。据我了解,它是相关的水印。我们需要为每个查询设置水印和可靠的阈值。 Spark 将在阈值时间后删除检查点。但查询将继续没有问题。但我从未测试过它。没有人告诉我这是对还是错。
标签: apache-spark spark-structured-streaming