【发布时间】:2020-09-04 19:59:22
【问题描述】:
在我们的 spark 应用程序中,我们每天都在运行多个批处理。这些批处理的来源不同,例如 Oracle、mongoDB、Files。我们根据源存储不同的值用于增量处理,例如某些 oracle 表的最新时间戳、某些 oracle 表的 ID、某些文件系统的列表,并将这些值用于下一次增量运行。
目前这些偏移值的计算是依赖于源类型的,我们需要在每次添加新的源类型时自定义代码来存储这个值。 是否有任何通用方法可以解决此问题,例如流式传输中的检查点。
【问题讨论】:
标签: apache-spark pyspark