【发布时间】:2016-10-09 20:07:35
【问题描述】:
我有 Spark 1.4 Streaming 应用程序,它从 Kafka 读取数据,使用有状态转换,批处理间隔为 15 秒。
为了使用全状态转换以及从驱动程序故障中恢复,我需要在流上下文中设置检查点。
此外,在 Spark 1.4 文档中,他们建议将 DStream 检查点设置为批处理间隔的 5-10 倍。
所以我的问题是:
如果我只在 spark 流上下文中设置检查点会发生什么?我猜 DStreams 会在每个批次间隔被检查点?
如果我在流上下文中设置检查点以及从 Kafka 读取数据的那一刻,我会设置:
DStream.checkpoint(90 秒)
元数据检查点和数据检查点(即 DStreams)的间隔是多少?
谢谢。
【问题讨论】:
标签: apache-spark spark-streaming