【发布时间】:2023-03-10 03:53:01
【问题描述】:
在我必须升级 Spark 库或更改查询的情况下,我是否可以安全地使用 Kafka 和 Spark 结构化流 (SSS) (>=v2.2) 以及 HDFS 上的检查点?即使在这些情况下,我也想无缝地继续使用留下的偏移量。
在网上搜索 SSS (>=2.2) 检查点机制中的兼容性问题时,我发现了不同的答案。也许有人可以减轻这种情况……最好有事实/参考资料或第一人称经验支持?
- 在 Spark 的编程指南 (current=v2.3) 中,他们只是声称“..应该是与 HDFS 兼容的目录”,但在兼容性方面甚至没有留下任何关于约束的字眼。 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
- Databricks 至少给出了一些提示,表明这是一个问题。 https://docs.databricks.com/spark/latest/structured-streaming/production.html#recover-after-changes-in-a-streaming-query
- Cloudera 博客建议将偏移量存储在 Zookeeper 中,但这实际上是指“旧”的 Spark Streaming 实现。如果这也与结构化流有关,还不清楚。 https://blog.cloudera.com/blog/2017/06/offset-management-for-apache-kafka-with-apache-spark-streaming/
- 此对话中的一个人声称在这方面不再存在问题......但没有指出事实。 How to get Kafka offsets for structured query for manual and reliable offset management?
非常感谢您的帮助。
【问题讨论】:
标签: apache-spark apache-kafka spark-streaming spark-structured-streaming