Spark 1.3.1 中 Kafka 直接方法的偏移量答案

【问题标题】：Offsets for Kafka Direct Approach in Spark 1.3.1Spark 1.3.1 中 Kafka 直接方法的偏移量
【发布时间】：2015-06-12 02:03:46
【问题描述】：

我正在 Spark 1.3.1 中为 kafka 流实现“直接”方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 据我了解，有两种方法可以设置“auto.offset.reset”：“最小”和“最大”。我正在观察的行为（如果这是可以预料的，请告诉我）是“最大”将重新开始并接收任何新的传入数据 - 而“最小”将从 0 开始并读取到最后，但是不会收到任何新的传入数据。显然，最好能够从头开始并接收新的传入数据。我确实看到了（在文档中）对每个批次消耗的偏移量的访问，但我不确定这在这里有什么帮助。谢谢。

【问题讨论】：

标签： apache-spark spark-streaming apache-kafka

【解决方案1】：

看来我弄错了——“最小的”实际上确实会继续从末尾读取新/传入的数据。

【讨论】：