【发布时间】:2015-06-12 02:03:46
【问题描述】:
我正在 Spark 1.3.1 中为 kafka 流实现“直接”方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 据我了解,有两种方法可以设置“auto.offset.reset”:“最小”和“最大”。我正在观察的行为(如果这是可以预料的,请告诉我)是“最大”将重新开始并接收任何新的传入数据 - 而“最小”将从 0 开始并读取到最后,但是不会收到任何新的传入数据。显然,最好能够从头开始并接收新的传入数据。我确实看到了(在文档中)对每个批次消耗的偏移量的访问,但我不确定这在这里有什么帮助。谢谢。
【问题讨论】:
标签: apache-spark spark-streaming apache-kafka