【发布时间】:2015-07-17 04:31:56
【问题描述】:
我的 Spark 流式传输作业正在使用来自 Kafka 的数据
KafkaUtils.createStream(jssc, prop.getProperty(Config.ZOOKEEPER_QUORUM),
prop.getProperty(Config.KAFKA_CONSUMER_GROUP), topicMap);
每当我重新开始我的工作时,它就会从最后一个偏移存储开始消耗(我假设这是因为发送处理后的数据需要很长时间,如果我更改消费者组,它会立即使用新消息)
我是 kafka 8.1.1,其中 auto.offset.reset 默认为最大,这意味着每当我重新启动 kafka 时,都会从我离开的地方发送数据。
我的用例要求我忽略此数据并仅处理到达的数据。我怎样才能做到这一点? 任何建议
【问题讨论】:
标签: apache-spark apache-kafka spark-streaming kafka-consumer-api