【发布时间】:2018-11-28 13:35:15
【问题描述】:
根据文档,可以从(scala)火花流应用程序中commit offset into kafka。
我想从 pyspark 实现相同的功能。
或者至少将 kafka 分区、偏移量存储到外部数据存储(RDBMS 等)中。
然而,用于 kafka 集成的 pyspark api 仅提供 RDD(offset, value)] 而不是 RDD[ConsumerRecord](如在 scala 中)。
有没有办法从 python RDD 中获取(topic, partition, offset)?并坚持到其他地方?
【问题讨论】:
标签: python apache-spark apache-kafka spark-streaming