【发布时间】:2021-02-06 23:38:23
【问题描述】:
我是 kafka 和 spark 结构化流媒体的新手。我想知道批处理模式下的 spark 如何知道要从哪个偏移量读取?如果我将“startingOffsets”指定为“最早的”,我只会得到最新的记录,而不是分区中的所有记录。我在 2 个不同的集群中运行相同的代码。集群 A(本地机器)获取了 6 条记录,集群 B(TST 集群 - 第一次运行)获取了 1 条记录。
df = spark \
.read \
.format("kafka") \
.option("kafka.bootstrap.servers", broker) \
.option("subscribe", topic) \
.option("startingOffsets", "earliest") \
.option("endingOffsets", "latest" ) \
.load()
我计划每天运行一次批次,我会得到从昨天到当前运行的所有记录吗?我在哪里可以看到批量查询的偏移量和提交?
【问题讨论】:
标签: apache-spark pyspark spark-structured-streaming