【发布时间】:2023-04-06 22:39:01
【问题描述】:
我想限制从 kafka 获取数据时的速率。我的代码如下:
df = spark.read.format('kafka') \
.option("kafka.bootstrap.servers",'...')\
.option("subscribe",'A') \
.option("startingOffsets",'''{"A":{"0":200,"1":200,"2":200}}''') \
.option("endingOffsets",'''{"A":{"0":400,"1":400,"2":400}}''') \
.option("maxOffsetsPerTrigger",20) \
.load() \
.cache()
但是当我调用df.count() 时,结果是 600。我期望的是 20。有谁知道为什么“maxOffsetsPerTrigger”不起作用。
【问题讨论】:
-
我看到工作正常。您看到的最终结果总共有多少个文件?
标签: pyspark apache-kafka