【发布时间】:2022-01-16 21:22:37
【问题描述】:
我想每 5 秒阅读一个主题;对于旧版本的pyspark,我可以使用 kafka-utils 和 window 方法,但目前我无法使用。
现在我正在使用以下代码从kafka 和spark 加载数据
spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", 'localhost:9092') \
.option("subscribe", 'data') \
.load()
但是,我正在读取所有数据。
所以我想知道如何在可能的情况下每 5 秒读取一次批量大小为 1 秒的数据。
谢谢
【问题讨论】:
-
结构化流以微批量读取数据。如果您需要将数据分组到更大的批次中,您仍然可以添加窗口
标签: apache-spark pyspark apache-kafka spark-structured-streaming