【发布时间】:2025-12-13 14:25:08
【问题描述】:
我有一个用例,我需要从 kafka 中的主题读取事件并在 Spark 中处理它们。 我需要处理与同一元素相关的事件(在事件消息中指定元素标识符)并且在一个时间范围内一起发生。
-
如果相关事件分布在 kafka 分区中,那么考虑到 spark 的多个执行器架构,我们如何一起读取所有相关事件?
-
是否可以强制所有相关事件都转到 kafka 中的同一个分区? Spark 结构化流将如何利用它?
【问题讨论】:
标签: python apache-spark pyspark apache-kafka