【发布时间】:2019-05-20 15:53:10
【问题描述】:
因此,在我们的一个 kafka 主题中,有接近 100 GB 的数据。 我们正在运行 spark-structured streaming 以获取 S3 中的数据
当数据达到 10GB 时,流式传输运行良好,我们能够在 S3 中获取数据。 但是对于 100GB,在 kafka 中流式传输数据需要很长时间。
问题:spark-streaming 如何从 Kafka 读取数据? 它是否从当前偏移量中获取全部数据? 还是分批批量处理?
【问题讨论】:
-
您使用 Spark Streaming 有什么原因吗?为什么不直接使用 Kafka Connect,它是 Apache Kafka 的一部分,专为与 S3 等其他系统集成而设计。
-
(如果您需要先处理数据,请对其进行处理并将其写回 Kafka 主题,然后使用 Kafka Connect 将其流式传输到 S3)
-
Spark 是否用于“但是使用 100GB,在 kafka 中流式传输数据需要很长时间。”?我认为您在从 Kafka 读取数据时遇到问题?
标签: apache-spark apache-kafka spark-structured-streaming