Spark 结构化流式打印每批次每执行器的偏移量答案

【问题标题】：Spark Structured Streaming Print Offsets Per Batch Per ExecutorSpark 结构化流式打印每批次每执行器的偏移量
【发布时间】：2019-12-25 03:59:06
【问题描述】：

我有一个简单的工作（20 个执行程序，每个 8G 内存），它从 Kafka（有 50 个分区）读取数据，检查点到 HDFS，并将数据发布到 HTTP 端点（每秒 1000 个事件）。我最近开始看到一些零散的 executors 与其他 executors 相比需要更长的时间。作为调查的一部分，我试图排除数据偏差；有没有办法打印分区：执行者的偏移量？或者有没有其他方法可以追踪为什么执行人可能会走散？

我知道我可以实现 StreamingQueryListener 但这只会给我 partition:offsets per batch，并且不会告诉我哪个执行程序正在处理特定的分区。

【问题讨论】：

标签： apache-spark spark-streaming spark-structured-streaming

【解决方案1】：

如果您使用了带有 foreach 的水槽，则可以将其打印出来。 forEach in structured spark streaming。 open 方法具有这些详细信息，并为每个执行程序执行。所以你有这些细节

【讨论】：