【发布时间】:2019-12-25 03:59:06
【问题描述】:
我有一个简单的工作(20 个执行程序,每个 8G 内存),它从 Kafka(有 50 个分区)读取数据,检查点到 HDFS,并将数据发布到 HTTP 端点(每秒 1000 个事件)。我最近开始看到一些零散的 executors 与其他 executors 相比需要更长的时间。作为调查的一部分,我试图排除数据偏差;有没有办法打印分区:执行者的偏移量?或者有没有其他方法可以追踪为什么执行人可能会走散?
我知道我可以实现 StreamingQueryListener 但这只会给我 partition:offsets per batch,并且不会告诉我哪个执行程序正在处理特定的分区。
【问题讨论】:
标签: apache-spark spark-streaming spark-structured-streaming