【问题标题】:Spark Structured Streaming Print Offsets Per Batch Per ExecutorSpark 结构化流式打印每批次每执行器的偏移量
【发布时间】:2019-12-25 03:59:06
【问题描述】:

我有一个简单的工作(20 个执行程序,每个 8G 内存),它从 Kafka(有 50 个分区)读取数据,检查点到 HDFS,并将数据发布到 HTTP 端点(每秒 1000 个事件)。我最近开始看到一些零散的 executors 与其他 executors 相比需要更长的时间。作为调查的一部分,我试图排除数据偏差;有没有办法打印分区:执行者的偏移量?或者有没有其他方法可以追踪为什么执行人可能会走散?

我知道我可以实现 StreamingQueryListener 但这只会给我 partition:offsets per batch,并且不会告诉我哪个执行程序正在处理特定的分区。

【问题讨论】:

    标签: apache-spark spark-streaming spark-structured-streaming


    【解决方案1】:

    如果您使用了带有 foreach 的水槽,则可以将其打印出来。 forEach in structured spark streaming。 open 方法具有这些详细信息,并为每个执行程序执行。所以你有这些细节

    【讨论】:

      猜你喜欢
      • 2020-08-06
      • 2021-02-06
      • 1970-01-01
      • 2019-10-03
      • 2018-09-28
      • 2021-02-22
      • 1970-01-01
      • 2022-01-27
      • 2022-08-07
      相关资源
      最近更新 更多