【发布时间】:2018-04-28 22:18:00
【问题描述】:
运行 Spark Streaming 作业时,我不止一次遇到以下行为。处理开始良好:每个批次的处理时间远低于批次间隔。然后突然间,输入速率下降到接近零。 See these graphs.
即使程序可以跟上并大大减慢执行速度,也会发生这种情况。我相信当没有太多未处理的数据剩下时会发生下降,但由于速率太低,这些最终记录占用了运行作业所需的大部分时间。有什么办法可以避免这种情况并加快速度?
我将 PySpark 与 Spark 1.6.2 一起使用,并使用 Kafka 的直接方法 流式传输。 Backpressure 已打开,maxRatePerPartition 为 100。
【问题讨论】:
-
spark.streaming.backpressure.enabled是否启用? -
@YuvalItzchakov 是的。
-
禁用它,这是它认为压力大于您的系统可以处理的副产品。
标签: apache-spark spark-streaming