【问题标题】:Spark Streaming input rate dropSpark Streaming 输入速率下降
【发布时间】:2018-04-28 22:18:00
【问题描述】:

运行 Spark Streaming 作业时,我不止一次遇到以下行为。处理开始良好:每个批次的处理时间远低于批次间隔。然后突然间,输入速率下降到接近零。 See these graphs.

即使程序可以跟上并大大减慢执行速度,也会发生这种情况。我相信当没有太多未处理的数据剩下时会发生下降,但由于速率太低,这些最终记录占用了运行作业所需的大部分时间。有什么办法可以避免这种情况并加快速度?

我将 PySpark 与 Spark 1.6.2 一起使用,并使用 Kafka 的直接方法 流式传输。 Backpressure 已打开,maxRatePerPartition 为 100。

【问题讨论】:

  • spark.streaming.backpressure.enabled 是否启用?
  • @YuvalItzchakov 是的。
  • 禁用它,这是它认为压力大于您的系统可以处理的副产品。

标签: apache-spark spark-streaming


【解决方案1】:

在您需要接收器从流中使用消息的旧 Spark 流版本的情况下,设置背压更有意义。从 Spark 1.3 开始,您可以使用无接收器的“直接”方法来确保更强大的端到端保证。所以你不需要担心背压,因为 spark 做了大部分的微调。

【讨论】:

    猜你喜欢
    • 2022-10-18
    • 2022-01-05
    • 2022-01-08
    • 2017-05-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多