Spark Streaming 输入速率下降答案

【问题标题】：Spark Streaming input rate dropSpark Streaming 输入速率下降
【发布时间】：2018-04-28 22:18:00
【问题描述】：

运行 Spark Streaming 作业时，我不止一次遇到以下行为。处理开始良好：每个批次的处理时间远低于批次间隔。然后突然间，输入速率下降到接近零。 See these graphs.

即使程序可以跟上并大大减慢执行速度，也会发生这种情况。我相信当没有太多未处理的数据剩下时会发生下降，但由于速率太低，这些最终记录占用了运行作业所需的大部分时间。有什么办法可以避免这种情况并加快速度？

我将 PySpark 与 Spark 1.6.2 一起使用，并使用 Kafka 的直接方法 流式传输。 Backpressure 已打开，maxRatePerPartition 为 100。

【问题讨论】：

【解决方案1】：

在您需要接收器从流中使用消息的旧 Spark 流版本的情况下，设置背压更有意义。从 Spark 1.3 开始，您可以使用无接收器的“直接”方法来确保更强大的端到端保证。所以你不需要担心背压，因为 spark 做了大部分的微调。

【讨论】：