【发布时间】:2022-01-08 01:14:56
【问题描述】:
为什么进程速率会大于输入速率?
据我了解,处理速率是spark对到达数据的处理速率,即处理能力。如果是这样,则处理速率平均必须低于或等于输入速率.如果它更低,我们知道我们需要更多的处理能力,或者重新考虑触发时间。
我的理解基于this blog post 和常识,但我可能错了。我在写这个问题的时候也在源代码中寻找正式的公式。
这是一个处理速率始终大于输入速率的示例:
您可以看到,我们平均每秒处理 200-300 条记录,而我们每秒有 80-120 条记录到达。
设置背景:Spark 3.x 从 Kafka 读取并写入 Delta。
谢谢大家。
【问题讨论】:
标签: apache-spark apache-kafka apache-spark-sql spark-streaming spark-structured-streaming