【发布时间】:2022-10-18 14:00:37
【问题描述】:
我的 Spark 应用程序(结构化流)显示的输入行数远高于我发送到应用程序的记录数(在我的情况下,UI 中的输入行数始终是实际记录数的 21 倍)。
我找不到“输入行”到底是什么意思的清晰解释。我在某处读到这与对数据集执行的操作数量有关,但数学并没有加起来。
任何帮助表示赞赏。
【问题讨论】:
标签: apache-spark spark-structured-streaming
我的 Spark 应用程序(结构化流)显示的输入行数远高于我发送到应用程序的记录数(在我的情况下,UI 中的输入行数始终是实际记录数的 21 倍)。
我找不到“输入行”到底是什么意思的清晰解释。我在某处读到这与对数据集执行的操作数量有关,但数学并没有加起来。
任何帮助表示赞赏。
【问题讨论】:
标签: apache-spark spark-structured-streaming
输入行数不过是批处理中的总行数。例如,如果下一个批次每 20 秒触发一次且输入速率为 10,那么您的输入行数将为 200。 https://spark.apache.org/docs/latest/web-ui.html#structured-streaming-tab
【讨论】: