【问题标题】:Understanding Spark terminal output during stages [duplicate]了解阶段期间的 Spark 终端输出 [重复]
【发布时间】:2018-04-17 02:45:45
【问题描述】:

我是 Spark 的新手,我正在尝试在我的终端上了解其阶段的日志输出。我正在本地机器上处理一个非常大的数据集,在操作过程中,我会看到如下内容:

[Stage: 4 ==>           (10 + 4) / 200]

我知道阶段是发生在 RDD 上的所有操作,但是最后的数字呢?它们代表任务吗?

(10 + 4) / 200] 
  • 10完成的任务数?
  • 4 正在运行的并发任务数(即我的机器上的内核数?)
  • 200此阶段的任务总数?

【问题讨论】:

  • 看来一切都是你自己想出来的:)
  • 感谢您的验证! :)

标签: apache-spark


【解决方案1】:

它被称为控制台进度条。对于提到的阶段,这里的数字是什么意思,

[(numCompletedTasks + numActiveTasks) / totalNumOfTasksInThisStage]

希望这会有所帮助,干杯。

【讨论】:

    猜你喜欢
    • 2017-11-02
    • 2017-06-17
    • 1970-01-01
    • 2020-05-08
    • 2014-07-13
    • 1970-01-01
    • 1970-01-01
    • 2012-05-10
    • 2012-05-22
    相关资源
    最近更新 更多