【问题标题】:How long does it take to start a Spark job on a running EMR cluster?在正在运行的 EMR 集群上启动 Spark 作业需要多长时间?
【发布时间】:2021-12-07 15:26:11
【问题描述】:

我目前的一些未知数

  1. 在运行spark-submit 和执行业务逻辑的作业(完成所有初始化之后)之间会发生哪些步骤?
  2. 哪些因素可以增加/减少初始化持续时间?
  3. 任何 EMR 特定因素?

我之所以这么问,是因为我想知道让工作在提交后几秒钟内开始运行业务逻辑是否现实。

注意:我们可以假设集群上没有其他作业在运行。

【问题讨论】:

    标签: apache-spark amazon-emr


    【解决方案1】:

    考虑到所有初始化都已完成,我认为您正在谈论 EMR 设置。如果我们认为他们不是其他工作,那就不多了。

    在一秒钟内它是可能的,但它不是被授予的。你的工作需要依赖吗?如果是,那么您指定的数量会更长一些。 您的主脚本/jar 也存储在哪里。通常您通过 AWS EMR SDK 提交作业,而不是直接通过 spark-submit 提交(即使最终是相同的)。在一分钟之内,对于小型工作来说应该不是问题

    对于第二个问题,初始化持续时间我认为您在谈论 EMR 启动。将取决于您是否有引导操作或未设置。如果没有,如果 AWS 可以轻松找到资源(EC2 实例),它将持续大约 10 分钟

    【讨论】:

      猜你喜欢
      • 2022-01-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-01-01
      • 2017-01-27
      • 1970-01-01
      • 2018-10-19
      • 2020-05-25
      相关资源
      最近更新 更多