【问题标题】:How to run two spark job in EMR cluster?如何在 EMR 集群中运行两个 Spark 作业?
【发布时间】:2020-05-11 01:06:38
【问题描述】:

我有一个在 EMR 集群中运行的实时 Spark 作业,我还有另一个在另一个 EMR 集群中运行的批处理作业,并且该作业在特定时间触发。 如何在一个 EMR 集群中同时运行这两个作业?

任何建议。

【问题讨论】:

  • 当我上次查看 EMR 时,它并不是故意的,也不是实时 AMAZON 等长期运行的进程告诉我的。很有趣。
  • 是的,它支持实时处理。
  • 与他们告诉我的不同...有趣

标签: pyspark amazon-emr


【解决方案1】:

如果两个 EMR 中的步骤不相互依赖,那么您可以使用 EMR 中名为 Concurrency 的功能来解决您的用例。此功能仅意味着您一次可以并行运行多个步骤。

此功能来自 EMR 版本 5.28.0。如果您使用的是旧版本,则无法使用此功能。

从 AWS 控制台启动 EMR 时,此功能在 UI 中称为 'Concurrency'。您可以选择 1 到 256 之间的任何数字。

如果您从 AWS CLI 启动 EMR,则此功能称为 'StepConcurrencyLevel'

您可以在multiple steps now in EMR AWS CLI details 阅读更多相关信息

【讨论】:

    猜你喜欢
    • 2018-10-19
    • 2019-08-21
    • 1970-01-01
    • 2019-05-30
    • 2020-10-31
    • 1970-01-01
    • 2016-07-20
    • 1970-01-01
    • 2020-11-08
    相关资源
    最近更新 更多