【发布时间】:2019-08-19 23:03:56
【问题描述】:
我有一堆 SQOOP 作业,我想通过 EMR add-step 启动它们。 我现有的本地方法是并行运行它们,直到 YARN 资源耗尽。
我注意到,当我为单个 SQOOP 作业创建一堆添加步骤时,它们本质上是连续的。 问题:有没有办法让我并行运行我的添加步骤? (限制:我无权访问主节点直接启动应用程序。)
我确定我在这里遗漏了一些微不足道的东西;因为这听起来像是一个巨大的限制,即使用 add-step 在 EMR 中无法进行并行处理。
..玛纳斯
PS:我可以将它们作为多线程运行,但我不会获得针对 YARN 启动的不同应用程序的日志。
【问题讨论】:
-
我不确定并行作业的内容,但如果您没有对主节点的 SSH 访问权限并且您希望执行 bash 命令,您可以通过 AWS SSM 的 RunCommand 执行此操作
-
抱歉,这行不通。我的问题本质上是关于使用添加步骤实现本地的功能奇偶性。
-
TL;DR: no :) this 回答中的一个很好的解释
-
我不认为 [stackoverflow.com/questions/43121382/… [此链接] 涵盖了实际问题。我的集群配置了公平调度程序。我面临的问题是 add-step 甚至没有并行提交作业。 AWS EMR 将它们排队并按顺序发送。因此,即使我的每个作业都占用了总资源的 5%,但由于作业不会并行运行,因此集群的利用率很低。这里的问题候选是添加步骤通过自己的队列。 (不同于 Yarn 队列)
标签: amazon-web-services hadoop-yarn sqoop amazon-emr