【发布时间】:2019-04-05 07:09:44
【问题描述】:
我即将尝试 EMR,然后现在就开始阅读文档。我对提交过程有点困惑。
1) spark 库在哪里
从 Spark 文档中我们发现:
- spark.yarn.jars: 包含要分发到 YARN 容器的 Spark 代码的库列表。默认情况下,YARN 上的 Spark 将使用本地安装的 Spark jar,但 Spark jar 也可以位于 HDFS 上的世界可读位置。这允许 YARN 将其缓存在节点上,这样就不需要在每次应用程序运行时分发它。例如,要指向 HDFS 上的 jar,将此配置设置为 hdfs:///some/path。允许使用 Glob。
- (a) 我想知道 EMR 是如何设置的,即它是由 EMR 设置还是我必须自己设置?
2) --master 参数如何工作?
来自我们拥有的 spark 文档:
----master:与 Spark 支持的其他集群管理器不同,在 --master 参数中指定了 master 的地址,在 YARN 模式下,ResourceManager 的地址是从 Hadoop 配置中获取的。因此,--master 参数是 yarn。
- (a) 是由 EMR 直接设置的吗?
3) 有没有办法从终端提交应用程序,或者是在 S3 上实际部署 jar 的唯一方法? 我可以登录到 master 并从那里提交?提交脚本所需的所有 Env 变量是否准备就绪(请参阅上一个问题)?进行此提交的最有效方法是什么?
【问题讨论】: