使用与 Spark-submit 相同的 jar答案

【问题标题】：Using same jar with Spark-submit使用与 Spark-submit 相同的 jar
【发布时间】：2017-05-15 15:40:00
【问题描述】：

我通过 spark-submit 使用我的 jar 文件在纱线集群模式下部署作业。每次我使用“相同的 jar 文件”提交时部署的作业，但每次提交时都会上传到 hadoop。我认为每次都上传同一个 jar 是不必要的。有什么方法可以上传一次并使用 jar 进行纱线作业？

【问题讨论】：

【解决方案1】：

您可以将您的 spark jar 放入 hdfs，然后使用 --master yarn-cluster 模式，这样您可以节省每次将 jar 上传到 hdfs 所需的时间。

其他替代方法是将您的 jar 放在每个节点上的 spark 类路径中，这有以下缺点：

【讨论】：

在 hdfs 中使用哪个密码无关紧要？
只需将其保存在您的用户（运行 spark 作业）可以读取的位置。
不需要其他配置吗？当我将文件放在 hdfs 上并且没有设置应用程序资源路径时，它带有错误..
问题是您可能正在从您的节点读取资源文件，该节点在纱线客户端模式下充当驱动程序。但是，当您在 yarn-cluster 模式下运行作业时，您的驱动程序不是您启动作业的节点，因此您必须将资源文件保存在 hdfs 中。