【发布时间】:2017-05-15 15:40:00
【问题描述】:
我通过 spark-submit 使用我的 jar 文件在纱线集群模式下部署作业。每次我使用“相同的 jar 文件”提交时部署的作业,但每次提交时都会上传到 hadoop。我认为每次都上传同一个 jar 是不必要的。有什么方法可以上传一次并使用 jar 进行纱线作业?
【问题讨论】:
我通过 spark-submit 使用我的 jar 文件在纱线集群模式下部署作业。每次我使用“相同的 jar 文件”提交时部署的作业,但每次提交时都会上传到 hadoop。我认为每次都上传同一个 jar 是不必要的。有什么方法可以上传一次并使用 jar 进行纱线作业?
【问题讨论】:
您可以将您的 spark jar 放入 hdfs,然后使用 --master yarn-cluster 模式,这样您可以节省每次将 jar 上传到 hdfs 所需的时间。
其他替代方法是将您的 jar 放在每个节点上的 spark 类路径中,这有以下缺点:
【讨论】: