【问题标题】:Using same jar with Spark-submit使用与 Spark-submit 相同的 jar
【发布时间】:2017-05-15 15:40:00
【问题描述】:

我通过 spark-submit 使用我的 jar 文件在纱线集群模式下部署作业。每次我使用“相同的 jar 文件”提交时部署的作业,但每次提交时都会上传到 hadoop。我认为每次都上传同一个 jar 是不必要的。有什么方法可以上传一次并使用 jar 进行纱线作业?

【问题讨论】:

    标签: apache-spark hadoop-yarn


    【解决方案1】:

    您可以将您的 spark jar 放入 hdfs,然后使用 --master yarn-cluster 模式,这样您可以节省每次将 jar 上传到 hdfs 所需的时间。

    其他替代方法是将您的 jar 放在每个节点上的 spark 类路径中,这有以下缺点:

    1. 如果您有超过 30 个节点,那么在每个节点中对 jar 进行 scp 会非常繁琐。
    2. 如果您升级了 hadoop 集群并且有新安装的 spark,则必须重新部署。

    【讨论】:

    • 在 hdfs 中使用哪个密码无关紧要?
    • 只需将其保存在您的用户(运行 spark 作业)可以读取的位置。
    • 不需要其他配置吗?当我将文件放在 hdfs 上并且没有设置应用程序资源路径时,它带有错误..
    • 问题是您可能正在从您的节点读取资源文件,该节点在纱线客户端模式下充当驱动程序。但是,当您在 yarn-cluster 模式下运行作业时,您的驱动程序不是您启动作业的节点,因此您必须将资源文件保存在 hdfs 中。
    猜你喜欢
    • 2020-04-24
    • 2018-08-12
    • 1970-01-01
    • 1970-01-01
    • 2015-06-08
    • 2017-12-25
    • 1970-01-01
    • 2021-02-24
    • 2019-03-01
    相关资源
    最近更新 更多