【问题标题】:Spark classpath in HDFSHDFS 中的 Spark 类路径
【发布时间】:2016-01-16 21:33:20
【问题描述】:

对于在 YARN (yarn-client) 上运行的 Spark 作业,是否可以使用位于 HDFS 中的 jar 指定类路径

有点像 Map Reduce 作业可以使用:

DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)

【问题讨论】:

    标签: hadoop apache-spark hdfs hadoop-yarn


    【解决方案1】:

    来自 SparkContext 文档:

    def addJar(路径:字符串): 单位

    为所有任务添加一个 JAR 依赖项 将来在此 SparkContext 上执行。传递的路径可以是 本地文件、HDFS 中的文件(或其他 Hadoop 支持的文件) 文件系统)、HTTP、HTTPS 或 FTP URI,或本地文件的路径: 每个工作节点。

    所以我认为在你的 sparkContext 初始化中添加这个就足够了:

    sc.addJar("hdfs://your/path/to/whatever.jar")
    

    如果你只想添加一个文件,有一个相关的addFile()方法。

    请参阅docs 了解更多信息。

    【讨论】:

      猜你喜欢
      • 2015-08-20
      • 1970-01-01
      • 2016-12-04
      • 1970-01-01
      • 2016-11-05
      • 1970-01-01
      • 2014-07-27
      • 2019-09-02
      • 1970-01-01
      相关资源
      最近更新 更多