HDFS 中的 Spark 类路径

【问题标题】：Spark classpath in HDFSHDFS 中的 Spark 类路径
【发布时间】：2016-01-16 21:33:20
【问题描述】：

对于在 YARN (yarn-client) 上运行的 Spark 作业，是否可以使用位于 HDFS 中的 jar 指定类路径

有点像 Map Reduce 作业可以使用：

DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)

【问题讨论】：

【解决方案1】：

来自 SparkContext 文档：

def addJar（路径：字符串）：单位

为所有任务添加一个 JAR 依赖项将来在此 SparkContext 上执行。传递的路径可以是本地文件、HDFS 中的文件（或其他 Hadoop 支持的文件）文件系统）、HTTP、HTTPS 或 FTP URI，或本地文件的路径：每个工作节点。

所以我认为在你的 sparkContext 初始化中添加这个就足够了：

sc.addJar("hdfs://your/path/to/whatever.jar")

如果你只想添加一个文件，有一个相关的addFile()方法。

请参阅docs 了解更多信息。

【讨论】：