【问题标题】:Spark classpath in HDFSHDFS 中的 Spark 类路径
【发布时间】:2016-01-16 21:33:20
【问题描述】:
对于在 YARN (yarn-client) 上运行的 Spark 作业,是否可以使用位于 HDFS 中的 jar 指定类路径
有点像 Map Reduce 作业可以使用:
DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)
【问题讨论】:
标签:
hadoop
apache-spark
hdfs
hadoop-yarn
【解决方案1】:
来自 SparkContext 文档:
def addJar(路径:字符串):
单位
为所有任务添加一个 JAR 依赖项
将来在此 SparkContext 上执行。传递的路径可以是
本地文件、HDFS 中的文件(或其他 Hadoop 支持的文件)
文件系统)、HTTP、HTTPS 或 FTP URI,或本地文件的路径:
每个工作节点。
所以我认为在你的 sparkContext 初始化中添加这个就足够了:
sc.addJar("hdfs://your/path/to/whatever.jar")
如果你只想添加一个文件,有一个相关的addFile()方法。
请参阅docs 了解更多信息。