【发布时间】:2015-04-10 15:39:51
【问题描述】:
我已经有一个带有 Yarn 的集群,配置为使用 core-site.xml 中的自定义 Hadoop 文件系统:
<property>
<name>fs.custom.impl</name>
<value>package.of.custom.class.CustomFileSystem</value>
</property>
我想在这个 Yarn 集群上运行一个 Spark Job,它从这个 CustomFilesystem 读取一个输入 RDD:
final JavaPairRDD<String, String> files =
sparkContext.wholeTextFiles("custom://path/to/directory");
有没有什么方法可以在不重新配置 Spark 的情况下做到这一点?即我可以将 Spark 指向现有的 core-site.xml,最好的方法是什么?
【问题讨论】:
标签: hadoop apache-spark hadoop-yarn