【问题标题】:Spark with custom Hadoop FileSystemSpark 与自定义 Hadoop 文件系统
【发布时间】:2015-04-10 15:39:51
【问题描述】:

我已经有一个带有 Yarn 的集群,配置为使用 core-site.xml 中的自定义 Hadoop 文件系统:

<property>
    <name>fs.custom.impl</name>
    <value>package.of.custom.class.CustomFileSystem</value>
</property>

我想在这个 Yarn 集群上运行一个 Spark Job,它从这个 CustomFilesystem 读取一个输入 RDD:

final JavaPairRDD<String, String> files = 
        sparkContext.wholeTextFiles("custom://path/to/directory");

有没有什么方法可以在不重新配置 Spark 的情况下做到这一点?即我可以将 Spark 指向现有的 core-site.xml,最好的方法是什么?

【问题讨论】:

    标签: hadoop apache-spark hadoop-yarn


    【解决方案1】:

    HADOOP_CONF_DIR 设置为包含core-site.xml 的目录。 (这在Running Spark on YARN 中有记录。)

    您仍然需要确保 package.of.custom.class.CustomFileSystem 在类路径中。

    【讨论】:

    • 谢谢,我没看过这个!
    猜你喜欢
    • 2016-09-23
    • 2019-09-23
    • 1970-01-01
    • 2015-03-03
    • 1970-01-01
    • 1970-01-01
    • 2014-08-22
    • 1970-01-01
    • 2013-02-04
    相关资源
    最近更新 更多