【问题标题】:Input to the Mapper in HadoopHadoop 中映射器的输入
【发布时间】:2011-04-12 13:43:24
【问题描述】:

我们可以为映射器提供输入文件

FileInputFormat.setInputPaths(conf, inputPath);

是否可以传递对内存的引用,比如使用 DOM 解析器构造的 DOM 树 在解析一个 XML 文件作为 Hadoop 框架的映射器函数的输入之后。

还有哪些可能?

【问题讨论】:

    标签: hadoop


    【解决方案1】:

    不,您不能指定基于内存 (RAM) 的信息。

    原因是通常 Hadoop 应用程序将分布在许多物理上分离的系统上。当前版本的 Hadoop“仅”支持使用 HDFS 的分布式数据......这是一个 file 系统。

    您可以做的是将 DOM 解析器作为预处理步骤添加到您的映射器,并简单地将您的输入测试文件指定为输入。 您可以通过创建自己的 FileInputFormat 派生来最轻松地做到这一点。

    HTH

    【讨论】:

    • 我一直在这样做。只是想确保 Hadoop 仅将文件作为输入
    猜你喜欢
    • 2013-11-06
    • 1970-01-01
    • 2014-01-06
    • 2016-01-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-06-09
    • 2023-03-25
    相关资源
    最近更新 更多