【发布时间】:2011-04-12 13:43:24
【问题描述】:
我们可以为映射器提供输入文件
FileInputFormat.setInputPaths(conf, inputPath);
是否可以传递对内存的引用,比如使用 DOM 解析器构造的 DOM 树 在解析一个 XML 文件作为 Hadoop 框架的映射器函数的输入之后。
还有哪些可能?
【问题讨论】:
标签: hadoop
我们可以为映射器提供输入文件
FileInputFormat.setInputPaths(conf, inputPath);
是否可以传递对内存的引用,比如使用 DOM 解析器构造的 DOM 树 在解析一个 XML 文件作为 Hadoop 框架的映射器函数的输入之后。
还有哪些可能?
【问题讨论】:
标签: hadoop
不,您不能指定基于内存 (RAM) 的信息。
原因是通常 Hadoop 应用程序将分布在许多物理上分离的系统上。当前版本的 Hadoop“仅”支持使用 HDFS 的分布式数据......这是一个 file 系统。
您可以做的是将 DOM 解析器作为预处理步骤添加到您的映射器,并简单地将您的输入测试文件指定为输入。 您可以通过创建自己的 FileInputFormat 派生来最轻松地做到这一点。
HTH
【讨论】: