【发布时间】:2011-08-18 04:38:14
【问题描述】:
我在 hdfs 中有近 200 多个 xml 文件。我使用 XmlInputFormat(mahout 的)来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件被单独处理。但是当我们处理大量的小文本文件时,处理完第一个文件后,下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为,以及应该如何迭代整个 xml 文件集。谢谢。
【问题讨论】:
-
你能说明你是如何启动mapredce的吗?你能提供你正在做什么的例子吗?可能是从不正确地启动 mapreduce 到写得不好的 mapper 等等……没有足够的信息。