hadoop 中的 XML 处理答案

【问题标题】：XML Processing in hadoophadoop 中的 XML 处理
【发布时间】：2011-08-18 04:38:14
【问题描述】：

我在 hdfs 中有近 200 多个 xml 文件。我使用 XmlInputFormat（mahout 的）来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件被单独处理。但是当我们处理大量的小文本文件时，处理完第一个文件后，下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为，以及应该如何迭代整个 xml 文件集。谢谢。

【问题讨论】：

你能说明你是如何启动mapredce的吗？你能提供你正在做什么的例子吗？可能是从不正确地启动 mapreduce 到写得不好的 mapper 等等……没有足够的信息。

标签： xml hadoop mahout

【解决方案1】：

我很幸运地使用了普通的XmlStreamRecordReader 类，然后在标准输入上循环（使用 Python、Hadoop Streaming API）。

文件有多大，您是在单个系统还是多节点集群上运行它？ HDFS 块大小设置为多少？

【讨论】：