【问题标题】:XML Processing in hadoophadoop 中的 XML 处理
【发布时间】:2011-08-18 04:38:14
【问题描述】:

我在 hdfs 中有近 200 多个 xml 文件。我使用 XmlInputFormat(mahout 的)来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第一个 xml 文件被单独处理。但是当我们处理大量的小文本文件时,处理完第一个文件后,下一个文件将由 Hadoop 传递给映射器。让我知道这是否不是 xml 文件的默认行为,以及应该如何迭代整个 xml 文件集。谢谢。

【问题讨论】:

  • 你能说明你是如何启动mapredce的吗?你能提供你正在做什么的例子吗?可能是从不正确地启动 mapreduce 到写得不好的 mapper 等等……没有足够的信息。

标签: xml hadoop mahout


【解决方案1】:

我很幸运地使用了普通的XmlStreamRecordReader 类,然后在标准输入上循环(使用 Python、Hadoop Streaming API)。

文件有多大,您是在单个系统还是多节点集群上运行它? HDFS 块大小设置为多少?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-27
    • 1970-01-01
    • 2012-09-02
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多