【发布时间】:2011-07-17 19:50:37
【问题描述】:
我正在使用 Hadoop Map Reduce 研究维基百科数据转储(以 bz2 格式压缩)。由于这些转储太大(5 T),我无法将 xml 数据解压缩到 HDFS 中,而只能使用 hadoop 提供的 StreamXmlRecordReader。 Hadoop 确实支持解压缩 bz2 文件,但它会任意拆分页面并将其发送到映射器。因为这是 xml,所以我们需要将拆分作为标签。有没有办法同时使用hadoop提供的内置bz2解压和stream xml记录阅读器?
【问题讨论】:
-
为什么需要标签分页?
-
我们希望它们被
标签分割,以便能够在 python 中使用解析器来获取我们需要分析的数据(我们将对以前的修订和文本进行不同类型的分析)所有页面)。 -
按
标签分割是不可行的,因为有许多超过 100Gb 的页面。查看我关于我们刚刚发布的 InputReader 的完整答案。
标签: xml streaming hadoop wikipedia bzip2