【发布时间】:2015-04-20 13:05:18
【问题描述】:
我在 mahout 中看到了很多需要将输入数据转换为序列文件的示例。 这样做的目的是什么?
【问题讨论】:
我在 mahout 中看到了很多需要将输入数据转换为序列文件的示例。 这样做的目的是什么?
【问题讨论】:
如果您要对大量小文件进行操作,这几乎是不可能的并且浪费资源将它们原样放在 HDFS 中,更简单的替代方法是创建一个序列文件并以这种方式对其进行操作。看到这个:The Small Files Problem
【讨论】: