【问题标题】:Mahout: Why do we convert the input data to sequence files?Mahout:我们为什么要将输入数据转换为序列文件?
【发布时间】:2015-04-20 13:05:18
【问题描述】:

我在 mahout 中看到了很多需要将输入数据转换为序列文件的示例。 这样做的目的是什么?

【问题讨论】:

    标签: hadoop mahout


    【解决方案1】:

    如果您要对大量小文件进行操作,这几乎是不可能的并且浪费资源将它们原样放在 HDFS 中,更简单的替代方法是创建一个序列文件并以这种方式对其进行操作。看到这个:The Small Files Problem

    【讨论】:

      猜你喜欢
      • 2014-04-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-10-13
      • 2013-02-13
      • 1970-01-01
      • 2015-02-22
      • 2013-05-26
      相关资源
      最近更新 更多