【问题标题】:How to get Mapreduce output in a single file instead of multiple files in Hadoop Cluster on Google Cloud?如何在单个文件中获取 Mapreduce 输出,而不是 Google Cloud 上 Hadoop 集群中的多个文件?
【发布时间】:2015-01-25 20:19:34
【问题描述】:

当我在本地 hadoop 多节点集群上运行我的 jar 时,我可以看到减速器的输出,并且每个作业都是一个文件。

但是当我在 Google Cloud 上运行同一个 jar 时,我得到了多个输出文件(part-r-0000*)。相反,我需要的是将所有输出写入单个文件。我该怎么做?

【问题讨论】:

    标签: hadoop google-cloud-platform


    【解决方案1】:

    一个简单的解决方案是将作业配置为仅使用一个减速器运行。似乎在 Google Cloud 上的默认设置有所不同。请参阅此处了解如何执行此操作:Setting the Number of Reducers in a MapReduce job which is in an Oozie Workflow

    解决这个问题的另一种方法是在 map reduce 作业结束时运行一个连接脚本,将所有 part-r 文件拼凑在一起,例如

    cat *part-r* >>alloutput
    

    如果你有标题可能会有点复杂,而且你需要先复制到本地。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-10-25
      • 1970-01-01
      • 1970-01-01
      • 2015-04-28
      • 2011-07-05
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多