【发布时间】:2014-11-07 17:41:12
【问题描述】:
我有一个 hadoop 作业,可以将许多部分输出到 hdfs,例如某个文件夹。
例如:
/output/s3/2014-09-10/part...
最好的方法是什么,使用s3 java api将这些部分上传到s3中的signle文件
例如
s3:/jobBucket/output-file-2014-09-10.csv
作为一种可能的解决方案,可以选择合并部分并将结果写入 hdfs 单个文件,但这会创建双 I/O。 使用单个减速器也不是选项
谢谢,
【问题讨论】: