【发布时间】:2013-09-04 15:48:46
【问题描述】:
根据我的理解,Map/Reduce 更适用于大文件。 (我理解这是由于拆分逻辑等原因),我们可以将文件作为值和文件名作为键放在序列文件中并进行优化。
现在的问题是我正在使用 PIG 进行分析,我们有大约数千个文件,但所有文件都以 KB 为单位。我们知道猪拉丁语被转换并作为 MR 作业运行,所以我怀疑 MR 作业由于文件小而效率低。
有什么方法可以让我对处理 pig 的小文件进行一些控制? 有没有开箱即用的解决方案?
【问题讨论】:
-
几千 KB 可以轻松放入内存中。你为什么要为此使用 Hadoop/PIG?
-
数千个文件,每个 ~1000 KB 可能无法放入内存
标签: hadoop mapreduce apache-pig