【问题标题】:Handling small files with PIG用 PIG 处理小文件
【发布时间】:2013-09-04 15:48:46
【问题描述】:

根据我的理解,Map/Reduce 更适用于大文件。 (我理解这是由于拆分逻辑等原因),我们可以将文件作为值和文件名作为键放在序列文件中并进行优化。

现在的问题是我正在使用 PIG 进行分析,我们有大约数千个文件,但所有文件都以 KB 为单位。我们知道猪拉丁语被转换并作为 MR 作业运行,所以我怀疑 MR 作业由于文件小而效率低。

有什么方法可以让我对处理 pig 的小文件进行一些控制? 有没有开箱即用的解决方案?

【问题讨论】:

  • 几千 KB 可以轻松放入内存中。你为什么要为此使用 Hadoop/PIG?
  • 数千个文件,每个 ~1000 KB 可能无法放入内存

标签: hadoop mapreduce apache-pig


【解决方案1】:

Pig 具有将小文件组合成更大块的功能: http://pig.apache.org/docs/r0.11.1/perf.html#combine-files

【讨论】:

  • 感谢 Ruslan,这是我一直在寻找的东西 :)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多