【问题标题】:Limit reducer output file size with Scalding使用 Scalding 限制减速器输出文件大小
【发布时间】:2016-01-04 12:33:54
【问题描述】:

我正在使用 Scalding,我们有大约 5.5GB 的输出文件大小。 (例如,对于 30 个减速器,有 30 个 5.5GB 文件)。有没有办法说,将输出文件限制为每个 512MB?我可以增加 reducer 的数量,但希望能更有活力。

【问题讨论】:

  • AFAIK 无法限制减速器中的文件大小,因此减速器的数量似乎是要走的路。您能否再解释一下为什么需要限制文件大小?

标签: hadoop cascading scalding


【解决方案1】:

我不确定 Scalding,但在典型的 map reduce 中,您可以通过实现多种输出格式来增加输出文件的数量。您可以根据键生成文件名前缀(默认使用部分作为前缀)。

【讨论】:

  • @BenWatson 我认为 Durga 的意思是,您可以制作自定义输出文件格式,将输出分割成多个文件,这是一个合理的建议,因为请求者不想更改减速器。
猜你喜欢
  • 2018-09-10
  • 2011-09-15
  • 1970-01-01
  • 2017-01-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-05-24
  • 1970-01-01
相关资源
最近更新 更多