【问题标题】:How to change the FileSplit size in new Hadoop api如何在新的 Hadoop api 中更改 FileSplit 大小
【发布时间】:2015-12-08 21:57:13
【问题描述】:

在新的 Hadoop api 中,映射器的数量无法明确设置,我想将 SplitSize 更改为比默认值更小的数字,以便执行更多的映射器。如何在新的 Hadoop api 中做到这一点?

我尝试了以下方法,但它不起作用

 conf.setLong(FileInputFormat.Split_MAXSIZE, 16 * 1024 * 1024)

【问题讨论】:

    标签: hadoop mapreduce hadoop2


    【解决方案1】:

    您必须根据您的要求更改以下参数。

    mapreduce.input.fileinputformat.split.minsize
    

    mapreduce.input.fileinputformat.split.maxsize
    

    查看link 了解更多详情。

    【讨论】:

    • 我在我的代码中设置了这个值,但是貌似没有效果!
    • 你的 hadoop 版本是什么?我在 hadoop 2.x 版本中提供了参数。
    • 您是否更改了配置文件?如果这不起作用,请在执行 jar 时从命令行传递这些值。
    • 从命令行传递它们是可行的,但是当我以编程方式设置它们时它不起作用,我需要以编程方式设置它。我应该设置两个参数,因为我只设置了最大参数吗?
    • 对于您的要求,max 就足够了。在配置文件中设置最小值,所有作业通用
    【解决方案2】:

    它是mapreduce.input.fileinputformat.split.minsize。如果它不起作用,请分享您的代码,我会看看它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-03-29
      • 2023-03-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-07-08
      相关资源
      最近更新 更多