【问题标题】:How to create small files while inserting data to hive ORC table using TEZ如何在使用 TEZ 向 hive ORC 表中插入数据时创建小文件
【发布时间】:2018-02-23 16:40:39
【问题描述】:

我尝试了几个选项,但我只看到了将小文件合并到大文件的配置设置,如下所示,反之亦然。我正在寻找大小为 150kb 的文件。

set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;

【问题讨论】:

    标签: hive orc apache-tez


    【解决方案1】:

    您可以尝试设置 ORC 块大小hive.exec.orc.default.block.size。同样要跳过小文件的合并,您需要禁用标志。 set hive.merge.tezfiles=false; 您可以参考Hortonworks community thread link 了解有关如何生成文件的更多信息。

    【讨论】:

      【解决方案2】:

      尝试以下设置,这些应该有助于保存小文件:

      set hive.merge.tezfiles=true;
      set hive.merge.smallfiles.avgsize=128000;
      set hive.merge.size.per.task=128000;
      set mapreduce.input.fileinputformat.split.minsize=100;
      set mapreduce.input.fileinputformat.split.maxsize=128000;
      set hive.exec.orc.default.block.size=128000;
      

      【讨论】:

        猜你喜欢
        • 2014-02-16
        • 2018-06-09
        • 2017-08-25
        • 2023-04-03
        • 1970-01-01
        • 2018-04-10
        • 1970-01-01
        • 2018-06-28
        • 2020-05-04
        相关资源
        最近更新 更多