【问题标题】:Apache pig - Best Hive file formatsApache pig - 最佳 Hive 文件格式
【发布时间】:2017-10-30 16:38:07
【问题描述】:

有人能解释一下 hive 的哪些文件格式可以有效地用于使用 HCatalog 的 pigScript 中。

我想了解哪些 hive 文件格式将是有效的,因为目前我们有一个基于日期的分区 hive 表,而基础文件是一个顺序文件。 阅读 80 天的数据会创建大约 70,000 个映射器,这是非常庞大的。尝试将地图拆分大小更改为 2GB,但并没有减少太多。

因此,与其寻找其他可以减少映射器数量的选项的顺序文件。每个数据的数据大小为 9GB。

有什么建议或灵感吗?

谢谢。

【问题讨论】:

    标签: hive hadoop2 parquet sequential orc


    【解决方案1】:

    据我所知,ORC 是最适合 Hive 的文件格式,它具有高压缩比、高效地处理大量数据并且读取速度更快。 ORC 存储为列并压缩,这会导致更小的磁盘读取。列格式也是 Hive 中矢量化优化的理想选择。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-05-04
      • 1970-01-01
      • 2018-03-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多