Apache pig - 最佳 Hive 文件格式答案

【问题标题】：Apache pig - Best Hive file formatsApache pig - 最佳 Hive 文件格式
【发布时间】：2017-10-30 16:38:07
【问题描述】：

有人能解释一下 hive 的哪些文件格式可以有效地用于使用 HCatalog 的 pigScript 中。

我想了解哪些 hive 文件格式将是有效的，因为目前我们有一个基于日期的分区 hive 表，而基础文件是一个顺序文件。阅读 80 天的数据会创建大约 70,000 个映射器，这是非常庞大的。尝试将地图拆分大小更改为 2GB，但并没有减少太多。

因此，与其寻找其他可以减少映射器数量的选项的顺序文件。每个数据的数据大小为 9GB。

有什么建议或灵感吗？

谢谢。

【问题讨论】：

【解决方案1】：

据我所知，ORC 是最适合 Hive 的文件格式，它具有高压缩比、高效地处理大量数据并且读取速度更快。 ORC 存储为列并压缩，这会导致更小的磁盘读取。列格式也是 Hive 中矢量化优化的理想选择。

【讨论】：