【发布时间】:2017-10-30 16:38:07
【问题描述】:
有人能解释一下 hive 的哪些文件格式可以有效地用于使用 HCatalog 的 pigScript 中。
我想了解哪些 hive 文件格式将是有效的,因为目前我们有一个基于日期的分区 hive 表,而基础文件是一个顺序文件。 阅读 80 天的数据会创建大约 70,000 个映射器,这是非常庞大的。尝试将地图拆分大小更改为 2GB,但并没有减少太多。
因此,与其寻找其他可以减少映射器数量的选项的顺序文件。每个数据的数据大小为 9GB。
有什么建议或灵感吗?
谢谢。
【问题讨论】:
标签: hive hadoop2 parquet sequential orc