【发布时间】:2019-02-20 11:15:29
【问题描述】:
我想知道为什么需要对 hive 表进行分桶以支持 ACID 事务。这只是一些蜂巢怪癖吗?还是有什么原因?
【问题讨论】:
我想知道为什么需要对 hive 表进行分桶以支持 ACID 事务。这只是一些蜂巢怪癖吗?还是有什么原因?
【问题讨论】:
以下是关于 hive 压实机的一些信息:
压缩器运行后台 MapReduce 作业以压缩增量和 基础文件。有两种类型的压缩:主要和次要。这 次要压缩将许多小的 delta 文件合并为一个大 delta 文件。主要压缩更昂贵,它需要增量文件和 将它们与基本文件合并。所有的合并都是通过创建一个新的 文件并删除旧文件。有一个特殊的清洁过程 这样做。 对每个桶分别进行压缩。基地和 增量文件是按桶创建的。
更多:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions
所以,桶越多,压缩越快。
【讨论】: