【问题标题】:Why does a hive table need to be bucketed to support ACID transactions?为什么需要对 Hive 表进行分桶以支持 ACID 事务?
【发布时间】:2019-02-20 11:15:29
【问题描述】:

我想知道为什么需要对 hive 表进行分桶以支持 ACID 事务。这只是一些蜂巢怪癖吗?还是有什么原因?

【问题讨论】:

    标签: hive acid


    【解决方案1】:

    以下是关于 hive 压实机的一些信息:

    压缩器运行后台 MapReduce 作业以压缩增量和 基础文件。有两种类型的压缩:主要和次要。这 次要压缩将许多小的 delta 文件合并为一个大 delta 文件。主要压缩更昂贵,它需要增量文件和 将它们与基本文件合并。所有的合并都是通过创建一个新的 文件并删除旧文件。有一个特殊的清洁过程 这样做。 对每个桶分别进行压缩。基地和 增量文件是按桶创建的。

    更多:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions

    所以,桶越多,压缩越快。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-10-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-03
      • 2012-11-12
      相关资源
      最近更新 更多