分桶的基本概念及注意事项

分桶是将数据集分解成更容易管理的若干部分的另一个技术。
桶表也是一种用于优化查询而设计的表类型:
• 桶是Hive中另一种将数据切分为更小的数据段的方式。
• 在使用桶时,每个桶是一个文件,存储有实际的数据(基于一个哈希算法所 分布的: 同一类型的key的数据,总是被放到同一个桶中).
• 桶并不需要向表添加一个虚拟列。
•创建通表时,指定桶的个数、分桶的依据字段,hive就可以自动将数据分桶存储。
• 查询时只需要遍历一个桶里的数据,或者遍历部分桶,这样就提高了查询效 率。
因为在HDFS 上存储时,一个桶存入一个文件中,这样根据clustered by 字段进行查询时,可以快速确定数据存在于哪个桶中,而只遍历一个桶可以 提供查询效率。

分桶的实例操作

准备student.txt文件

hive分桶

放在/home/hduser/hive-data下

创建一个数据库stu

hive分桶

使用数据库stu

hive分桶

先建一个普通的stu表

hive分桶

向普通的stu表中导入数据

hive分桶

创建分桶表

hive分桶

导入数据到分桶表,通过子查询的方式

hive分桶
hive分桶

查询分桶的数据

hive分桶

在hive中查看每个分桶的内容

hive分桶

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-05-28
  • 2022-12-23
  • 2021-07-21
  • 2021-09-26
  • 2021-12-18
  • 2021-05-03
猜你喜欢
  • 2021-12-15
  • 2021-04-26
  • 2021-11-29
  • 2021-08-17
  • 2021-04-21
  • 2021-12-23
  • 2021-09-13
相关资源
相似解决方案