【发布时间】:2021-07-06 01:17:54
【问题描述】:
我试图通过使用数据的放置方式来理解以下查询。
CREATE TABLE mytable (
name string,
city string,
employee_id int )
PARTITIONED BY (year STRING, month STRING, day STRING)
CLUSTERED BY (employee_id) INTO 256 BUCKETS
关键字PARTITIONED BY会像dir结构一样将数据分布在下面。
/user/hive/warehouse/mytable/y=2015/m=12/d=02
但我无法理解,employee_id 将如何分布在这些目录中?将创建 256 个存储桶(文件),所有这些文件都将拥有 employee_id,但哪个文件将位于哪个目录下,这将如何决定?
谁能帮我理解这个?
【问题讨论】:
标签: hadoop hive hadoop-partitioning hive-partitions hiveddl