【发布时间】:2015-03-07 10:20:28
【问题描述】:
请帮助我澄清我的疑问。我不确定在 HIVE 中分区的目的。这是我想要做的。下面是我的数据文件:
文件: 基肖尔,31 拉梅什,32 基肖尔,33 拉梅什,34
我创建了一个Partitioned managed table EMP,如下图:
创建表 EMP (name string,age int) 由(国家字符串,州字符串)分区 以','结尾的行格式分隔字段;
现在我正在加载数据,如下所示: 将数据本地 inpath '/../../file' 加载到表 EMP 分区(国家 = 'US',州 = 'Oklahoma');
所以现在我的数据表应该是这样的:kishore,31,US,Oklahoma ramesh,32,US,Oklahoma kishore,33,US,Oklahoma ramesh,34,US,Oklahoma。
我的问题是分区在这里有什么用处?即使它是一个具有国家和州列的非分区表,如果我会给出 select * form EMP(对于非分区表)或 select * from EMP where country = US and state = Oklahoma(对于分区表),我得到相同的结果,它是一件事或同一件事。性能如何提升?
谢谢!
【问题讨论】:
标签: hive